GPT-5 رونمایی شد؛ استدلال می‌آورد، جنجال هم می‌آورد

1 روز پیش

زمان تقریبی مطالعه 3 دقیقه

GPT-5 رونمایی شد؛ استدلال می‌آورد، جنجال هم می‌آورد

در جلسه پرسش‌وپاسخ (AMA) روز جمعه در Reddit، سم آلتمن، مدیرعامل OpenAI، و اعضای کلیدی تیم GPT-5 با سوالات زیادی درباره مدل جدید و درخواست‌هایی برای بازگرداندن مدل قبلی، GPT-4o، مواجه شدند.

آنها همچنین از آلتمن درباره شرم‌آورترین و شاید خنده‌دارترین اشتباه در ارائه، یعنی «جنایت نموداری» پرسیدند.

یکی از ویژگی‌های جدیدی که GPT-5 ارائه کرده، یک روتر (مسیریاب) بلادرنگ است که تصمیم می‌گیرد از کدام مدل برای یک پرامپت خاص استفاده کند؛ یا سریع پاسخ دهد یا زمان بیشتری برای «فکر کردن» به پاسخ‌ها صرف کند.

اما چندین نفر در جلسه AMA در Reddit (در انجمن r/ChatGPT) شکایت داشتند که GPT-5 برایشان به خوبی 4o کار نمی‌کند. آلتمن گفت دلیل «به نظر احمقانه‌تر آمدن» GPT-5 این بود که روتر در زمان عرضه در روز پنج‌شنبه به درستی کار نمی‌کرد.

آلتمن گفت: «از امروز، GPT-5 هوشمندتر به نظر می‌رسد. دیروز، ما یک “sev” (مشکل سطح بالا) داشتیم و سوئیچ خودکار برای بخشی از روز از کار افتاده بود و نتیجه این شد که GPT-5 خیلی احمق‌تر به نظر می‌رسید. همچنین، ما در حال انجام مداخلاتی در نحوه عملکرد مرز تصمیم‌گیری هستیم که به شما کمک کند بیشتر مواقع مدل مناسب را دریافت کنید. ما شفافیت بیشتری ایجاد خواهیم کرد که کدام مدل به یک پرسش خاص پاسخ می‌دهد.»

با این حال، افراد حاضر در جلسه AMA چنان برای بازگرداندن مدل 4o برای مشترکان Plus لابی کردند که آلتمن قول داد حداقل آن را بررسی کند. او نوشت: «ما در حال بررسی این موضوع هستیم که به کاربران Plus اجازه دهیم به استفاده از 4o ادامه دهند. ما سعی داریم داده‌های بیشتری در مورد این مبادله‌ها جمع‌آوری کنیم.»

آلتمن همچنین توضیح داد: «زمانی که استقرار را کامل کنیم، محدودیت نرخ (تعداد درخواست) را برای کاربران Plus دو برابر خواهیم کرد.» این کار باید به مردم فرصت دهد تا با مدل جدید بازی کنند و یاد بگیرند و آن را برای موارد استفاده خود بدون نگرانی از تمام شدن پرامپت‌های ماهانه تطبیق دهند.

قابل پیش‌بینی بود که از او در مورد نمودار به شدت نادرستی که تیم در طول ارائه زنده نشان داد و به سرعت به شوخی «جنایت نموداری» تبدیل شد نیز سوال شد. این نمودار نمره پایین‌تری را با میله‌ای بسیار بلندتر نشان می‌داد.

آلتمن در طول جلسه AMA به سوالات مربوط به نمودار پاسخ نداد، اما روز پنج‌شنبه در ایکس (توییتر سابق) این نمودار را یک «اشتباه عظیم نموداری» نامید. دیگران اشاره کردند که نمودارهای موجود در پست وبلاگ منتشر شده صحیح بودند.

اما آسیب آن انجام شده بود. جوک‌هایی درباره استفاده از GPT برای نمودارها در ارائه‌های شرکتی درگرفت. سایمون ویلیسون (Simon Willison)، بازبین GPT-5 که دسترسی زودهنگام داشت و عموماً عملکرد مدل را دوست داشت، نیز اشاره کرد که تبدیل داده به جدول «نمونه خوبی از شکست GPT-5» بود.

در هر صورت، آلتمن وعده رفع مواردی را داد که به نظر می‌رسید مردم را بیشتر نگران کرده است. او جلسه AMA را با این قول به پایان رساند: «ما به کار ادامه خواهیم داد تا اوضاع را پایدار کنیم و به شنیدن بازخوردها ادامه خواهیم داد.»

نکات کلیدی:

معماری جدید: GPT-5 در واقع یک مدل واحد نیست، بلکه مجموعه‌ای از مدل‌هاست. یک روتر هوشمند درخواست‌های ساده را به مدل‌های کوچک‌تر و سریع‌تر و درخواست‌های پیچیده را به مدل‌های استدلال عمیق‌تر هدایت می‌کند.

عملکرد فنی: طبق اعلام OpenAI، میزان توهم (hallucination) در GPT-5 تا ۸۰ درصد نسبت به مدل قبلی o3 کاهش یافته و نرخ فریبکاری از ۴.۸ درصد به ۲.۱ درصد رسیده است . مدل در برخی بنچمارک‌ها مانند ریاضی (AIME 2025) و کدنویسی (SWE-bench) پیشرفت‌های قابل توجهی داشته.

جنجال ریاضی: در جریان رونمایی، ادعایی مبنی بر حل مسائل حل‌نشده ریاضی توسط GPT-5 مطرح شد که بعداً مشخص شد مدل صرفاً در یافتن مقالات علمی موجود موفق بوده، نه حل مستقل آن مسائل. این موضوع با واکنش تند مدیر DeepMind (دمیس حسابیس) و دانشمندان دیگر مواجه شد.

امنیت و والدین: در واکنش به حوادث تراژیک مرتبط با سلامت روان کاربران نوجوان، OpenAI اعلام کرده که مکالمات حساس را به مدل‌های استدلالی مانند GPT-5 هدایت می‌کند و به زودی کنترل‌های والدینی برای نظارت بر استفاده نوجوانان عرضه خواهد کرد.

توضیح ایتنا: این مطلب، به دلیل محدودیت‌های عمومی اینترنت کشور، به کمک هوش مصنوعی تهیه شده است.

1 روز پیش

زمان تقریبی مطالعه 3 دقیقه

مشاهده بیشتر