GPT-5 رونمایی شد؛ استدلال میآورد، جنجال هم میآورد

آنها همچنین از آلتمن درباره شرمآورترین و شاید خندهدارترین اشتباه در ارائه، یعنی «جنایت نموداری» پرسیدند.
یکی از ویژگیهای جدیدی که GPT-5 ارائه کرده، یک روتر (مسیریاب) بلادرنگ است که تصمیم میگیرد از کدام مدل برای یک پرامپت خاص استفاده کند؛ یا سریع پاسخ دهد یا زمان بیشتری برای «فکر کردن» به پاسخها صرف کند.
اما چندین نفر در جلسه AMA در Reddit (در انجمن r/ChatGPT) شکایت داشتند که GPT-5 برایشان به خوبی 4o کار نمیکند. آلتمن گفت دلیل «به نظر احمقانهتر آمدن» GPT-5 این بود که روتر در زمان عرضه در روز پنجشنبه به درستی کار نمیکرد.
آلتمن گفت: «از امروز، GPT-5 هوشمندتر به نظر میرسد. دیروز، ما یک “sev” (مشکل سطح بالا) داشتیم و سوئیچ خودکار برای بخشی از روز از کار افتاده بود و نتیجه این شد که GPT-5 خیلی احمقتر به نظر میرسید. همچنین، ما در حال انجام مداخلاتی در نحوه عملکرد مرز تصمیمگیری هستیم که به شما کمک کند بیشتر مواقع مدل مناسب را دریافت کنید. ما شفافیت بیشتری ایجاد خواهیم کرد که کدام مدل به یک پرسش خاص پاسخ میدهد.»
با این حال، افراد حاضر در جلسه AMA چنان برای بازگرداندن مدل 4o برای مشترکان Plus لابی کردند که آلتمن قول داد حداقل آن را بررسی کند. او نوشت: «ما در حال بررسی این موضوع هستیم که به کاربران Plus اجازه دهیم به استفاده از 4o ادامه دهند. ما سعی داریم دادههای بیشتری در مورد این مبادلهها جمعآوری کنیم.»
آلتمن همچنین توضیح داد: «زمانی که استقرار را کامل کنیم، محدودیت نرخ (تعداد درخواست) را برای کاربران Plus دو برابر خواهیم کرد.» این کار باید به مردم فرصت دهد تا با مدل جدید بازی کنند و یاد بگیرند و آن را برای موارد استفاده خود بدون نگرانی از تمام شدن پرامپتهای ماهانه تطبیق دهند.
قابل پیشبینی بود که از او در مورد نمودار به شدت نادرستی که تیم در طول ارائه زنده نشان داد و به سرعت به شوخی «جنایت نموداری» تبدیل شد نیز سوال شد. این نمودار نمره پایینتری را با میلهای بسیار بلندتر نشان میداد.
آلتمن در طول جلسه AMA به سوالات مربوط به نمودار پاسخ نداد، اما روز پنجشنبه در ایکس (توییتر سابق) این نمودار را یک «اشتباه عظیم نموداری» نامید. دیگران اشاره کردند که نمودارهای موجود در پست وبلاگ منتشر شده صحیح بودند.
اما آسیب آن انجام شده بود. جوکهایی درباره استفاده از GPT برای نمودارها در ارائههای شرکتی درگرفت. سایمون ویلیسون (Simon Willison)، بازبین GPT-5 که دسترسی زودهنگام داشت و عموماً عملکرد مدل را دوست داشت، نیز اشاره کرد که تبدیل داده به جدول «نمونه خوبی از شکست GPT-5» بود.
در هر صورت، آلتمن وعده رفع مواردی را داد که به نظر میرسید مردم را بیشتر نگران کرده است. او جلسه AMA را با این قول به پایان رساند: «ما به کار ادامه خواهیم داد تا اوضاع را پایدار کنیم و به شنیدن بازخوردها ادامه خواهیم داد.»
نکات کلیدی:
معماری جدید: GPT-5 در واقع یک مدل واحد نیست، بلکه مجموعهای از مدلهاست. یک روتر هوشمند درخواستهای ساده را به مدلهای کوچکتر و سریعتر و درخواستهای پیچیده را به مدلهای استدلال عمیقتر هدایت میکند.
عملکرد فنی: طبق اعلام OpenAI، میزان توهم (hallucination) در GPT-5 تا ۸۰ درصد نسبت به مدل قبلی o3 کاهش یافته و نرخ فریبکاری از ۴.۸ درصد به ۲.۱ درصد رسیده است . مدل در برخی بنچمارکها مانند ریاضی (AIME 2025) و کدنویسی (SWE-bench) پیشرفتهای قابل توجهی داشته.
جنجال ریاضی: در جریان رونمایی، ادعایی مبنی بر حل مسائل حلنشده ریاضی توسط GPT-5 مطرح شد که بعداً مشخص شد مدل صرفاً در یافتن مقالات علمی موجود موفق بوده، نه حل مستقل آن مسائل. این موضوع با واکنش تند مدیر DeepMind (دمیس حسابیس) و دانشمندان دیگر مواجه شد.
امنیت و والدین: در واکنش به حوادث تراژیک مرتبط با سلامت روان کاربران نوجوان، OpenAI اعلام کرده که مکالمات حساس را به مدلهای استدلالی مانند GPT-5 هدایت میکند و به زودی کنترلهای والدینی برای نظارت بر استفاده نوجوانان عرضه خواهد کرد.
توضیح ایتنا: این مطلب، به دلیل محدودیتهای عمومی اینترنت کشور، به کمک هوش مصنوعی تهیه شده است.



