GPT-5.5 و Claude Fable 5 در آزمون سخت AI؛ برتری با مدل OpenAI

9 ساعت پیش

زمان تقریبی مطالعه 2 دقیقه

GPT-5.5 و Claude Fable 5 در آزمون سخت AI؛ برتری با مدل OpenAI

رقابت در دنیای هوش مصنوعی با انتشار نتایج یک معیار ارزیابی جدید وارد فاز تازه‌ای شده است. در آزمون سخت‌گیرانه Agents’ Last Exam (ALE)، مدل GPT-5.5 شرکت OpenAI موفق شد عملکردی بهتر از Claude Fable 5 شرکت Anthropic ثبت کند و در صدر جدول قرار گیرد.

با این حال، نتایج نشان می‌دهد حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز هنوز فاصله زیادی تا انجام قابل اعتماد بسیاری از وظایف حرفه‌ای دارند.

به گزارش ایتنا این آزمون توسط پژوهشگران دانشگاه برکلی و با همکاری بیش از ۳۰۰ متخصص از حوزه‌های مختلف طراحی شده است، و هدف آن، سنجش توانایی عامل‌های هوش مصنوعی در انجام فرایندهای کاری واقعی و چندمرحله‌ای است؛ وظایفی که شباهت بیشتری به فعالیت‌های اقتصادی و حرفه‌ای دنیای واقعی دارند تا آزمون‌های سنتی هوش مصنوعی.

رقابت در دنیای هوش مصنوعی؛ GPT-5.5 در صدر قرار گرفت

بر اساس نتایج منتشرشده، GPT-5.5 با نرخ موفقیت ۲۴ درصدی رتبه نخست را کسب کرد. Claude Fable 5 نیز با ۲۲ درصد موفقیت در جایگاه سوم قرار گرفت. هرچند اختلاف میان دو مدل چندان زیاد نیست، اما این نتیجه برای OpenAI یک پیروزی مهم در یکی از دشوارترین ارزیابی‌های عامل‌های هوش مصنوعی محسوب می‌شود.

نکته قابل توجه این است که حتی بهترین مدل حاضر در این آزمون نیز در ۷۶ درصد از وظایف موفق به کسب امتیاز کامل نشده است؛ موضوعی که نشان می‌دهد مسیر دستیابی به عامل‌های هوشمند کاملاً خودمختار همچنان طولانی است.

چرا آزمون ALE اهمیت دارد؟

برخلاف بسیاری از بنچمارک‌های رایج که بر پرسش و پاسخ یا مسائل محدود برنامه‌نویسی تمرکز دارند، ALE توانایی مدل‌ها را در انجام کارهای واقعی می‌سنجد. این آزمون شامل بیش از ۱۴۰۰ وظیفه در ۵۵ حوزه مختلف صنعتی است و از مدل‌ها می‌خواهد در محیط‌های نرم‌افزاری واقعی فعالیت کنند.

پژوهشگران همچنین تلاش کرده‌اند نقاط ضعف معیارهای قدیمی، از جمله امکان «تقلب» یا حفظ کردن پاسخ‌ها، را کاهش دهند و تصویری واقع‌بینانه‌تر از توانایی عامل‌های هوش مصنوعی ارائه کنند.

آینده رقابت در دنیای هوش مصنوعی

بنا به نوشته سایت VentureBeat نتایج این ارزیابی نشان می‌دهد رقابت در دنیای هوش مصنوعی دیگر تنها به کیفیت تولید متن یا پاسخ‌گویی محدود نمی‌شود. اکنون شرکت‌هایی مانند OpenAI و Anthropic در تلاش‌اند مدل‌هایی توسعه دهند که بتوانند وظایف پیچیده و چندمرحله‌ای را در محیط‌های واقعی انجام دهند.

اگرچه GPT-5.5 در این آزمون از Claude Fable 5 پیشی گرفته است، اما بررسی سایر بنچمارک‌ها نشان می‌دهد رقابت میان این دو شرکت همچنان بسیار نزدیک است و هر مدل در برخی حوزه‌ها برتری‌های خاص خود را دارد. این موضوع نشان می‌دهد بازار هوش مصنوعی همچنان در حال تحول است و برنده نهایی این رقابت هنوز مشخص نیست.

جمع‌بندی

نتایج آزمون Agents’ Last Exam نشان می‌دهد رقابت در دنیای هوش مصنوعی وارد مرحله‌ای جدید شده است. هرچند GPT-5.5 توانسته Claude Fable 5 را در این ارزیابی پشت سر بگذارد، اما عملکرد نه‌چندان درخشان همه مدل‌ها نشان می‌دهد صنعت هوش مصنوعی هنوز تا دستیابی به عامل‌های کاملاً حرفه‌ای و قابل اتکا فاصله دارد.

9 ساعت پیش

زمان تقریبی مطالعه 2 دقیقه

مشاهده بیشتر

GPT-5.5 و Claude Fable 5 در آزمون سخت AI؛ برتری با مدل OpenAI

رقابت در دنیای هوش مصنوعی؛ GPT-5.5 در صدر قرار گرفت

چرا آزمون ALE اهمیت دارد؟

آینده رقابت در دنیای هوش مصنوعی

جمع‌بندی

واکنش شکیرا پس از جنجال استفاده از بدل در افتتاحیه جام‌جهانی!

جدول| نتایج دیدارهای جام جهانی 2026 تا پایان روز سوم

گل‌های روز سوم جام جهانی ۲۰۲۶

برنامه دیدارهای امروز جام جهانی و لیگ ملت‌ها

مصدومان تیم ملی برگشتند! – خبرورزشی

شما نظر بدهید؛ کدام پیراهن ایران در جام جهانی زیباتر است؟

عکس| رقص آخر؛ این بازیکنان را در جام‌جهانی با دقت ببینید!

ارزش ندارد برای حضور در جام جهانی با خفت به امریکا برویم/ تیم ملی را به ایران برگردانید

گروه‌مان در جام‌جهانی راحت است! / اگر سهراب ماند؛ از او انتظار شق القمر نداشته باشیم

نیکس بعد از ۵۳ سال قهرمان NBA شد

پخش زنده بازی هائیتی و اسکاتلند/ تماشای رایگان و اینترنتی مسابقات جام جهانی ۲۰۲۶

انتقاد تند کلوپ از فیفا: کولینگ بریک فقط برای اسپانسرهاست

همه به دنبال شکار نیمار +عکس

سرمربی هائیتی بازیکنانش را فقط از طریق تلفن و ویدئو می‌شناسد

قطر و سوئیس؛ نبرد بچه پولدارها برنده نداشت!

عکس| استایل عجیب شاگردان کی‌روش برای حضور در جام‌جهانی

پلن B تیم‌ملی برای غیبت طارمی

عکس| رونمایی از کفش‌های شخصی‌سازی شده مسی، یامال، دمبله و بلینگام

کلوب| کاش بگذارند دوباره از فوتبال لذت ببریم

استقلال به دنبال حفظ یاسر آسانی

وام روی سیم‌کارت؛ پدیده‌ای که دارایی مردم را گرو می‌گیرد

هشدار سازمان ملل: هوش مصنوعی تا ۲۰۳۰ بیشتر از مردم جهان آب می‌بلعد