GPT-5.5 و Claude Fable 5 در آزمون سخت AI؛ برتری با مدل OpenAI

با این حال، نتایج نشان میدهد حتی پیشرفتهترین مدلهای هوش مصنوعی جهان نیز هنوز فاصله زیادی تا انجام قابل اعتماد بسیاری از وظایف حرفهای دارند.
به گزارش ایتنا این آزمون توسط پژوهشگران دانشگاه برکلی و با همکاری بیش از ۳۰۰ متخصص از حوزههای مختلف طراحی شده است، و هدف آن، سنجش توانایی عاملهای هوش مصنوعی در انجام فرایندهای کاری واقعی و چندمرحلهای است؛ وظایفی که شباهت بیشتری به فعالیتهای اقتصادی و حرفهای دنیای واقعی دارند تا آزمونهای سنتی هوش مصنوعی.
رقابت در دنیای هوش مصنوعی؛ GPT-5.5 در صدر قرار گرفت
بر اساس نتایج منتشرشده، GPT-5.5 با نرخ موفقیت ۲۴ درصدی رتبه نخست را کسب کرد. Claude Fable 5 نیز با ۲۲ درصد موفقیت در جایگاه سوم قرار گرفت. هرچند اختلاف میان دو مدل چندان زیاد نیست، اما این نتیجه برای OpenAI یک پیروزی مهم در یکی از دشوارترین ارزیابیهای عاملهای هوش مصنوعی محسوب میشود.
نکته قابل توجه این است که حتی بهترین مدل حاضر در این آزمون نیز در ۷۶ درصد از وظایف موفق به کسب امتیاز کامل نشده است؛ موضوعی که نشان میدهد مسیر دستیابی به عاملهای هوشمند کاملاً خودمختار همچنان طولانی است.
چرا آزمون ALE اهمیت دارد؟
برخلاف بسیاری از بنچمارکهای رایج که بر پرسش و پاسخ یا مسائل محدود برنامهنویسی تمرکز دارند، ALE توانایی مدلها را در انجام کارهای واقعی میسنجد. این آزمون شامل بیش از ۱۴۰۰ وظیفه در ۵۵ حوزه مختلف صنعتی است و از مدلها میخواهد در محیطهای نرمافزاری واقعی فعالیت کنند.
پژوهشگران همچنین تلاش کردهاند نقاط ضعف معیارهای قدیمی، از جمله امکان «تقلب» یا حفظ کردن پاسخها، را کاهش دهند و تصویری واقعبینانهتر از توانایی عاملهای هوش مصنوعی ارائه کنند.
آینده رقابت در دنیای هوش مصنوعی
بنا به نوشته سایت VentureBeat نتایج این ارزیابی نشان میدهد رقابت در دنیای هوش مصنوعی دیگر تنها به کیفیت تولید متن یا پاسخگویی محدود نمیشود. اکنون شرکتهایی مانند OpenAI و Anthropic در تلاشاند مدلهایی توسعه دهند که بتوانند وظایف پیچیده و چندمرحلهای را در محیطهای واقعی انجام دهند.
اگرچه GPT-5.5 در این آزمون از Claude Fable 5 پیشی گرفته است، اما بررسی سایر بنچمارکها نشان میدهد رقابت میان این دو شرکت همچنان بسیار نزدیک است و هر مدل در برخی حوزهها برتریهای خاص خود را دارد. این موضوع نشان میدهد بازار هوش مصنوعی همچنان در حال تحول است و برنده نهایی این رقابت هنوز مشخص نیست.
جمعبندی
نتایج آزمون Agents’ Last Exam نشان میدهد رقابت در دنیای هوش مصنوعی وارد مرحلهای جدید شده است. هرچند GPT-5.5 توانسته Claude Fable 5 را در این ارزیابی پشت سر بگذارد، اما عملکرد نهچندان درخشان همه مدلها نشان میدهد صنعت هوش مصنوعی هنوز تا دستیابی به عاملهای کاملاً حرفهای و قابل اتکا فاصله دارد.



