GPT-5.5 و Claude Fable 5 در آزمون سخت AI؛ برتری با مدل OpenAI

رقابت در دنیای هوش مصنوعی با انتشار نتایج یک معیار ارزیابی جدید وارد فاز تازه‌ای شده است. در آزمون سخت‌گیرانه Agents’ Last Exam (ALE)، مدل GPT-5.5 شرکت OpenAI موفق شد عملکردی بهتر از Claude Fable 5 شرکت Anthropic ثبت کند و در صدر جدول قرار گیرد.

با این حال، نتایج نشان می‌دهد حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز هنوز فاصله زیادی تا انجام قابل اعتماد بسیاری از وظایف حرفه‌ای دارند.

به گزارش ایتنا این آزمون توسط پژوهشگران دانشگاه برکلی و با همکاری بیش از ۳۰۰ متخصص از حوزه‌های مختلف طراحی شده است، و هدف آن، سنجش توانایی عامل‌های هوش مصنوعی در انجام فرایندهای کاری واقعی و چندمرحله‌ای است؛ وظایفی که شباهت بیشتری به فعالیت‌های اقتصادی و حرفه‌ای دنیای واقعی دارند تا آزمون‌های سنتی هوش مصنوعی.

 

رقابت در دنیای هوش مصنوعی؛ GPT-5.5 در صدر قرار گرفت




بر اساس نتایج منتشرشده، GPT-5.5 با نرخ موفقیت ۲۴ درصدی رتبه نخست را کسب کرد. Claude Fable 5 نیز با ۲۲ درصد موفقیت در جایگاه سوم قرار گرفت. هرچند اختلاف میان دو مدل چندان زیاد نیست، اما این نتیجه برای OpenAI یک پیروزی مهم در یکی از دشوارترین ارزیابی‌های عامل‌های هوش مصنوعی محسوب می‌شود.

نکته قابل توجه این است که حتی بهترین مدل حاضر در این آزمون نیز در ۷۶ درصد از وظایف موفق به کسب امتیاز کامل نشده است؛ موضوعی که نشان می‌دهد مسیر دستیابی به عامل‌های هوشمند کاملاً خودمختار همچنان طولانی است.

 

چرا آزمون ALE اهمیت دارد؟




برخلاف بسیاری از بنچمارک‌های رایج که بر پرسش و پاسخ یا مسائل محدود برنامه‌نویسی تمرکز دارند، ALE توانایی مدل‌ها را در انجام کارهای واقعی می‌سنجد. این آزمون شامل بیش از ۱۴۰۰ وظیفه در ۵۵ حوزه مختلف صنعتی است و از مدل‌ها می‌خواهد در محیط‌های نرم‌افزاری واقعی فعالیت کنند.

پژوهشگران همچنین تلاش کرده‌اند نقاط ضعف معیارهای قدیمی، از جمله امکان «تقلب» یا حفظ کردن پاسخ‌ها، را کاهش دهند و تصویری واقع‌بینانه‌تر از توانایی عامل‌های هوش مصنوعی ارائه کنند.

 

آینده رقابت در دنیای هوش مصنوعی




بنا به نوشته سایت VentureBeat نتایج این ارزیابی نشان می‌دهد رقابت در دنیای هوش مصنوعی دیگر تنها به کیفیت تولید متن یا پاسخ‌گویی محدود نمی‌شود. اکنون شرکت‌هایی مانند OpenAI و Anthropic در تلاش‌اند مدل‌هایی توسعه دهند که بتوانند وظایف پیچیده و چندمرحله‌ای را در محیط‌های واقعی انجام دهند.

اگرچه GPT-5.5 در این آزمون از Claude Fable 5 پیشی گرفته است، اما بررسی سایر بنچمارک‌ها نشان می‌دهد رقابت میان این دو شرکت همچنان بسیار نزدیک است و هر مدل در برخی حوزه‌ها برتری‌های خاص خود را دارد. این موضوع نشان می‌دهد بازار هوش مصنوعی همچنان در حال تحول است و برنده نهایی این رقابت هنوز مشخص نیست.

 

جمع‌بندی




نتایج آزمون Agents’ Last Exam نشان می‌دهد رقابت در دنیای هوش مصنوعی وارد مرحله‌ای جدید شده است. هرچند GPT-5.5 توانسته Claude Fable 5 را در این ارزیابی پشت سر بگذارد، اما عملکرد نه‌چندان درخشان همه مدل‌ها نشان می‌دهد صنعت هوش مصنوعی هنوز تا دستیابی به عامل‌های کاملاً حرفه‌ای و قابل اتکا فاصله دارد.

مشاهده بیشتر

نوشته های مشابه

دکمه بازگشت به بالا