EleutherAI مجموعه گسترده‌ای از داده‌های آموزشی هوش مصنوعی با متون عمومی و مجاز را معرفی کرد!

سازمان پژوهشی هوش مصنوعی EleutherAI به تازگی یک مجموعه وسیع از متن‌های عمومی و دارای مجوز را با عنوان Common Pile v0.1 منتشر کرده است که به عنوان یکی از بزرگترین دیتاست‌های آموزشی برای مدل‌های هوش مصنوعی شناخته می‌شود. این مجموعه که طی دو سال به کمک استارتاپ هایی چون Poolside و Hugging Face، به علاوه تعدادی از دانشگاه‌های معتبر تهیه شده، حجم ۸ ترابایتی دارد و برای آموزش دو مدل جدید هوش مصنوعی به نام‌های Comma v0.1-1T و Comma v0.1-2T مورد استفاده قرار گرفته است.

طبق گزارش ایتنا و به نقل از تک‌کرانچ، EleutherAI ادعا می‌کند که این مدل‌ها توانایی مشابهی با مدل‌هایی دارند که با داده‌های غیرمجاز و دارای حق چاپ تربیت شده‌اند.

 


در حالی که شرکت‌های فعال در زمینه هوش مصنوعی از جمله OpenAI با چالش‌های قانونی ناشی از استفاده از داده‌های دارای حق نشر برای آموزش مدل‌های خود مواجه‌اند، EleutherAI بر این باور است که این شکایات منجر به کاهش شفافیت در صنعت هوش مصنوعی شده و به فرایند تحقیق آسیب زده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در یک پست در بلاگ Hugging Face تاکید کرد که این دعاوی «تأثیر زیادی بر روی شیوه‌های گردآوری داده‌ها نداشته، اما شفافیت شرکت‌ها را به طرز چشمگیری کاهش داده است.»

مجموعه Common Pile v0.1 که تحت مشاوره‌های حقوقی تدوین شده، شامل منابعی از جمله ۳۰۰ هزار کتاب دیجیتالی عمومی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت می‌باشد و همچنین از مدل تبدیل صوت به متن Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن استفاده شده است.

 



EleutherAI بر این باور است که مدل‌های Comma که تنها بر اساس قسمتی از این دیتاست وسیع آموزش دیده‌اند، قابلیت رقابت با مدل‌های پیشرفته‌ای نظیر اولین مدل Llama شرکت متا را دارند و در زمینه‌هایی چون برنامه‌نویسی، درک تصاویر و ریاضیات توانسته‌اند عملکرد قابل توجهی از خود نشان دهند. بیدرمن در بلاگ خود نوشت: «این دیدگاه که تنها متن‌های غیرمجاز می‌توانند موجب بهبود عملکرد مدل‌ها شوند، اشتباه است و با افزایش دسترسی به داده‌های مجاز و عمومی، کیفیت مدل‌های آموزش‌دیده بر روی این گونه داده‌ها نیز ارتقاء خواهد یافت.»

این اقدام EleutherAI جزئی از تلاش‌های مستمر این سازمان برای جبران اشتباهات گذشته است؛ زیرا پیش‌تر مجموعه داده‌ای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و منجر به انتقادات و فشارهای قانونی گردید. EleutherAI در آینده همچنان با همکاری شرکای تحقیقاتی و زیرساختی خود، در نظر دارد مجموعه داده‌های باز بیشتری منتشر کند و روند شفاف‌سازی و توسعه هوش مصنوعی را ادامه دهد.

مشاهده بیشتر

نوشته های مشابه

دکمه بازگشت به بالا