سازمان پژوهشی هوش مصنوعی EleutherAI به تازگی یک مجموعه وسیع از متنهای عمومی و دارای مجوز را با عنوان Common Pile v0.1 منتشر کرده است که به عنوان یکی از بزرگترین دیتاستهای آموزشی برای مدلهای هوش مصنوعی شناخته میشود. این مجموعه که طی دو سال به کمک استارتاپ هایی چون Poolside و Hugging Face، به علاوه تعدادی از دانشگاههای معتبر تهیه شده، حجم ۸ ترابایتی دارد و برای آموزش دو مدل جدید هوش مصنوعی به نامهای Comma v0.1-1T و Comma v0.1-2T مورد استفاده قرار گرفته است.
طبق گزارش ایتنا و به نقل از تککرانچ، EleutherAI ادعا میکند که این مدلها توانایی مشابهی با مدلهایی دارند که با دادههای غیرمجاز و دارای حق چاپ تربیت شدهاند.
در حالی که شرکتهای فعال در زمینه هوش مصنوعی از جمله OpenAI با چالشهای قانونی ناشی از استفاده از دادههای دارای حق نشر برای آموزش مدلهای خود مواجهاند، EleutherAI بر این باور است که این شکایات منجر به کاهش شفافیت در صنعت هوش مصنوعی شده و به فرایند تحقیق آسیب زده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در یک پست در بلاگ Hugging Face تاکید کرد که این دعاوی «تأثیر زیادی بر روی شیوههای گردآوری دادهها نداشته، اما شفافیت شرکتها را به طرز چشمگیری کاهش داده است.»
مجموعه Common Pile v0.1 که تحت مشاورههای حقوقی تدوین شده، شامل منابعی از جمله ۳۰۰ هزار کتاب دیجیتالی عمومی شده توسط کتابخانه کنگره آمریکا و آرشیو اینترنت میباشد و همچنین از مدل تبدیل صوت به متن Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن استفاده شده است.
EleutherAI بر این باور است که مدلهای Comma که تنها بر اساس قسمتی از این دیتاست وسیع آموزش دیدهاند، قابلیت رقابت با مدلهای پیشرفتهای نظیر اولین مدل Llama شرکت متا را دارند و در زمینههایی چون برنامهنویسی، درک تصاویر و ریاضیات توانستهاند عملکرد قابل توجهی از خود نشان دهند. بیدرمن در بلاگ خود نوشت: «این دیدگاه که تنها متنهای غیرمجاز میتوانند موجب بهبود عملکرد مدلها شوند، اشتباه است و با افزایش دسترسی به دادههای مجاز و عمومی، کیفیت مدلهای آموزشدیده بر روی این گونه دادهها نیز ارتقاء خواهد یافت.»
این اقدام EleutherAI جزئی از تلاشهای مستمر این سازمان برای جبران اشتباهات گذشته است؛ زیرا پیشتر مجموعه دادهای به نام The Pile منتشر کرده بود که شامل محتوای دارای حق نشر بود و منجر به انتقادات و فشارهای قانونی گردید. EleutherAI در آینده همچنان با همکاری شرکای تحقیقاتی و زیرساختی خود، در نظر دارد مجموعه دادههای باز بیشتری منتشر کند و روند شفافسازی و توسعه هوش مصنوعی را ادامه دهد.