بر اساس مقاله جدیدی که در Nature منتشر شده است، استفاده از مجموعه داده های تولید شده توسط هوش مصنوعی برای آموزش نسل های آینده مدل های یادگیری ماشین ممکن است خروجی آنها را آلوده کند، مفهومی که به عنوان فروپاشی مدل شناخته می شود. این تحقیق نشان می‌دهد که طی چند نسل، محتوای اصلی با مطالب مزخرف غیرمرتبط جایگزین می‌شود و اهمیت استفاده از داده‌های قابل اعتماد برای مدل‌های هوش مصنوعی را نشان می‌دهد.

امروزه، کاربردهای شاخه های هوش مصنوعی را در بسیاری از جنبه‌های زندگی بشر ملاحظه می‌کنیم. ابزارهای مبتنی بر هوش مصنوعی روال انجام کارها را به گونه‌ای تغییر داده‌اند که انسان می‌تواند با استفاده از آن‌ها، وظایف و کارهای محول شده را ساده‌تر و سریع‌تر انجام دهد.

می‌توان سیستم‌های هوش مصنوعی را که در زندگی روزانه انسان به کار می‌روند، به دو دسته کلی تقسیم کنیم:

  • سیستم‌های نرم‌افزاری هوشمند: برنامه‌های نرم‌افزاری هوشمندی که می‌توان آن‌ها را از اینترنت دانلود کرد، جزء سیستم‌های نرم‌افزاری هوشمند در نظر گرفته می‌شوند. برای کار با این سیستم‌ها کافی است یک دستگاه سخت‌افزاری نظیر گوشی تلفن همراه یا کامپیوتر و لپتاپ شخصی را در اختیار داشته باشید. برنامه‌هایی نظیر دستیار صوتی هوشمند مانند الکسا، نرم‌افزارهای تشخیص اشیا یا تشخیص چهره از جمله سیستم‌های نرم‌افزاری هوش مصنوعی محسوب می‌شوند.
  • سیستم‌های سخت‌افزاری هوشمند: سیستم‌های سخت‌افزاری هوشمند را می‌توان دستاورد رشته رباتیک به حساب آورد. ماشین‌های خودران، جاروبرقی هوشمند، ربات‌های هوش مصنوعی از جمله سیستم‌های سخت‌افزاری هوشمندی هستند که یک سری وظایف را بر پایه روش‌های هوش مصنوعی انجام می‌دهند.

ابزارهای مولد هوش مصنوعی مانند مدل‌های زبان بزرگ (LLM) محبوبیت زیادی پیدا کرده‌اند و عمدتاً با استفاده از ورودی‌های تولید شده توسط انسان آموزش داده شده‌اند. با این حال، از آنجایی که این مدل‌های هوش مصنوعی همچنان در سراسر اینترنت تکثیر می‌شوند، ممکن است از محتوای تولید شده توسط رایانه برای آموزش سایر مدل‌های هوش مصنوعی یا خودشان در یک حلقه بازگشتی استفاده شود.

Ilia Shumailov و همکارانش مدل‌های ریاضی را ارائه می‌کنند تا نشان دهند که چگونه مدل‌های هوش مصنوعی ممکن است فروپاشی مدل را تجربه کنند. نویسندگان نشان می‌دهند که یک هوش مصنوعی ممکن است خروجی‌های خاصی (مثلاً خطوط متنی کمتر رایج) را در داده‌های آموزشی نادیده بگیرد و باعث شود که تنها بر روی بخشی از مجموعه داده‌ها آموزش ببیند.

آدرس IP بیشتر بخوانید: افشای داده‌های کاربران از طریق آدرس آی پی IP

Shumailov و همکارانش همچنین بررسی کردند که چگونه مدل‌های هوش مصنوعی به مجموعه داده‌های آموزشی که عمدتاً با هوش مصنوعی ایجاد شده بود، پاسخ می‌دهند. آنها دریافتند که تغذیه یک مدل داده‌های تولید شده توسط هوش مصنوعی باعث می‌شود که نسل‌های متوالی توانایی یادگیری آنها را کاهش دهند و در نهایت منجر به فروپاشی مدل شوند.

تقریباً همه مدل‌های زبانی که به صورت بازگشتی آموزش داده شده‌اند، تمایل به نمایش عبارات تکراری داشتند. به عنوان مثال، آزمایشی با استفاده از متنی در مورد معماری قرون وسطی به عنوان ورودی اصلی اجرا شد و در نسل نهم خروجی لیستی از jackrabbits بود.

نویسندگان پیشنهاد می‌کنند که فروپاشی مدل یک نتیجه اجتناب‌ناپذیر مدل‌های هوش مصنوعی است که از مجموعه داده‌های آموزشی ایجاد شده توسط نسل‌های قبلی استفاده می‌کنند. برای آموزش موفقیت آمیز هوش مصنوعی با خروجی های خود، Shumailov و همکارانش پیشنهاد می کنند که آموزش مدلی با داده های تولید شده توسط هوش مصنوعی غیرممکن نیست، اما فیلتر کردن این داده ها باید جدی گرفته شود.

در عین حال، شرکت‌های فناوری که بر محتوای تولید شده توسط انسان متکی هستند، ممکن است بتوانند مدل‌های هوش مصنوعی را آموزش دهند که نسبت به رقبای خود مؤثرتر باشند.


تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.