هوش مصنوعی جدید متا Chameleon یک مدل چندوجهی را معرفی می کند!

محققان هوش مصنوعی در متا، شرکتی که فیس بوک، اینستاگرام، واتس اپ و بسیاری از محصولات دیگر را در اختیار دارد، یک مدل چند وجهی (مدل چندوجهی متا Chameleon) برای رقابت با شرکت های بزرگ مانند Gemini گوگل طراحی و ساخته اند.
این سیستم جدید که Chameleon نام دارد بر اساس معماری ترکیبی اولیه ساخته شده است و به همین دلیل می تواند ورودی های متعددی را به روش هایی که با اکثر سیستم های دیگر امکان پذیر نیست، وارد کند.
گروهی که Chameleon Team نام دارد، مقالهای نوشته است که در آن مدل جدید خود یعنی مدل چندوجهی متا Chameleon را توصیف میکند، از جمله معماری آن و عملکرد خوب آن در طول آزمایش. روی سرور preprint arXiv ارسال شده است.
مدلهای چندوجهی هوش مصنوعی، همانطور که از نامشان پیداست، برنامههایی هستند که میتوانند بیش از یک نوع ورودی را در طول یک پرسوجو بپذیرند.به عنوان مثال، کاربر میتواند تصویری از یک اسب ارسال کند، در حالی که همچنین بپرسد چه تعداد از نژادهای آن برنده شدهاند.
تا به امروز، بیشتر این مدلها چنین دادههایی را بهعنوان موجودیتهای جداگانه در بخش اولیه پردازش پردازش کردهاند و بعداً آنها را برای جستجوی تداعیها گرد هم آوردهاند، تکنیکی به نام همجوشی دیرهنگام.
چنین رویکردی به خوبی کار میکند، اما محدودیتهایی در رابطه با ادغام دارد. برای غلبه بر این مشکل، تیم متا مدل خود یعنی مدل چندوجهی متا Chameleon را بر اساس معماری ادغام اولیه استوار کرده است.
بیشتر بخوانید:
افشای دادههای کاربران از طریق آدرس آی پی IP
این معماری به تیم این امکان را میدهد که از همان ابتدا تداعیها را در هم بپیوندد. آنها این کار را با تبدیل تصاویر به نشانه هایی مشابه روشی که LLM ها کلمات را تجزیه می کنند انجام دادند. این تیم همچنین توانایی استفاده از واژگان یکپارچه از نشانهها را از منابع مختلف، از جمله تصاویر، کد یا متن، اضافه کردند و ادعا میکنند که این امکان را برای اعمال محاسبات تبدیلکننده با انواع مختلط دادههای ورودی فراهم میکند.
محققان خاطرنشان می کنند که برخلاف Gemini، مدل چندوجهی متا Chameleon یک مدل سرتاسری است که نیاز به رمزگشای تصویر را غیر ضروری می کند. آنها همچنین انواع جدیدی از تکنیکهای آموزشی را توسعه دادند و از آنها استفاده کردند تا به مدلشان اجازه دهند تا با انواع مختلف نشانهها کار کند. آنهایی که شامل یادگیری دو مرحلهای و مجموعه داده عظیمی از تقریباً 4.4 تریلیون متن، تصویر، یا جفت توکن همراه با دادههای درهم میشوند. این سیستم با استفاده از 7 میلیارد و سپس 34 میلیارد پارامتر در طول 5 میلیون ساعت بر روی یک پردازنده گرافیکی پرسرعت آموزش داده شد.
تیم تحقیقاتی ادعا میکند که نتیجه مدلی است که میتواند فقط متن، فقط تصاویر یا ترکیبی از هر دو را بپذیرد و پاسخها و تداعیهای هوشمندانه را با دقت بهتری نسبت به رقبای خود بازگرداند.
مدل چندوجهی متا Chameleon در مقایسه با Llama 2 عملکرد بهتری دارند و در مقایسه با مدلهایی مانند Mistral’s Mixtral 8x7B و Google’s Gemini Pro عملکرد رقابتی از خود نشان میدهند. Chameleon حتی با سیستمهای مقیاس بزرگتر مانند GPT-4V همگام است و قابلیتهای آن میتواند ویژگیهای چندوجهی را در Meta AI تقویت کند. چت رباتی که اخیراً در برنامههای رسانههای اجتماعی متا، از جمله فیسبوک، اینستاگرام و واتساپ منتشر شده، نمونههایی از این موارد هستند. متا در حال حاضر از Llama 3 برای تقویت هوش مصنوعی متا استفاده میکند، اما میتواند از الگوریتم و روش کار ChatGPT الگوبرداری کرده و از چندین سیستم زیربنایی برای انجام کارهای مختلف مانند پاسخگویی بهتر به سؤالات کاربران در مورد عکسها در اینستاگرام استفاده کند. محققان میگویند: Chameleon امکانات کاملاً جدیدی را برای تعاملات چندوجهی در اختیار کاربر قرار میدهد.
تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقالهای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.