محققان هوش مصنوعی در متا، شرکتی که فیس بوک، اینستاگرام، واتس اپ و بسیاری از محصولات دیگر را در اختیار دارد، یک مدل چند وجهی (مدل چندوجهی متا Chameleon) برای رقابت با شرکت های بزرگ مانند Gemini گوگل طراحی و ساخته اند.

این سیستم جدید که Chameleon نام دارد بر اساس معماری ترکیبی اولیه ساخته شده است و به همین دلیل می تواند ورودی های متعددی را به روش هایی که با اکثر سیستم های دیگر امکان پذیر نیست، وارد کند.

گروهی که Chameleon Team نام دارد، مقاله‌ای نوشته است که در آن مدل جدید خود یعنی مدل چندوجهی متا Chameleon را توصیف می‌کند، از جمله معماری آن و عملکرد خوب آن در طول آزمایش. روی سرور preprint arXiv ارسال شده است.

مدل‌های چندوجهی هوش مصنوعی، همانطور که از نامشان پیداست، برنامه‌هایی هستند که می‌توانند بیش از یک نوع ورودی را در طول یک پرس‌وجو بپذیرند.به عنوان مثال، کاربر می‌تواند تصویری از یک اسب ارسال کند، در حالی که همچنین بپرسد چه تعداد از نژادهای آن برنده شده‌اند.

تا به امروز، بیشتر این مدل‌ها چنین داده‌هایی را به‌عنوان موجودیت‌های جداگانه در بخش اولیه پردازش پردازش کرده‌اند و بعداً آن‌ها را برای جستجوی تداعی‌ها گرد هم آورده‌اند، تکنیکی به نام همجوشی دیرهنگام.

چنین رویکردی به خوبی کار می‌کند، اما محدودیت‌هایی در رابطه با ادغام دارد. برای غلبه بر این مشکل، تیم متا مدل خود یعنی مدل چندوجهی متا Chameleon را بر اساس معماری ادغام اولیه استوار کرده است.

آدرس IP بیشتر بخوانید: افشای داده‌های کاربران از طریق آدرس آی پی IP

این معماری به تیم این امکان را می‌دهد که از همان ابتدا تداعی‌ها را در هم بپیوندد. آنها این کار را با تبدیل تصاویر به نشانه هایی مشابه روشی که LLM ها کلمات را تجزیه می کنند انجام دادند. این تیم همچنین توانایی استفاده از واژگان یکپارچه از نشانه‌ها را از منابع مختلف، از جمله تصاویر، کد یا متن، اضافه کردند و ادعا می‌کنند که این امکان را برای اعمال محاسبات تبدیل‌کننده با انواع مختلط داده‌های ورودی فراهم می‌کند.

محققان خاطرنشان می کنند که برخلاف Gemini، مدل چندوجهی متا Chameleon یک مدل سرتاسری است که نیاز به رمزگشای تصویر را غیر ضروری می کند. آن‌ها همچنین انواع جدیدی از تکنیک‌های آموزشی را توسعه دادند و از آنها استفاده کردند تا به مدل‌شان اجازه دهند تا با انواع مختلف نشانه‌ها کار کند. آنهایی که شامل یادگیری دو مرحله‌ای و مجموعه داده عظیمی از تقریباً 4.4 تریلیون متن، تصویر، یا جفت توکن همراه با داده‌های درهم می‌شوند. این سیستم با استفاده از 7 میلیارد و سپس 34 میلیارد پارامتر در طول 5 میلیون ساعت بر روی یک پردازنده گرافیکی پرسرعت آموزش داده شد.

تیم تحقیقاتی ادعا می‌کند که نتیجه مدلی است که می‌تواند فقط متن، فقط تصاویر یا ترکیبی از هر دو را بپذیرد و پاسخ‌ها و تداعی‌های هوشمندانه را با دقت بهتری نسبت به رقبای خود بازگرداند.

مدل چندوجهی متا Chameleon در مقایسه با Llama 2 عملکرد بهتری دارند و در مقایسه با مدل‌هایی مانند Mistral’s Mixtral 8x7B و Google’s Gemini Pro عملکرد رقابتی از خود نشان می‌دهند. Chameleon  حتی با سیستم‌های مقیاس بزرگ‌تر مانند GPT-4V  همگام است و قابلیت‌های آن می‌تواند ویژگی‌های چندوجهی را در Meta AI تقویت کند. چت رباتی که اخیراً در برنامه‌های رسانه‌های اجتماعی متا، از جمله فیس‌بوک، اینستاگرام و واتس‌اپ منتشر شده، نمونه‌هایی از این موارد هستند. متا در حال حاضر از Llama 3 برای تقویت هوش مصنوعی متا استفاده می‌کند، اما می‌تواند از الگوریتم و روش کار ChatGPT الگوبرداری کرده و از چندین سیستم زیربنایی برای انجام کارهای مختلف مانند پاسخ‌گویی بهتر به سؤالات کاربران در مورد عکس‌ها در اینستاگرام استفاده کند. محققان می‌گویند: Chameleon امکانات کاملاً جدیدی را برای تعاملات چندوجهی در اختیار کاربر قرار می‌دهد.


تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.