مدل هوش مصنوعی MM1 اپل: یک مدل ادغام متن با اطلاعات بصری

تیمی از دانشمندان و مهندسان کامپیوتر در اپل یک مدل زبان بزرگ (LLM) توسعه داده اند که این شرکت ادعا می کند می تواند هم تصاویر و هم داده ها را تفسیر کند. این گروه مقاله‌ای را به سرور پیش‌چاپ arXiv ارسال کرده است که خانواده جدید مدل‌های چندوجهی MM1 (مدل هوش مصنوعی MM1 اپل) و نتایج آزمایش را شرح می‌دهد.

در طول سال گذشته، LLM ها به دلیل قابلیت های پیشرفته هوش مصنوعی خود مورد توجه بسیاری قرار گرفته اند. یکی از شرکت هایی که به طور قابل توجهی در کانون توجه است، اپل است. در این تلاش جدید، تیم تحقیقاتی روشن می‌کند که شرکت علاقه‌ای به اضافه کردن یک LLM توسعه‌یافته توسط شرکت دیگری ندارد (در حال حاضر آنها در حال مذاکره با گوگل برای افزودن فناوری هوش مصنوعی Gemini به دستگاه‌های اپل هستند). در عوض، آنها برای توسعه نسل بعدی LLM یعنی مدل هوش مصنوعی MM1 اپل کار کرده‌اند که می‌تواند هم تصاویر و هم داده‌های متنی را تفسیر کند.

هوش مصنوعی چندوجهی با یکپارچه سازی و پردازش انواع مختلف ورودی داده مانند اطلاعات دیداری، شنیداری و متنی کار می کند. این ادغام به هوش مصنوعی اجازه می دهد تا درک جامع تری از داده های پیچیده داشته باشد که منجر به تفسیرهای دقیق تر و آگاهانه تری نسبت به سیستم های هوش مصنوعی تک حالته می شود.

تیم تحقیقاتی اپل ادعا می‌کند که پیشرفت‌های عمده‌ای در استفاده از هوش مصنوعی چندوجهی با مدل‌های MM1 خود داشته‌اند که داده‌های متن و تصویر را برای بهبود قابلیت‌ها در زیرنویس‌نویسی تصویر، پاسخ‌گویی بصری به سؤال و یادگیری پرس و جو یکپارچه می‌کند. مدل هوش مصنوعی MM1 اپل آنها بخشی از چیزی است که آنها به عنوان یک خانواده از مدل های چندوجهی توصیف می کنند، که هر یک شامل 30 میلیارد پارامتر است.

بیشتر بخوانید: افشای داده‌های کاربران از طریق آدرس آی پی IP

محققان خاطرنشان می‌کنند که چنین مدل‌هایی از مجموعه داده‌هایی که شامل جفت‌های ثبت تصویر، اسنادی که شامل تصاویر و اسناد فقط متنی هستند، استفاده می‌کنند. محققان همچنین ادعا می‌کنند که LLM چندوجهی آنها (MLLM) می‌تواند اشیاء را بشمارد، اشیایی را که بخشی از یک تصویر هستند شناسایی کند و از عقل سلیم در مورد اشیاء روزمره استفاده کند تا اطلاعات مفیدی در مورد آنچه تصویر ارائه می‌دهد به کاربران ارائه دهد.

محققان همچنین ادعا می‌کنند که MLLM آنها یا مدل هوش مصنوعی MM1 اپل قادر به یادگیری درون متنی است، به این معنی که لازم نیست هر بار که سؤالی پرسیده می‌شود از نو شروع شود. از آنچه در مکالمه فعلی یاد گرفته است استفاده می کند. این تیم نمونه‌هایی از قابلیت‌های پیشرفته مدل‌های خود را ارائه می‌کند.

تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.

لغو پاسخ