مدل هوش مصنوعی MM1 اپل: یک مدل ادغام متن با اطلاعات بصری

تیمی از دانشمندان و مهندسان کامپیوتر در اپل یک مدل زبان بزرگ (LLM) توسعه داده اند که این شرکت ادعا می کند می تواند هم تصاویر و هم داده ها را تفسیر کند. این گروه مقالهای را به سرور پیشچاپ arXiv ارسال کرده است که خانواده جدید مدلهای چندوجهی MM1 (مدل هوش مصنوعی MM1 اپل) و نتایج آزمایش را شرح میدهد.
در طول سال گذشته، LLM ها به دلیل قابلیت های پیشرفته هوش مصنوعی خود مورد توجه بسیاری قرار گرفته اند. یکی از شرکت هایی که به طور قابل توجهی در کانون توجه است، اپل است. در این تلاش جدید، تیم تحقیقاتی روشن میکند که شرکت علاقهای به اضافه کردن یک LLM توسعهیافته توسط شرکت دیگری ندارد (در حال حاضر آنها در حال مذاکره با گوگل برای افزودن فناوری هوش مصنوعی Gemini به دستگاههای اپل هستند). در عوض، آنها برای توسعه نسل بعدی LLM یعنی مدل هوش مصنوعی MM1 اپل کار کردهاند که میتواند هم تصاویر و هم دادههای متنی را تفسیر کند.
هوش مصنوعی چندوجهی با یکپارچه سازی و پردازش انواع مختلف ورودی داده مانند اطلاعات دیداری، شنیداری و متنی کار می کند. این ادغام به هوش مصنوعی اجازه می دهد تا درک جامع تری از داده های پیچیده داشته باشد که منجر به تفسیرهای دقیق تر و آگاهانه تری نسبت به سیستم های هوش مصنوعی تک حالته می شود.
تیم تحقیقاتی اپل ادعا میکند که پیشرفتهای عمدهای در استفاده از هوش مصنوعی چندوجهی با مدلهای MM1 خود داشتهاند که دادههای متن و تصویر را برای بهبود قابلیتها در زیرنویسنویسی تصویر، پاسخگویی بصری به سؤال و یادگیری پرس و جو یکپارچه میکند. مدل هوش مصنوعی MM1 اپل آنها بخشی از چیزی است که آنها به عنوان یک خانواده از مدل های چندوجهی توصیف می کنند، که هر یک شامل 30 میلیارد پارامتر است.
بیشتر بخوانید:
افشای دادههای کاربران از طریق آدرس آی پی IP
محققان خاطرنشان میکنند که چنین مدلهایی از مجموعه دادههایی که شامل جفتهای ثبت تصویر، اسنادی که شامل تصاویر و اسناد فقط متنی هستند، استفاده میکنند. محققان همچنین ادعا میکنند که LLM چندوجهی آنها (MLLM) میتواند اشیاء را بشمارد، اشیایی را که بخشی از یک تصویر هستند شناسایی کند و از عقل سلیم در مورد اشیاء روزمره استفاده کند تا اطلاعات مفیدی در مورد آنچه تصویر ارائه میدهد به کاربران ارائه دهد.
محققان همچنین ادعا میکنند که MLLM آنها یا مدل هوش مصنوعی MM1 اپل قادر به یادگیری درون متنی است، به این معنی که لازم نیست هر بار که سؤالی پرسیده میشود از نو شروع شود. از آنچه در مکالمه فعلی یاد گرفته است استفاده می کند. این تیم نمونههایی از قابلیتهای پیشرفته مدلهای خود را ارائه میکند.
تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقالهای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.