هوش مصنوعی مولد تنها در چند سال کوتاه راه طولانی را پیموده است و از پاسخ های متنی اولیه به متن های پیچیده پیشرفت کرده است. مرزهای این فناوری با توسعه هوش مصنوعی چندوجهی بیشتر شده است. نوعی هوش مصنوعی که با چیزی فراتر از متن کار می کند، بله، پردازش و تولید چندین نوع داده به طور همزمان.

هوش مصنوعی چندوجهی یا Multimodal AI به یک سیستم هوشمند مصنوعی اشاره دارد که از انواع مختلفی از داده ها (از جمله متن، تصویر، ویدئو و صدا) برای تولید محتوا، شکل دادن به بینش و پیش بینی استفاده می کند. هوش مصنوعی چندوجهی راه خود را در چندین صنعت از بهداشت و درمان گرفته تا رباتیک پیدا کرده است. و غول‌های فناوری مانند Google، OpenAI، Anthropic و Meta با مدل‌ های چندوجهی خود عرضه می‌شوند.

هوش مصنوعی چندوجهی چیست؟

هوش مصنوعی چندوجهی به یک سیستم هوش مصنوعی اشاره دارد که از انواع مختلف (یا روش‌های) داده به طور همزمان برای ایجاد بینش، پیش‌بینی و تولید محتوا استفاده می‌کند.

مدل‌های چندوجهی اطلاعاتی مانند متن، تصاویر، ویدیو، گفتار و موارد دیگر را برای تکمیل طیف وسیعی از کارها، از تولید دستور غذا بر اساس عکس غذا گرفته تا رونویسی یک کلیپ صوتی به چندین زبان، مدیریت می‌کنند.

این با اکثر مدل‌های هوش مصنوعی متفاوت است، که فقط می‌توانند یک حالت داده را مدیریت کنند. برای مثال، مدل‌های زبان بزرگ (LLM) با داده‌های متنی کار می‌کنند، در حالی که شبکه‌های عصبی کانولوشنال (CNN) با تصاویر کار می‌کنند.

چندوجهی از رویکرد ذاتی انسانی برای درک جهان تقلید می‌کند، جایی که ورودی‌های حسی مانند بینایی، صدا و لامسه را با هم ترکیب می‌کنیم تا درک دقیق‌تری از واقعیت خود شکل دهیم. با ادغام انواع داده های متعدد در یک مدل واحد، سیستم های هوش مصنوعی چندوجهی به درک جامع تری از محیط خود دست می یابند.

آرون مایرز، مدیر ارشد فناوری در پلتفرم استخدام مبتنی بر هوش مصنوعی Suited گفت: «این واقعاً تلاشی برای تجسم درک انسان‌ها است. ما پنج حواس مختلف داریم که همگی داده‌های متفاوتی به ما می‌دهند که می‌توانیم برای تصمیم‌گیری یا انجام اقدامات از آنها استفاده کنیم. مدل‌های چندوجهی تلاش می‌کنند همین کار را انجام دهند.»

هوش مصنوعی چند وجهی در مقابل تک وجهی

مدل‌های هوش مصنوعی چندوجهی می‌توانند همزمان با چندین نوع داده کار کنند، در حالی که مدل‌های هوش مصنوعی تک‌وجهی به یک نوع ورودی داده محدود می‌شوند و تنها می‌توانند خروجی را در آن حالت داده خاص ارائه دهند. برای مثال، GPT-3.5، نسخه رایگان ChatGPT، فقط با ورودی‌ها و خروجی‌های متن کار می‌کند و آن را یکنواخت می‌کند. اما GPT-4o، یکی دیگر از مدل‌های ChatGPT، می‌تواند داده‌های متنی، تصویری و صوتی را مدیریت کند و آن را چندوجهی می‌کند.

هوش مصنوعی چندوجهی چیست و چگونه کار می کند؟

چگونه از هوش مصنوعی چندوجهی استفاده می شود؟

در ادامه برخی از حوزه‌هایی هستند که امروزه هوش مصنوعی چندوجهی در آن اعمال می‌شود.

چت ربات های هوش مصنوعی

چت‌ربات‌های هوش مصنوعی مجهز به چندوجهی می‌توانند به طور مؤثرتری نسبت به همتایان خود که فقط متنی دارند به کاربران پاسخ دهند و پاسخ‌های غنی‌تر و مفیدتری ارائه دهند. به عنوان مثال، یک کاربر می تواند تصویری از گیاه آپارتمانی پژمرده خود قرار دهد و در مورد چگونگی بازگرداندن آن به زندگی مشاوره دریافت کند، یا توضیح مفصلی از ویدیویی که به آن لینک داده است دریافت کند.

هوش مصنوعی چندوجهی چیست و چگونه کار می کند؟ بیشتر بخوانید: نحوه ارتباط کلاینت با سرور

دستیاران هوش مصنوعی

دستیارهای هوش مصنوعی مانند الکسای آمازون و دستیار گوگل به دلیل هوش مصنوعی چندوجهی وجود دارند. این دستگاه‌های هوشمند را می‌توان با دستورات صوتی ساده کنترل کرد و به کاربران اجازه می‌دهد تصاویر و ویدیوهای خاص را دریافت کنند، رویدادهای جاری، دستورالعمل‌ها و اطلاعات کلی را (در هر دو فرمت صوتی و متنی) دریافت کنند و حتی نور و دمای خانه‌های خود را تنظیم کنند.

هوش مصنوعی چندوجهی در پزشکی

رشته پزشکی نیاز به تفسیر انواع مختلفی از داده ها، از جمله تصاویر پزشکی، یادداشت های بالینی، پرونده الکترونیک سلامت و تست های آزمایشگاهی دارد. مدل‌های هوش مصنوعی تک وجهی Unimodal وظایف مراقبت‌های بهداشتی خاصی را در روش‌های خاص انجام می‌دهند، مانند آنالیز اشعه ایکس یا شناسایی تغییرات ژنتیکی. و LLM اغلب برای کمک به پاسخگویی به سوالات مرتبط با سلامت به زبان ساده استفاده می شود. اکنون، محققان شروع به وارد کردن هوش مصنوعی چندوجهی به عرصه می‌کنند و ابزارهای جدیدی را توسعه می‌دهند که داده‌های همه این منابع متفاوت را برای کمک به تشخیص‌های پزشکی ترکیب می‌کند.

ماشین های خودران

ماشین های خودران به لطف هوش مصنوعی چندوجهی، داده ها را از چندین منبع پردازش و تفسیر می کنند. دوربین ها اطلاعات بصری در مورد محیط وسیله نقلیه ارائه می دهند، رادار اشیاء و سرعت آنها را شناسایی می کند در حالی که LiDAR فاصله بین آنها را اندازه گیری می کند و GPS داده های مکان و ناوبری را ارائه می دهد. با کنار هم قرار دادن همه این داده‌ها و تجزیه و تحلیل آن‌ها، مدل‌های هوش مصنوعی می‌توانند محیط اطراف خودرو را در زمان واقعی درک کنند و بر اساس آن واکنش نشان دهند، آنها می‌توانند موانع را تشخیص دهند، پیش‌بینی کنند که سایر وسایل نقلیه یا عابران پیاده کجا خواهند بود و تصمیم بگیرند که چه زمانی باید هدایت شوند، ترمز کنند یا شتاب بگیرند. .

هوش مصنوعی در رباتیک

ربات‌های مجهز به هوش مصنوعی چندوجهی داده‌های دوربین‌ها، میکروفون‌ها و حسگرهای عمق را ادغام می‌کنند و به آن‌ها امکان می‌دهند محیط خود را با دقت بیشتری درک کنند و به همان اندازه پاسخ دهند. به عنوان مثال، آنها می توانند از دوربین برای دیدن و تشخیص اشیا یا میکروفون برای درک دستورات گفتاری استفاده کنند. چه یک ربات انسان نما یا یک ربات در خط مونتاژ باشد، هوش مصنوعی چندوجهی به ربات ها از هر نوع اجازه می دهد تا به طور موثر در محیط های مختلف موثر واقع شوند.

مزایای هوش مصنوعی چندوجهی

درک بهتر موضوعات

همانطور که هوش مصنوعی یاد می گیرد، مدل های چندوجهی طیف گسترده ای از انواع داده ها را به طور همزمان ادغام و تجزیه و تحلیل می کنند، که به آنها درک متنی کامل تری از یک موضوع داده شده نسبت به هر نوع داده جداگانه می دهد.

به عنوان مثال، اگر از یک مدل چند وجهی خواسته شود که ویدیویی از یک شیر تولید کند، کلمه “شیر” را فقط به عنوان دنباله ای از حروف نمی بیند، بلکه می داند که یک شیر چگونه است، یک شیر چگونه حرکت می کند و یک شیر چگونه غرش می کند.

نتایج دقیق تر

از آنجایی که مدل‌های چندوجهی برای تشخیص الگوها و ارتباطات بین انواع مختلف داده‌ها طراحی شده‌اند، تمایل دارند اطلاعات را با دقت بیشتری درک و تفسیر کنند. با این حال، هوش مصنوعی چندوجهی هنوز هم می‌تواند چیزها را اشتباه کند و ممکن است نتایج مغرضانه یا مضری ایجاد کند.

قادر به انجام طیف وسیع تری از وظایف

سیستم‌های هوش مصنوعی چندوجهی می‌توانند طیف وسیع‌تری از وظایف را نسبت به سیستم‌های تک‌وجهی انجام دهند. بسته به مدل خاص، آن‌ها می‌توانند اعلان‌های متنی را به تصاویر تولید شده توسط هوش مصنوعی تبدیل کنند، آنچه را که در یک ویدیو می‌گذرد به زبان ساده توضیح دهند، یک کلیپ صوتی بر اساس عکس و موارد دیگر تولید کنند. در همین حال، سیستم های تک وجهی تنها قادر به انجام یکی از این وظایف هستند.

درک بهتر از نیت کاربر

چندوجهی بودن به کاربران اجازه می دهد تا به جای گیرکردن در یک حالت ارتباطی، نحوه تعامل با یک سیستم هوش مصنوعی را انتخاب کنند.

تجربه کاربری بصری بیشتر

از آنجایی که سیستم‌های چندوجهی به کاربران اجازه می‌دهند تا خود را به روش‌های مختلف بیان کنند، بسته به آنچه برای آنها طبیعی است، تجربه کاربری آن‌ها “بسیار شهودی به نظر می‌رسد”. به عنوان مثال، کاربر به جای اینکه مجبور باشد صدای موتور ماشین خود را برای دریافت راهنمایی در مورد مشکل آن توصیف کند، فقط می‌تواند یک کلیپ صوتی آپلود کند. یا به جای فهرست کردن همه غذاهای آشپزخانه خود برای پیشنهاد دستور پخت، می توانند عکس های یخچال و کمد خود را آپلود کنند.


تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Builtin)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.