Google Deepmind اخیراً Gemini را معرفی کرده است، مدل جدید هوش مصنوعی خود برای رقابت با ChatGPT OpenAI یعنی ChatGPT در مقابل Gemini. در حالی که هر دو مدل نمونه‌هایی از “هوش مصنوعی مولد” هستند، که یاد می‌گیرند الگوهای اطلاعات آموزشی ورودی را برای تولید داده‌های جدید (تصاویر، کلمات یا رسانه‌های دیگر) پیدا کنند، ChatGPT در مقابل Gemini یک مدل زبان بزرگ (LLM) است که بر تولید متن تمرکز دارد.

همانطور که ChatGPT یک برنامه وب برای مکالمات است که مبتنی بر شبکه عصبی معروف به GPT است (آموزش داده شده بر روی مقادیر بسیار زیاد متن)، در مقابل گوگل Gemini نیز یک برنامه وب مکالمه به نام Bard دارد که بر اساس مدلی به نام LaMDA (آموزش داده شده بر روی گفتگو). اما گوگل اکنون آن را بر اساس Gemini ارتقا می دهد.

چیزی که Gemini را از مدل های قبلی هوش مصنوعی مولد مانند LaMDA متمایز می کند، این است که یک “مدل چند وجهی” است. این بدان معناست که مستقیماً با چندین حالت ورودی و خروجی کار می کند: علاوه بر پشتیبانی از ورودی و خروجی متن، از تصاویر، صدا و ویدئو نیز پشتیبانی می کند. بر این اساس، نام اختصاری جدیدی در حال ظهور است: LMM (مدل چندوجهی بزرگ) که نباید با LLM اشتباه گرفته شود.

در ماه سپتامبر، OpenAI مدلی به نام GPT-4Vision را معرفی کرد که می تواند با تصاویر، صدا و متن نیز کار کند. با این حال، این یک مدل کاملاً چندوجهی به روشی که Gemini وعده داده است نیست.

برای مثال، در حالی که ChatGPT-4 که ​​توسط GPT-4V استفاده می‌شود، می‌تواند با ورودی‌های صوتی کار کند و خروجی‌های گفتاری تولید کند، OpenAI تأیید کرده است که این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام می‌شود. ChatGPT-4 همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل می کند، به این معنی که خود GPT-4V صرفاً با متن کار می کند.

به همین ترتیب، ChatGPT-4 و ChatGPT در مقابل Gemini می‌تواند تصاویر را تولید کند، اما این کار را با تولید پیام‌های متنی انجام می‌دهد که به یک مدل یادگیری عمیق جداگانه به نام Dall-E 2 منتقل می‌شوند، که توضیحات متن را به تصاویر تبدیل می‌کند.

در مقابل، گوگل Gemini را به گونه‌ای طراحی کرد که «بومی چند وجهی» باشد. این بدان معناست که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل می کند و می تواند مستقیماً آنها را نیز خروجی دهد.

مقایسه بین ChatGPT و Gemini

تمایز بین این دو رویکرد ممکن است آکادمیک به نظر برسد، اما تفاوت ChatGPT در مقابل Gemini مهم است. نتیجه‌گیری کلی از گزارش فنی گوگل و سایر آزمایش‌های کیفی تا به امروز این است که نسخه فعلی Gemini در دسترس عموم، به نام Gemini 1.0 Pro، به طور کلی به خوبی GPT-4 نیست و از نظر قابلیت‌ها بیشتر شبیه به GPT 3.5 است.

ChatGPT در مقابل Gemini: کدام بهتر است؟ بیشتر بخوانید: آموزش فعالسازی IPv6 در مودم

گوگل همچنین نسخه قدرتمندتری از Gemini را به نام Gemini 1.0 Ultra معرفی کرد و نتایجی را ارائه کرد که نشان می‌دهد قدرتمندتر از GPT-4 است. با این حال، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول این است که گوگل هنوز Ultra را منتشر نکرده است، بنابراین در حال حاضر نمی توان نتایج را به طور مستقل تایید کرد.

دومین دلیلی که چرا ارزیابی ادعاهای گوگل در تفاوت ChatGPT در مقابل Gemini دشوار است این است که تصمیم گرفت یک ویدیوی نمایشی تا حدی فریبنده منتشر کند، در زیر ببینید. این ویدئو مدل Gemini را نشان می دهد که به صورت تعاملی و روان در یک جریان ویدیویی زنده نظر می دهد.

با این حال، همانطور که در ابتدا توسط بلومبرگ گزارش شد، تظاهرات در این ویدئو به صورت واقعی انجام نشد. به عنوان مثال، مدل از قبل چند کار خاص را یاد گرفته بود، مانند ترفند سه فنجان و توپ، که در آن جمینی ردیابی می کند که توپ زیر کدام فنجان است. برای انجام این کار، دنباله ای از تصاویر ثابت ارائه شده بود که در آن دست های مجری بر روی فنجان های در حال تعویض است.

عملکرد مدل‌های یادگیری عمیق عموماً با افزایش پیچیدگی مدل و مقدار داده‌های آموزشی هدایت می‌شود. این منجر به این سؤال شده است که چگونه می توان به پیشرفت های بیشتری دست یافت، زیرا ما تقریباً داده های آموزشی جدید برای مدل های زبان را تمام کرده ایم. با این حال، مدل‌های چندوجهی، ذخایر جدید عظیمی از داده‌های آموزشی را در قالب تصاویر، صدا و فیلم باز می‌کنند.

هوش مصنوعی‌هایی مانند Gemini که می‌توانند مستقیماً روی همه این داده‌ها آموزش ببینند، احتمالاً در آینده قابلیت‌های بسیار بیشتری خواهند داشت.

جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد این میدان کمک می کند. البته، OpenAI تقریباً به طور قطع روی GPT-5 کار می‌کند و می‌توان انتظار داشت ChatGPT در مقابل Gemini که چندوجهی نیز باشد و قابلیت‌های جدید قابل توجهی را نشان دهد.


تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.