ChatGPT در مقابل Gemini: کدام بهتر است؟

Google Deepmind اخیراً Gemini را معرفی کرده است، مدل جدید هوش مصنوعی خود برای رقابت با ChatGPT OpenAI یعنی ChatGPT در مقابل Gemini. در حالی که هر دو مدل نمونههایی از “هوش مصنوعی مولد” هستند، که یاد میگیرند الگوهای اطلاعات آموزشی ورودی را برای تولید دادههای جدید (تصاویر، کلمات یا رسانههای دیگر) پیدا کنند، ChatGPT در مقابل Gemini یک مدل زبان بزرگ (LLM) است که بر تولید متن تمرکز دارد.
همانطور که ChatGPT یک برنامه وب برای مکالمات است که مبتنی بر شبکه عصبی معروف به GPT است (آموزش داده شده بر روی مقادیر بسیار زیاد متن)، در مقابل گوگل Gemini نیز یک برنامه وب مکالمه به نام Bard دارد که بر اساس مدلی به نام LaMDA (آموزش داده شده بر روی گفتگو). اما گوگل اکنون آن را بر اساس Gemini ارتقا می دهد.
چیزی که Gemini را از مدل های قبلی هوش مصنوعی مولد مانند LaMDA متمایز می کند، این است که یک “مدل چند وجهی” است. این بدان معناست که مستقیماً با چندین حالت ورودی و خروجی کار می کند: علاوه بر پشتیبانی از ورودی و خروجی متن، از تصاویر، صدا و ویدئو نیز پشتیبانی می کند. بر این اساس، نام اختصاری جدیدی در حال ظهور است: LMM (مدل چندوجهی بزرگ) که نباید با LLM اشتباه گرفته شود.
در ماه سپتامبر، OpenAI مدلی به نام GPT-4Vision را معرفی کرد که می تواند با تصاویر، صدا و متن نیز کار کند. با این حال، این یک مدل کاملاً چندوجهی به روشی که Gemini وعده داده است نیست.
برای مثال، در حالی که ChatGPT-4 که توسط GPT-4V استفاده میشود، میتواند با ورودیهای صوتی کار کند و خروجیهای گفتاری تولید کند، OpenAI تأیید کرده است که این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام میشود. ChatGPT-4 همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل می کند، به این معنی که خود GPT-4V صرفاً با متن کار می کند.
به همین ترتیب، ChatGPT-4 و ChatGPT در مقابل Gemini میتواند تصاویر را تولید کند، اما این کار را با تولید پیامهای متنی انجام میدهد که به یک مدل یادگیری عمیق جداگانه به نام Dall-E 2 منتقل میشوند، که توضیحات متن را به تصاویر تبدیل میکند.
در مقابل، گوگل Gemini را به گونهای طراحی کرد که «بومی چند وجهی» باشد. این بدان معناست که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل می کند و می تواند مستقیماً آنها را نیز خروجی دهد.
مقایسه بین ChatGPT و Gemini
تمایز بین این دو رویکرد ممکن است آکادمیک به نظر برسد، اما تفاوت ChatGPT در مقابل Gemini مهم است. نتیجهگیری کلی از گزارش فنی گوگل و سایر آزمایشهای کیفی تا به امروز این است که نسخه فعلی Gemini در دسترس عموم، به نام Gemini 1.0 Pro، به طور کلی به خوبی GPT-4 نیست و از نظر قابلیتها بیشتر شبیه به GPT 3.5 است.
بیشتر بخوانید:
آموزش فعالسازی IPv6 در مودم
گوگل همچنین نسخه قدرتمندتری از Gemini را به نام Gemini 1.0 Ultra معرفی کرد و نتایجی را ارائه کرد که نشان میدهد قدرتمندتر از GPT-4 است. با این حال، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول این است که گوگل هنوز Ultra را منتشر نکرده است، بنابراین در حال حاضر نمی توان نتایج را به طور مستقل تایید کرد.
دومین دلیلی که چرا ارزیابی ادعاهای گوگل در تفاوت ChatGPT در مقابل Gemini دشوار است این است که تصمیم گرفت یک ویدیوی نمایشی تا حدی فریبنده منتشر کند، در زیر ببینید. این ویدئو مدل Gemini را نشان می دهد که به صورت تعاملی و روان در یک جریان ویدیویی زنده نظر می دهد.
با این حال، همانطور که در ابتدا توسط بلومبرگ گزارش شد، تظاهرات در این ویدئو به صورت واقعی انجام نشد. به عنوان مثال، مدل از قبل چند کار خاص را یاد گرفته بود، مانند ترفند سه فنجان و توپ، که در آن جمینی ردیابی می کند که توپ زیر کدام فنجان است. برای انجام این کار، دنباله ای از تصاویر ثابت ارائه شده بود که در آن دست های مجری بر روی فنجان های در حال تعویض است.
عملکرد مدلهای یادگیری عمیق عموماً با افزایش پیچیدگی مدل و مقدار دادههای آموزشی هدایت میشود. این منجر به این سؤال شده است که چگونه می توان به پیشرفت های بیشتری دست یافت، زیرا ما تقریباً داده های آموزشی جدید برای مدل های زبان را تمام کرده ایم. با این حال، مدلهای چندوجهی، ذخایر جدید عظیمی از دادههای آموزشی را در قالب تصاویر، صدا و فیلم باز میکنند.
هوش مصنوعیهایی مانند Gemini که میتوانند مستقیماً روی همه این دادهها آموزش ببینند، احتمالاً در آینده قابلیتهای بسیار بیشتری خواهند داشت.
جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد این میدان کمک می کند. البته، OpenAI تقریباً به طور قطع روی GPT-5 کار میکند و میتوان انتظار داشت ChatGPT در مقابل Gemini که چندوجهی نیز باشد و قابلیتهای جدید قابل توجهی را نشان دهد.
تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقالهای از Techxplore)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.