گوگل جمینی چیست؟

گوگل جمینی خانواده ای از مدل های هوش مصنوعی و نام محصول مولد هوش مصنوعی گوگل است. این مدل‌ها در سه اندازه مختلف عرضه می‌شوند و در چندین محصول Google از جمله Gmail، Docs و موتور جستجوی آن گنجانده شده‌اند. گوگل Gemini چند وجهی است، به این معنی که قابلیت های آن شامل متن، تصویر و برنامه های صوتی است. می تواند زبان نوشتاری طبیعی ایجاد کند، سخنرانی ها را رونویسی کند، آثار هنری ایجاد کند، فیلم ها را تجزیه و تحلیل کند و موارد دیگر، اگرچه همه این قابلیت ها هنوز در دسترس عموم نیست. انتظار می رود که گوگل Gemini مانند سایر مدل های هوش مصنوعی در طول زمان با پیشرفت صنعت بهتر شود.

گوگل جمینی خانواده مدل های پایه چندوجهی گوگل و نام چت ربات هوش مصنوعی مولد این شرکت است. گوگل در حال ادغام Gemini در چندین محصول خود است و آن را پاسخی به GPT-4 OpenAI می‌بیند، مدل زبان بزرگ چندوجهی (LLM) که نسخه پولی ChatGPT را تقویت می‌کند، که یک مسابقه مولد هوش مصنوعی را آغاز کرد که چندین فناوری را ایجاد کرده است. شرکت هایی در تلاش برای ارائه جدیدترین و بهترین محصولات به بازار هستند.

به گفته این شرکت، گوگل جمینی که در دسامبر 2023 راه اندازی شد، بزرگترین و توانمندترین مدل گوگل تا به امروز است. این توسط لابراتوارهای تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه داده شده است و اوج کار است.

مدل های گوگل جمینی

این مدل گوگل جمینی در چهار نسخه مختلف عرضه می شود که از نظر اندازه و پیچیدگی متفاوت است:

Gemini 1.0 Ultra

به گفته گوگل، Gemini 1.0 Ultra بزرگترین مدل برای انجام کارهای بسیار پیچیده است. این شرکت می‌گوید این اولین مدلی است که در ارزیابی معیاری که موضوعاتی مانند فیزیک، حقوق و اخلاق را پوشش می‌دهد، از متخصصان انسانی بهتر عمل می‌کند. این مدل در چندین محصول محبوب گوگل از جمله Gmail، Docs، Slides و Meet گنجانده شده است. با پرداخت 19.99 دلار در ماه، کاربران می توانند از طریق سرویس Gemini Advanced به Gemini 1.0 Ultra دسترسی داشته باشند.

Gemini 1.5 Pro

Gemini 1.5 Pro مدل گوگل جمینی سطح متوسطی است که برای درک پرس و جوهای پیچیده و پاسخ سریع به آنها طراحی شده است و به لطف یک پنجره زمینه توسعه یافته برای بهبود حافظه و یادآوری، برای “گستره وسیعی از وظایف” مناسب است. یک نسخه ویژه آموزش‌دیده از Pro به ربات چت هوش مصنوعی Gemini قدرت می‌دهد و از طریق Gemini API در Google AI Studio و Google Cloud Vertex AI در دسترس است.

Gemini 1.0 Nano

نسخه بسیار کوچک‌تر از مدل‌های Pro و Ultra، Gemini 1.0 Nano به گونه‌ای طراحی شده است که به‌جای اتصال به سرورهای خارجی، به‌اندازه کافی برای انجام وظایف مستقیماً روی دستگاه‌های هوشمند کارآمد باشد. 1.0 نانو در حال حاضر ویژگی‌هایی را در Pixel 8 Pro مانند Summarize در برنامه Recorder و Smart Reply در برنامه صفحه کلید مجازی Gboard ارائه می‌کند.

Gemini 1.5 Flash

جدیدترین عضو خانواده گوگل جمینی، Gemini 1.5 Flash نسخه کوچکتر 1.5 Pro است و برای انجام اقدامات بسیار سریعتر از همتایان Gemini خود ساخته شده است. 1.5 Flash توسط 1.5 Pro آموزش داده شد و مهارت ها و دانش 1.5 Pro را دریافت کرد. در نتیجه، این مدل دارای پنجره زمینه ای برای انجام وظایف سنگین است و در عین حال به عنوان یک جایگزین مقرون به صرفه تر برای مدل های بزرگتر عمل می کند.

گوگل جمینی چه کاری می تواند انجام دهد؟

گوگل جمینی یک مدل چندوجهی است، بنابراین می‌تواند به طیف وسیعی از انواع محتوا، اعم از متن، تصویر، ویدیو یا صدا پاسخ دهد.

بیشتر بخوانید: آشنایی با انواع سافت باکس نورپردازی و تفاوت های آنها

گوگل جمینی برای تولید متن

گوگل Gemini می‌تواند متنی تولید کند، خواه برای مکالمه نوشتاری با کاربران، تصحیح مقالات، نوشتن نامه‌های پوششی یا ترجمه محتوا به زبان‌های مختلف استفاده شود. Gemini همچنین می‌تواند کد را در برخی از محبوب‌ترین زبان‌های برنامه‌نویسی از جمله Python، Java، C++ و Go درک، توضیح و تولید کند.

با این حال، مانند هر LLM دیگری، گوگل جمینی تمایل به توهم دارد.

سوبودا کومار، استاد آمار، عملیات و علم داده در دانشکده تجارت فاکس دانشگاه تمپل می گوید: «نتایج باید با دقت زیادی مورد استفاده قرار گیرند. “آنها می توانند با خطاهای زیادی همراه شوند.”

گوگل جمینی برای تولید تصاویر

گوگل جمینی قادر است تصاویری را از اعلان‌های متنی تولید کند، مشابه سایر تولیدکنندگان هنر هوش مصنوعی مانند Dall-E، Midjourey و Stable Diffusion.

پس از اینکه گوگل در رسانه‌های اجتماعی به دلیل تولید تصاویری که چهره‌های سفید خاصی را به‌عنوان افراد رنگین پوست نشان می‌داد، مورد انتقاد قرار گرفت، این قابلیت موقتاً متوقف شد تا دوباره مورد بازبینی قرار گیرد. مولدهای تصویر برای تقویت و تداوم تعصبات در مورد نژادها و جنسیت های خاص شهرت پیدا کرده اند. اگرچه تلاش های گوگل برای جلوگیری از این دام ممکن است در جهت دیگری پیش رفته باشد.

تجزیه و تحلیل تصاویر و فیلم ها

گوگل جمینی می تواند ورودی های تصویر را بپذیرد و سپس آنچه را که در آن تصاویر می گذرد تجزیه و تحلیل کند و آن اطلاعات را از طریق متن توضیح دهد. به عنوان مثال، یک کاربر می تواند از یک لاستیک پنچر عکس بگیرد و از گوگل Gemini بپرسد که چگونه آن را تعمیر کند، یا از Gemini در مورد تکالیف فیزیک خود با ترسیم مشکل کمک بخواهد. Gemini همچنین می‌تواند ویدیوها را پردازش و تجزیه و تحلیل کند، توضیحاتی درباره آنچه در یک کلیپ می‌گذرد تولید کند و به سؤالات مربوط به آن پاسخ دهد.

درک و تحلیل صدا

هنگامی که ورودی های صوتی تغذیه می شود، گوگل جمینی می تواند از تشخیص گفتار در بیش از 100 زبان پشتیبانی کند و در کارهای ترجمه زبان های مختلف کمک کند.

ساده کردن گردش کار

گوگل جمینی را می توان در چندین محصول Google Workspace، از جمله Gmail، Docs و Drive ادغام کرد. کاربران می توانند جمینی را (از طریق رابط چت بات آن) جستجو کنند تا سندی را در Drive خود بیابند و آن را خلاصه کنند یا به طور خودکار ایمیل های خاصی تولید کنند.

در زمینه های تجاری خاص تر، متخصصان می توانند از گوگل Gemini برای تهیه پیش نویس برای پست های وبلاگ، ایمیل ها و تبلیغات در Docs استفاده کنند. ایجاد تصاویر برای ارائه اسلایدها با وارد کردن یک پیام متنی و انتخاب یک سبک بصری. و حتی پس‌زمینه مجازی خود را در Google Meet با یک پیام متنی دقیق تنظیم کنید.

تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقاله‌ای از Builtin)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.