گوگل جمینی چیست؟

گوگل جمینی خانواده ای از مدل های هوش مصنوعی و نام محصول مولد هوش مصنوعی گوگل است. این مدلها در سه اندازه مختلف عرضه میشوند و در چندین محصول Google از جمله Gmail، Docs و موتور جستجوی آن گنجانده شدهاند. گوگل Gemini چند وجهی است، به این معنی که قابلیت های آن شامل متن، تصویر و برنامه های صوتی است. می تواند زبان نوشتاری طبیعی ایجاد کند، سخنرانی ها را رونویسی کند، آثار هنری ایجاد کند، فیلم ها را تجزیه و تحلیل کند و موارد دیگر، اگرچه همه این قابلیت ها هنوز در دسترس عموم نیست. انتظار می رود که گوگل Gemini مانند سایر مدل های هوش مصنوعی در طول زمان با پیشرفت صنعت بهتر شود.
گوگل جمینی چیست؟
گوگل جمینی خانواده مدل های پایه چندوجهی گوگل و نام چت ربات هوش مصنوعی مولد این شرکت است. گوگل در حال ادغام Gemini در چندین محصول خود است و آن را پاسخی به GPT-4 OpenAI میبیند، مدل زبان بزرگ چندوجهی (LLM) که نسخه پولی ChatGPT را تقویت میکند، که یک مسابقه مولد هوش مصنوعی را آغاز کرد که چندین فناوری را ایجاد کرده است. شرکت هایی در تلاش برای ارائه جدیدترین و بهترین محصولات به بازار هستند.
به گفته این شرکت، گوگل جمینی که در دسامبر 2023 راه اندازی شد، بزرگترین و توانمندترین مدل گوگل تا به امروز است. این توسط لابراتوارهای تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه داده شده است و اوج کار است.
مدل های گوگل جمینی
این مدل گوگل جمینی در چهار نسخه مختلف عرضه می شود که از نظر اندازه و پیچیدگی متفاوت است:
Gemini 1.0 Ultra
به گفته گوگل، Gemini 1.0 Ultra بزرگترین مدل برای انجام کارهای بسیار پیچیده است. این شرکت میگوید این اولین مدلی است که در ارزیابی معیاری که موضوعاتی مانند فیزیک، حقوق و اخلاق را پوشش میدهد، از متخصصان انسانی بهتر عمل میکند. این مدل در چندین محصول محبوب گوگل از جمله Gmail، Docs، Slides و Meet گنجانده شده است. با پرداخت 19.99 دلار در ماه، کاربران می توانند از طریق سرویس Gemini Advanced به Gemini 1.0 Ultra دسترسی داشته باشند.
Gemini 1.5 Pro
Gemini 1.5 Pro مدل گوگل جمینی سطح متوسطی است که برای درک پرس و جوهای پیچیده و پاسخ سریع به آنها طراحی شده است و به لطف یک پنجره زمینه توسعه یافته برای بهبود حافظه و یادآوری، برای “گستره وسیعی از وظایف” مناسب است. یک نسخه ویژه آموزشدیده از Pro به ربات چت هوش مصنوعی Gemini قدرت میدهد و از طریق Gemini API در Google AI Studio و Google Cloud Vertex AI در دسترس است.
Gemini 1.0 Nano
نسخه بسیار کوچکتر از مدلهای Pro و Ultra، Gemini 1.0 Nano به گونهای طراحی شده است که بهجای اتصال به سرورهای خارجی، بهاندازه کافی برای انجام وظایف مستقیماً روی دستگاههای هوشمند کارآمد باشد. 1.0 نانو در حال حاضر ویژگیهایی را در Pixel 8 Pro مانند Summarize در برنامه Recorder و Smart Reply در برنامه صفحه کلید مجازی Gboard ارائه میکند.
Gemini 1.5 Flash
جدیدترین عضو خانواده گوگل جمینی، Gemini 1.5 Flash نسخه کوچکتر 1.5 Pro است و برای انجام اقدامات بسیار سریعتر از همتایان Gemini خود ساخته شده است. 1.5 Flash توسط 1.5 Pro آموزش داده شد و مهارت ها و دانش 1.5 Pro را دریافت کرد. در نتیجه، این مدل دارای پنجره زمینه ای برای انجام وظایف سنگین است و در عین حال به عنوان یک جایگزین مقرون به صرفه تر برای مدل های بزرگتر عمل می کند.
گوگل جمینی چه کاری می تواند انجام دهد؟
گوگل جمینی یک مدل چندوجهی است، بنابراین میتواند به طیف وسیعی از انواع محتوا، اعم از متن، تصویر، ویدیو یا صدا پاسخ دهد.
بیشتر بخوانید:
آموزش فعالسازی IPv6 در مودم
گوگل جمینی برای تولید متن
گوگل Gemini میتواند متنی تولید کند، خواه برای مکالمه نوشتاری با کاربران، تصحیح مقالات، نوشتن نامههای پوششی یا ترجمه محتوا به زبانهای مختلف استفاده شود. Gemini همچنین میتواند کد را در برخی از محبوبترین زبانهای برنامهنویسی از جمله Python، Java، C++ و Go درک، توضیح و تولید کند.
با این حال، مانند هر LLM دیگری، گوگل جمینی تمایل به توهم دارد.
سوبودا کومار، استاد آمار، عملیات و علم داده در دانشکده تجارت فاکس دانشگاه تمپل می گوید: «نتایج باید با دقت زیادی مورد استفاده قرار گیرند. “آنها می توانند با خطاهای زیادی همراه شوند.”
گوگل جمینی برای تولید تصاویر
گوگل جمینی قادر است تصاویری را از اعلانهای متنی تولید کند، مشابه سایر تولیدکنندگان هنر هوش مصنوعی مانند Dall-E، Midjourey و Stable Diffusion.
پس از اینکه گوگل در رسانههای اجتماعی به دلیل تولید تصاویری که چهرههای سفید خاصی را بهعنوان افراد رنگین پوست نشان میداد، مورد انتقاد قرار گرفت، این قابلیت موقتاً متوقف شد تا دوباره مورد بازبینی قرار گیرد. مولدهای تصویر برای تقویت و تداوم تعصبات در مورد نژادها و جنسیت های خاص شهرت پیدا کرده اند. اگرچه تلاش های گوگل برای جلوگیری از این دام ممکن است در جهت دیگری پیش رفته باشد.
تجزیه و تحلیل تصاویر و فیلم ها
گوگل جمینی می تواند ورودی های تصویر را بپذیرد و سپس آنچه را که در آن تصاویر می گذرد تجزیه و تحلیل کند و آن اطلاعات را از طریق متن توضیح دهد. به عنوان مثال، یک کاربر می تواند از یک لاستیک پنچر عکس بگیرد و از گوگل Gemini بپرسد که چگونه آن را تعمیر کند، یا از Gemini در مورد تکالیف فیزیک خود با ترسیم مشکل کمک بخواهد. Gemini همچنین میتواند ویدیوها را پردازش و تجزیه و تحلیل کند، توضیحاتی درباره آنچه در یک کلیپ میگذرد تولید کند و به سؤالات مربوط به آن پاسخ دهد.
درک و تحلیل صدا
هنگامی که ورودی های صوتی تغذیه می شود، گوگل جمینی می تواند از تشخیص گفتار در بیش از 100 زبان پشتیبانی کند و در کارهای ترجمه زبان های مختلف کمک کند.
ساده کردن گردش کار
گوگل جمینی را می توان در چندین محصول Google Workspace، از جمله Gmail، Docs و Drive ادغام کرد. کاربران می توانند جمینی را (از طریق رابط چت بات آن) جستجو کنند تا سندی را در Drive خود بیابند و آن را خلاصه کنند یا به طور خودکار ایمیل های خاصی تولید کنند.
در زمینه های تجاری خاص تر، متخصصان می توانند از گوگل Gemini برای تهیه پیش نویس برای پست های وبلاگ، ایمیل ها و تبلیغات در Docs استفاده کنند. ایجاد تصاویر برای ارائه اسلایدها با وارد کردن یک پیام متنی و انتخاب یک سبک بصری. و حتی پسزمینه مجازی خود را در Google Meet با یک پیام متنی دقیق تنظیم کنید.
تالیف:
فروشگاه اینترنتی آ.اس.پ (اقتباس از مقالهای از Builtin)
در صورت استفاده از این مقاله، نام و آدرس فروشگاه اینترنتی آ.اس.پ را به عنوان منبع ذکر کنید.