Google Gemini: هر آنچه باید در مورد هوش مصنوعی چندوجهی نسل بعدی گوگل بدانید
Gemini قرار است به بخش مرکزی هویت گوگل تبدیل شود. این نام جدید برای رقیب آزمایشی Google ChatGPT Bard و مدل زبان بزرگ زیربنایی است که پاسخ دهیها را تقویت میکند. همچنین جایگزین هوش مصنوعی Duet در Workspace و همچنین Google Assistant در تلفن شما میشود، با پاسخهای طولانیتر و قدرتمندتر تولید شده توسط هوش مصنوعی اطلاعات غنی تری را در اختیار شما قرار میدهد. همانطور که میبینید، Gemini مجموعهای از محصولات مختلف است که توضیح آن را نسبتاً پیچیده میکند. ما اینجا هستیم تا به شما کمک کنیم که گوگل جمینی چیست، چگونه کار میکند و چه انتظاراتی میتوانید از آن داشته باشید.
گوگل جمینی چیست؟
Gemini آخرین تکامل Google Bard and Assistant است.
در 8 فوریه 2024، گوگل تغییر نام تجاری بزرگ Bard، ربات آزمایشی هوش مصنوعی خود را اعلام کرد. این ابزار اکنون با نام Gemini شناخته میشود، اما اساساً همچنان همان ویژگیهایی را که Bard قبل از خود داشت، ارائه میکند، مگر برای طراحی مجدد جزئی وبسایت. به زبان ساده، این نسخه از Gemini برای شما رابطی است که استفاده از مدل زبان بزرگ گوگل را ممکن میسازد. سایر هوش مصنوعیهای مولد محبوب ChatGPT و DALLE-E هستند. هوش مصنوعی مولد میتواند ویدیو، صدا و تصویر بسازد. به عنوان یک ربات چت هوش مصنوعی، Gemini بر ایجاد متنی تمرکز دارد که به طور طبیعی و مکالمه به سؤالات شما پاسخ میدهد، اما اخیراً برای پشتیبانی از تولید تصویر نیز به روز شده است.
Gemini به عنوان یک محصول رایگان در دسترس است، اما اگر میخواهید به ویژگیهای بیشتری دسترسی داشته باشید و پاسخهای دقیقتری دریافت کنید، میتوانید مشترک Gemini Advanced جدید نیز شوید. این بخشی از اشتراک Google One است که پس از معرفی Gemini، سطح جدیدی دریافت کرد. طرح جدید Google One AI Premium با 26 دلار در ماه یا 20 دلار در صورت پرداخت سالانه در دسترس است. علاوه بر دسترسی به یک مدل هوش مصنوعی بهتر، 2 ترابایت فضای ذخیرهسازی Google Drive و ویژگیهای Google One بیشتری نیز دارد.
Gemini نیز به Google Workspace میآید. در حال حاضر، مجموعه آفیس دارای یک ربات چت “Duet AI” است که به “Gemini for Workspace” تغییر نام داده خواهد شد. کسانی که در طرح Google One AI Premium مشترک شوند، درست مانند مشاغل، به Gemini در Gmail، Drive، Docs و موارد دیگر دسترسی خواهند داشت. نام جدید برای مشتریان Google Cloud نیز منتشر خواهد شد.
همراه با تغییر نام تجاری Bard، گوگل همچنین یک برنامه Gemini را برای اندروید منتشر کرد، چیزی که هرگز برای نسخه قدیمی ربات چت در دسترس نبود. هنگامی که Gemini را روی تلفن خود نصب کردید یا از طریق Google Assistant آن را انتخاب کردید، میتوانید به آن تغییر دهید. با این کار چند ویژگی جدید در گوشی شما باز میشود. میتوانید از فرمان صوتی آشنا «Hey Google» برای دسترسی به آن و پرسیدن سؤال از آن استفاده کنید. Gemini از آنچه در صفحه نمایش شما نشان داده میشود آگاه است، بنابراین میتوانید از آن بخواهید متن یا پاسخهایی را بر اساس آنچه قابل مشاهده است ایجاد کند. بسیاری از ویژگیهای دستیار Google نیز از طریق Gemini در دسترس هستند، مانند تنظیم تایمر، گزینه برقراری تماس و کنترلهای خانه هوشمند. Google در حال کار بر روی گسترش این قابلیت قدیمی در آینده است.
Gemini Advanced به زبان انگلیسی در بیش از 150 کشور در دسترس است و در آینده در مناطق و زبانهای بیشتری عرضه خواهد شد. تجربه جدید Gemini Android فقط در ایالات متحده به زبان انگلیسی در دسترس است. Google به سرعت آن را در مناطق بیشتری عرضه میکند، بنابراین اگر به طور دورهای به آن دسترسی دارید، دوباره بررسی کنید.
Gemini همچنین قدرتمندترین مدل هوش مصنوعی مولد گوگل است
آیا Google Gemini یک ربات چت است؟ آیا میتواند محتوا ایجاد کند؟
همانطور که در بالا توضیح داده شد، Gemini مطمئناً میتواند محتوا ایجاد کند، اما Gemini بسیار جاه طلب تر از یک چتبات است و این موضوع نیاز به توضیح دارد.
Gemini از نظر فنی یک مدل زبان LLM یا بزرگ است، به این معنی که یک چارچوب یادگیری ماشینی است که با ریختن یک سری چیزهای انسانی (به طور کلی محتوای آنلاین) در آن آموزش داده میشود و به آن کمک میکند قوانینی برای درک آن محتوا ایجاد کند. این کار را به اندازه کافی انجام دهید و LLMها میتوانند دادههای زبان را به اندازه کافی پردازش کنند تا جملات خود را کنار هم بگذارند و سبکهای خاصی را همانطور که ChatGPT و Bard انجام میدهند تقلید کنند – مانند حل کنندههای متخصص معما که روشهای ریاضی را برای “حل” گفتار انسان ایجاد میکنند. هرچه بیشتر یاد بگیرند، بهتر میتوانند به آن دست یابند.
اکثر LLMها فقط در چند چیز، مانند گفتار یا تصاویر، تخصص دارند. این به تمرکز آنها کمک میکند و منابع عظیمی را که به آنها نیاز دارند کاهش میدهد. گوگل در ایجاد مدلهای هوش مصنوعی کارآمد که عمیقاً بر روی مجموعه محدودتری از محتوا آموزش دیدهاند، مهارت خاصی دارد که در تضاد با سیستم OpenAI است که تقریباً هر چیزی را که میتواند، به هوش مصنوعی عرضه میکند.
با این حال، به نظر میرسد جمینی با مدلهای موجود متفاوت است، زیرا از همان ابتدا به عنوان چند وجهی آموزش داده شده است. Multimodal فقط به این معنی است که هوش مصنوعی میتواند همه نوع محتوا را یاد بگیرد و ایجاد کند، نه فقط یک “زبان”. Gemini میتواند گفتار، مطابقت، مشکلات استدلال، کد، تصاویر (از جمله ایموجی)، ویدئو، صدا و موارد دیگر را مدیریت کند. این مانند یک انسان چندگانه یا رنسانس جهان LLM است.
همانطور که با مثالهای تصویری ما میبینید، به نظر میرسد که Gemini در درک زمینه و تفسیر صحیح آن اطلاعات برای کاربران، صرف نظر از موضوع، بسیار خوب است.
بر اساس دادههایی که در اختیار داریم، به نظر میرسد Gemini در کاری که در محدودهاش انجام میدهد بسیار خوب است. در آزمون Massive Multitask Language Understanding (MMLU) امتیاز 90% را کسب کرد که بهتر از اکثر متخصصان زبان انسانی و مطابق با عملکرد گذشته گوگل است. گوگل همچنین میگوید Gemini در 30 آزمون از 32 آزمون آکادمیک مورد استفاده برای نمره دادن به LLM، مدلهای هوش مصنوعی موجود را شکست میدهد. با این حال، گزارشهای دیگر همچنین میگویند که اگرچه Gemini Pro میتواند GPT-3.5 را شکست دهد (که بسیاری از محتوای ChatGPT را که امسال دیدیم تامین میکرد) اما توسط GPT-4 جدیدتر شکست خورده است، در حالی که Gemini Ultra به سختی GPT-4 را شکست میدهد. این یک میدان بسیار رقابتی در حال حاضر است.
هیچ هوش مصنوعی در حال حاضر در بازار به اندازه Gemini چندوجهی نیست، به این معنی که مشاغلی که از این هوش مصنوعی آموزش دیده استفاده میکنند میتوانند آن را با تقریباً هر چیزی تطبیق دهند. این برای شرکتهایی که ممکن است بخواهند خدمات هوش مصنوعی را سفارشی کنند تا هر کاری انجام دهند، از شناسایی کیفهای دستی تقلبی گرفته تا تقلید از عموی مفید سوئدی در چت خدمات مشتری، ارزش خاصی دارد. گوگل همچنین چند احتمال دیگر را ذکر میکند، مانند:
- توضیح مسائل فیزیک برای دانش آموزان
- پردازش صدای خام برای جستجوی سیگنالهای خاص
- تجزیه و تحلیل قصد کاربر برای ایجاد کیتها و بستههای قابل تنظیم برای یک شخص
- کمک به دانشمندان در یافتن پیوندهای موجود در تحقیقات منتشر شده که ممکن است آنها را از دست داده باشند
- برنده شدن در تمام مسابقات برنامه نویسی رقابتی که در آن مجاز است
آیا Google Gemini با Google Bard متفاوت است؟
بله. Gemini با Google Bard متفاوت است، اما داشتن کمی زمینه قبلی باعث میشود این پاسخ به مراتب کمتر گیج کننده باشد. تا فوریه 2024، Google Bard رابط کاربری بود که گوگل با LLMهای مختلف خود استفاده میکرد. Bard اصلی که در اوایل سال 2023 راهاندازی شد، تلاشی بسیار زودتر برای هوش مصنوعی رو به روی مصرف کننده بود (به یاد داشته باشید، در زمینه این LLMهای AI اوایل دهه 2020، حتی چندین ماه میتواند زمان زیادی باشد).
وقتی در مارس 2023 راهاندازی شد، بارد از مدل LaMDA گوگل (مدل زبانی برای برنامههای گفتگو) استفاده کرد. چند ماه بعد، Bard اولین به روز رسانی اصلی خود را با انتشار PalM 2 در Google I/O دریافت کرد. در دسامبر 2023، گوگل با تغییر به مدل Gemini Pro، بزرگترین به روز رسانی خود را به Bard ارائه کرد. در فوریه 2024، برند Bard به طور کلی متوقف شد، و خود رابط اکنون به نام Gemini نیز شناخته میشود.
حالا که Gemini منتشر شده است، معامله با PalM 2 چیست؟
این پیچیده است و ما نگاه خوبی به پشت صحنه نداریم. PaLM 2 بهروزرسانی عظیمی برای LLM متمرکز بر زبان Google بود که در اوایل سال 2023 ساخته شد. PalM 2 در کارهای زبانی مانند ترجمه برتری دارد، و در حالی که Google ماژولهای PalM 2 را ساخته است که کارهای دیگری مانند خواندن اسکنهای پزشکی را انجام میدهند، به اندازه Gemini چندوجهی نیست. با این حال، خدمات هوش مصنوعی سبک وزنی را برای مشاغلی که میخواهند با استفاده از پلتفرم Google Vertex که Gemini نیز در آن قرار دارد، هوش مصنوعی خود را با استفاده از کارهایی که گوگل قبلا انجام داده است، بسازند، ارائه میکند.
Gemini و PalM 2 به نظر رقیب نیستند، و Gemini مدلی است که اکثر مردم هنگام استفاده از محصولات و سخت افزار هوش مصنوعی با آن تعامل خواهند داشت. Google DeepMind که از ادغام دو پروژه قبلی Brain Team و DeepMind شکل گرفته است، مسئولیت هر دو را بر عهده دارد. گوگل از PalM 2 و Gemini به عنوان دو مدل هوش مصنوعی مجزا با کانونهای مختلف یاد میکند، اگرچه ممکن است برای کارهای خاصی با هم کار کنند.
از کجا میتوانم Google Gemini را پیدا کنم؟
اگر میخواهید از نسخه کاربری گوگل جمینی استفاده کنید، کافی است به وبسایت جمینی مراجعه کنید یا اپلیکیشن جمینی را در گوشی اندرویدی خود دانلود کنید. در آیفون اپل، Gemini در برنامه معمولی Google در دسترس است.
اگر توسعهدهندهای ( مثلا برنامه نویس) هستید که علاقهمند به استفاده از مدل زیربنایی هوش مصنوعی برای پروژههای خود هستید، به صفحه وب DeepMind برای Gemini سری بزنید و به دنبال گزینه ثبتنام برای کسب اطلاعات بیشتر یا گزینه ورود به حساب توسعهدهنده خود باشید، تا بتوانید با کیت Gemini Pro API شروع کنید. سپس میتوانید خدمات Gemini را در برنامههای خود قرار دهید و مدلهای خاص Gemini را با نیازهای خود تنظیم کنید.
به خاطر داشته باشید، Gemini فقط برای استفاده سازمانی و توسعه دهندگان، عمدتاً از طریق پلت فرم Vertex طراحی شده است. این برای شرکتهایی است که میخواهند راهحلهای هوش مصنوعی متناسب با آنها را از طریق اپلیکیشنها و وبسایتهای خود به مشتریان ارائه دهند. اگر شما، به عنوان یک مصرف کننده، میخواهید Gemini را تجربه کنید، بهترین گزینه برای شما Google Bard یا خدمات مرتبط Google است.
هزینه استفاده از Gemini چقدر است؟
برای مصرف کنندگان، استفاده از نسخه اصلی Gemini با Pro 1.0 رایگان است. برای دسترسی به Gemini Advanced with Ultra 1.0، باید در طرح Google One AI Premium مشترک شوید. هزینه آن 26 دلار در ماه یا 240 دلار در سال است، با تخفیف سالانه به طور متوسط به 20 دلار در ماه.
برای توسعهدهندگان و شرکتهایی که از مدل زیربنایی هوش مصنوعی Gemini استفاده میکنند، قیمتگذاری خاص Gemini در حال حاضر دشوار است. پیشنهاد میکنیم نگاهی به Google Vertex و قیمت آن برای همه خدمات هوش مصنوعی مولد بیندازید، که بسته به نوع محتوا و سرویس خاصی که یک کسب و کار به آن علاقه دارد متفاوت است.
آیا گوگل جمینی ایمن است؟
DeepMind میگوید که Gemini با در نظر گرفتن ایمنی آموزش دیده است و به طور مسئولانه مستقر خواهد شد. گوگل در مورد آنچه که مستلزم آن است بسیار مبهم است، اما به احتمال زیاد به این معنی است که Gemini قادر به انجام هر کاری بیش از حد شیطان، تهاجمی یا غیرقانونی نخواهد بود.
این سوال که Gemini چگونه محتوا، کارهای اختصاصی و مکالمات ما را مصرف میکند تا حد زیادی دست نخورده باقی مانده است. همچنین چگونه میتوان از آن برای تصاحب مشاغل، کسب درآمد از راههای غیراخلاقی یا بهره برداری از گروههای آسیب پذیر استفاده کرد. اینها سوالاتی است که در مورد همه LLMها مطرح شده است و در حال حاضر، ما سوالات بسیار بیشتری نسبت به پاسخ داریم.
یکی از مواردی که باید در هنگام مکالمه با Google Gemini در نظر داشته باشید این است که تمام کلمات شما ممکن است برای آموزش بیشتر هوش مصنوعی استفاده شود. مکالمات شما همچنین میتواند توسط کارکنان Google که وظیفه بهبود محصول را دارند، بازبینی و بررسی شود، همانطور که در اولین باز کردن Gemini به وضوح آشکار شد. مراقب چیزهایی باشید که با هوش مصنوعی به اشتراک میگذارید و اطلاعات خصوصی را که در جای دیگری از اینترنت با صدای بلند بیان نمیکنید، در اختیار دیگران قرار ندهید.