Google Gemini: هر آنچه باید در مورد هوش مصنوعی چندوجهی نسل بعدی گوگل بدانید

15 اسفند, 140221 خرداد, 1403 13 دقیقه خواندن سولین 828 Views

Gemini قرار است به بخش مرکزی هویت گوگل تبدیل شود. این نام جدید برای رقیب آزمایشی Google ChatGPT Bard و مدل زبان بزرگ زیربنایی است که پاسخ‌ دهی‌ها را تقویت می‌کند. همچنین جایگزین هوش مصنوعی Duet در Workspace و همچنین Google Assistant در تلفن شما می‌شود، با پاسخ‌های طولانی‌تر و قدرتمندتر تولید شده توسط هوش مصنوعی اطلاعات غنی تری را در اختیار شما قرار می‌دهد. همانطور که می‌بینید، Gemini مجموعه‌ای از محصولات مختلف است که توضیح آن را نسبتاً پیچیده می‌کند. ما اینجا هستیم تا به شما کمک کنیم که گوگل جمینی چیست، چگونه کار می‌کند و چه انتظاراتی می‌توانید از آن داشته باشید.

گوگل جمینی چیست؟

Gemini آخرین تکامل Google Bard and Assistant است.

در 8 فوریه 2024، گوگل تغییر نام تجاری بزرگ Bard، ربات آزمایشی هوش مصنوعی خود را اعلام کرد. این ابزار اکنون با نام Gemini شناخته می‌شود، اما اساساً همچنان همان ویژگی‌هایی را که Bard قبل از خود داشت، ارائه می‌کند، مگر برای طراحی مجدد جزئی وب‌سایت. به زبان ساده، این نسخه از Gemini برای شما رابطی است که استفاده از مدل زبان بزرگ گوگل را ممکن می‌سازد. سایر هوش مصنوعی‌های مولد محبوب ChatGPT و DALLE-E هستند. هوش مصنوعی مولد می‌تواند ویدیو، صدا و تصویر بسازد. به عنوان یک ربات چت هوش مصنوعی، Gemini بر ایجاد متنی تمرکز دارد که به طور طبیعی و مکالمه به سؤالات شما پاسخ می‌دهد، اما اخیراً برای پشتیبانی از تولید تصویر نیز به روز شده است.

Gemini به عنوان یک محصول رایگان در دسترس است، اما اگر می‌خواهید به ویژگی‌های بیشتری دسترسی داشته باشید و پاسخ‌های دقیق‌تری دریافت کنید، می‌توانید مشترک Gemini Advanced جدید نیز شوید. این بخشی از اشتراک Google One است که پس از معرفی Gemini، سطح جدیدی دریافت کرد. طرح جدید Google One AI Premium با 26 دلار در ماه یا 20 دلار در صورت پرداخت سالانه در دسترس است. علاوه بر دسترسی به یک مدل هوش مصنوعی بهتر، 2 ترابایت فضای ذخیره‌سازی Google Drive و ویژگی‌های Google One بیشتری نیز دارد.

Gemini نیز به Google Workspace می‌آید. در حال حاضر، مجموعه آفیس دارای یک ربات چت “Duet AI” است که به “Gemini for Workspace” تغییر نام داده خواهد شد. کسانی که در طرح Google One AI Premium مشترک شوند، درست مانند مشاغل، به Gemini در Gmail، Drive، Docs و موارد دیگر دسترسی خواهند داشت. نام جدید برای مشتریان Google Cloud نیز منتشر خواهد شد.

همراه با تغییر نام تجاری Bard، گوگل همچنین یک برنامه Gemini را برای اندروید منتشر کرد، چیزی که هرگز برای نسخه قدیمی ربات چت در دسترس نبود. هنگامی که Gemini را روی تلفن خود نصب کردید یا از طریق Google Assistant آن را انتخاب کردید، می‌توانید به آن تغییر دهید. با این کار چند ویژگی جدید در گوشی شما باز می‌شود. می‌توانید از فرمان صوتی آشنا «Hey Google» برای دسترسی به آن و پرسیدن سؤال از آن استفاده کنید. Gemini از آنچه در صفحه نمایش شما نشان داده می‌شود آگاه است، بنابراین می‌توانید از آن بخواهید متن یا پاسخ‌هایی را بر اساس آنچه قابل مشاهده است ایجاد کند. بسیاری از ویژگی‌های دستیار Google نیز از طریق Gemini در دسترس هستند، مانند تنظیم تایمر، گزینه برقراری تماس و کنترل‌های خانه هوشمند. Google در حال کار بر روی گسترش این قابلیت قدیمی در آینده است.

Gemini Advanced به زبان انگلیسی در بیش از 150 کشور در دسترس است و در آینده در مناطق و زبان‌های بیشتری عرضه خواهد شد. تجربه جدید Gemini Android فقط در ایالات متحده به زبان انگلیسی در دسترس است. Google به سرعت آن را در مناطق بیشتری عرضه می‌کند، بنابراین اگر به طور دوره‌ای به آن دسترسی دارید، دوباره بررسی کنید.

Gemini همچنین قدرتمندترین مدل هوش مصنوعی مولد گوگل است

Google Gemini هنوز جدید است. گوگل در دسامبر 2023 نسخه انگلیسی جمینی پرو را به Google Bard اضافه کرد. علیرغم این نام، گوگل جمینی پرو را نسخه “لایت” مدل هوش مصنوعی توصیف می‌کند، اگرچه برای ما بیشتر شبیه نسخه استاندارد به نظر می‌رسد. این خانواده همچنین شامل Gemini Ultra، هوش مصنوعی ممتازی است که گوگل می‌خواهد گل سرسبد مجموعه باشد. این مورد نسخه‌ای است که نسخه پولی چت ربات پیشرفته Gemini را تقویت می‌کند.

Gemini Nano این سه مورد را تکمیل می‌کند. Nano نسخه سازگار با موبایل از مدل بزرگ زبان است که در Google Pixel 8 Pro با ویژگی Drop ماه دسامبر 2023 عرضه شد و امکان پردازش روی دستگاه را فراهم می‌کند و در نهایت راه خود را به سایر تلفن‌های اندرویدی باز می‌کند.

به نظر می‌رسد گوگل به آرامی از استفاده از Gemini به عنوان نام مدل زبان اصلی خود دور می‌شود. هنگامی که اعلام کرد که بارد در حال تغییر نام تجاری به Gemini است، نسخه پولی را با عنوان “Gemini Advanced with Ultra 1.0” معرفی کرد و نسخه رایگان را “Gemini with Pro 1.0” نامید. با این کار از طرح‌های نام‌گذاری نه چندان زیبا مانند «جمینی پیشرفته که توسط جمینی اولترا پشتیبانی می‌شود» جلوگیری می‌شود.

آیا Google Gemini یک ربات چت است؟ آیا می‌تواند محتوا ایجاد کند؟

همانطور که در بالا توضیح داده شد، Gemini مطمئناً می‌تواند محتوا ایجاد کند، اما Gemini بسیار جاه طلب تر از یک چت‌بات است و این موضوع نیاز به توضیح دارد.

Gemini از نظر فنی یک مدل زبان LLM یا بزرگ است، به این معنی که یک چارچوب یادگیری ماشینی است که با ریختن یک سری چیزهای انسانی (به طور کلی محتوای آنلاین) در آن آموزش داده می‌شود و به آن کمک می‌کند قوانینی برای درک آن محتوا ایجاد کند. این کار را به اندازه کافی انجام دهید و LLM‌ها می‌توانند داده‌های زبان را به اندازه کافی پردازش کنند تا جملات خود را کنار هم بگذارند و سبک‌های خاصی را همانطور که ChatGPT و Bard انجام می‌دهند تقلید کنند – مانند حل کننده‌های متخصص معما که روش‌های ریاضی را برای “حل” گفتار انسان ایجاد می‌کنند. هرچه بیشتر یاد بگیرند، بهتر می‌توانند به آن دست یابند.

اکثر LLM‌ها فقط در چند چیز، مانند گفتار یا تصاویر، تخصص دارند. این به تمرکز آنها کمک می‌کند و منابع عظیمی را که به آنها نیاز دارند کاهش می‌دهد. گوگل در ایجاد مدل‌های هوش مصنوعی کارآمد که عمیقاً بر روی مجموعه محدودتری از محتوا آموزش دیده‌اند، مهارت خاصی دارد که در تضاد با سیستم OpenAI است که تقریباً هر چیزی را که می‌تواند، به هوش مصنوعی عرضه می‌کند.

با این حال، به نظر می‌رسد جمینی با مدل‌های موجود متفاوت است، زیرا از همان ابتدا به عنوان چند وجهی آموزش داده شده است. Multimodal فقط به این معنی است که هوش مصنوعی می‌تواند همه نوع محتوا را یاد بگیرد و ایجاد کند، نه فقط یک “زبان”. Gemini می‌تواند گفتار، مطابقت، مشکلات استدلال، کد، تصاویر (از جمله ایموجی)، ویدئو، صدا و موارد دیگر را مدیریت کند. این مانند یک انسان چندگانه یا رنسانس جهان LLM است.

همانطور که با مثال‌های تصویری ما می‌بینید، به نظر می‌رسد که Gemini در درک زمینه و تفسیر صحیح آن اطلاعات برای کاربران، صرف نظر از موضوع، بسیار خوب است.

بر اساس داده‌هایی که در اختیار داریم، به نظر می‌رسد Gemini در کاری که در محدوده‌اش انجام می‌دهد بسیار خوب است. در آزمون Massive Multitask Language Understanding (MMLU) امتیاز 90% را کسب کرد که بهتر از اکثر متخصصان زبان انسانی و مطابق با عملکرد گذشته گوگل است. گوگل همچنین می‌گوید Gemini در 30 آزمون از 32 آزمون آکادمیک مورد استفاده برای نمره دادن به LLM، مدل‌های هوش مصنوعی موجود را شکست می‌دهد. با این حال، گزارش‌های دیگر همچنین می‌گویند که اگرچه Gemini Pro می‌تواند GPT-3.5 را شکست دهد (که بسیاری از محتوای ChatGPT را که امسال دیدیم تامین می‌کرد) اما توسط GPT-4 جدیدتر شکست خورده است، در حالی که Gemini Ultra به سختی GPT-4 را شکست می‌دهد. این یک میدان بسیار رقابتی در حال حاضر است.

هیچ هوش مصنوعی در حال حاضر در بازار به اندازه Gemini چندوجهی نیست، به این معنی که مشاغلی که از این هوش مصنوعی آموزش دیده استفاده می‌کنند می‌توانند آن را با تقریباً هر چیزی تطبیق دهند. این برای شرکت‌هایی که ممکن است بخواهند خدمات هوش مصنوعی را سفارشی کنند تا هر کاری انجام دهند، از شناسایی کیف‌های دستی تقلبی گرفته تا تقلید از عموی مفید سوئدی در چت خدمات مشتری، ارزش خاصی دارد. گوگل همچنین چند احتمال دیگر را ذکر می‌کند، مانند:

توضیح مسائل فیزیک برای دانش آموزان
پردازش صدای خام برای جستجوی سیگنال‌های خاص
تجزیه و تحلیل قصد کاربر برای ایجاد کیت‌ها و بسته‌های قابل تنظیم برای یک شخص
کمک به دانشمندان در یافتن پیوندهای موجود در تحقیقات منتشر شده که ممکن است آنها را از دست داده باشند
برنده شدن در تمام مسابقات برنامه نویسی رقابتی که در آن مجاز است

آیا Google Gemini با Google Bard متفاوت است؟

بله. Gemini با Google Bard متفاوت است، اما داشتن کمی زمینه قبلی باعث می‌شود این پاسخ به مراتب کمتر گیج کننده باشد. تا فوریه 2024، Google Bard رابط کاربری بود که گوگل با LLM‌های مختلف خود استفاده می‌کرد. Bard اصلی که در اوایل سال 2023 راه‌اندازی شد، تلاشی بسیار زودتر برای هوش مصنوعی رو به روی مصرف کننده بود (به یاد داشته باشید، در زمینه این LLM‌های AI اوایل دهه 2020، حتی چندین ماه می‌تواند زمان زیادی باشد).

وقتی در مارس 2023 راه‌اندازی شد، بارد از مدل LaMDA گوگل (مدل زبانی برای برنامه‌های گفتگو) استفاده کرد. چند ماه بعد، Bard اولین به روز رسانی اصلی خود را با انتشار PalM 2 در Google I/O دریافت کرد. در دسامبر 2023، گوگل با تغییر به مدل Gemini Pro، بزرگترین به روز رسانی خود را به Bard ارائه کرد. در فوریه 2024، برند Bard به طور کلی متوقف شد، و خود رابط اکنون به نام Gemini نیز شناخته می‌شود.

حالا که Gemini منتشر شده است، معامله با PalM 2 چیست؟

این پیچیده است و ما نگاه خوبی به پشت صحنه نداریم. PaLM 2 به‌روزرسانی عظیمی برای LLM متمرکز بر زبان Google بود که در اوایل سال 2023 ساخته شد. PalM 2 در کارهای زبانی مانند ترجمه برتری دارد، و در حالی که Google ماژول‌های PalM 2 را ساخته است که کارهای دیگری مانند خواندن اسکن‌های پزشکی را انجام می‌دهند، به اندازه Gemini چندوجهی نیست. با این حال، خدمات هوش مصنوعی سبک وزنی را برای مشاغلی که می‌خواهند با استفاده از پلتفرم Google Vertex که Gemini نیز در آن قرار دارد، هوش مصنوعی خود را با استفاده از کارهایی که گوگل قبلا انجام داده است، بسازند، ارائه می‌کند.

Gemini و PalM 2 به نظر رقیب نیستند، و Gemini مدلی است که اکثر مردم هنگام استفاده از محصولات و سخت افزار هوش مصنوعی با آن تعامل خواهند داشت. Google DeepMind که از ادغام دو پروژه قبلی Brain Team و DeepMind شکل گرفته است، مسئولیت هر دو را بر عهده دارد. گوگل از PalM 2 و Gemini به عنوان دو مدل هوش مصنوعی مجزا با کانون‌های مختلف یاد می‌کند، اگرچه ممکن است برای کارهای خاصی با هم کار کنند.

از کجا می‌توانم Google Gemini را پیدا کنم؟

اگر می‌خواهید از نسخه کاربری گوگل جمینی استفاده کنید، کافی است به وب‌سایت جمینی مراجعه کنید یا اپلیکیشن جمینی را در گوشی اندرویدی خود دانلود کنید. در آیفون اپل، Gemini در برنامه معمولی Google در دسترس است.

اگر توسعه‌دهنده‌ای ( مثلا برنامه نویس) هستید که علاقه‌مند به استفاده از مدل زیربنایی هوش مصنوعی برای پروژه‌های خود هستید، به صفحه وب DeepMind برای Gemini سری بزنید و به دنبال گزینه ثبت‌نام برای کسب اطلاعات بیشتر یا گزینه ورود به حساب توسعه‌دهنده خود باشید، تا بتوانید با کیت Gemini Pro API شروع کنید. سپس می‌توانید خدمات Gemini را در برنامه‌های خود قرار دهید و مدل‌های خاص Gemini را با نیازهای خود تنظیم کنید.

به خاطر داشته باشید، Gemini فقط برای استفاده سازمانی و توسعه دهندگان، عمدتاً از طریق پلت فرم Vertex طراحی شده است. این برای شرکت‌هایی است که می‌خواهند راه‌حل‌های هوش مصنوعی متناسب با آن‌ها را از طریق اپلیکیشن‌ها و وب‌سایت‌های خود به مشتریان ارائه دهند. اگر شما، به عنوان یک مصرف کننده، می‌خواهید Gemini را تجربه کنید، بهترین گزینه برای شما Google Bard یا خدمات مرتبط Google است.

هزینه استفاده از Gemini چقدر است؟

برای مصرف کنندگان، استفاده از نسخه اصلی Gemini با Pro 1.0 رایگان است. برای دسترسی به Gemini Advanced with Ultra 1.0، باید در طرح Google One AI Premium مشترک شوید. هزینه آن 26 دلار در ماه یا 240 دلار در سال است، با تخفیف سالانه به طور متوسط به 20 دلار در ماه.

برای توسعه‌دهندگان و شرکت‌هایی که از مدل زیربنایی هوش مصنوعی Gemini استفاده می‌کنند، قیمت‌گذاری خاص Gemini در حال حاضر دشوار است. پیشنهاد می‌کنیم نگاهی به Google Vertex و قیمت آن برای همه خدمات هوش مصنوعی مولد بیندازید، که بسته به نوع محتوا و سرویس خاصی که یک کسب و کار به آن علاقه دارد متفاوت است.

آیا گوگل جمینی ایمن است؟

DeepMind می‌گوید که Gemini با در نظر گرفتن ایمنی آموزش دیده است و به طور مسئولانه مستقر خواهد شد. گوگل در مورد آنچه که مستلزم آن است بسیار مبهم است، اما به احتمال زیاد به این معنی است که Gemini قادر به انجام هر کاری بیش از حد شیطان، تهاجمی یا غیرقانونی نخواهد بود.

این سوال که Gemini چگونه محتوا، کارهای اختصاصی و مکالمات ما را مصرف می‌کند تا حد زیادی دست نخورده باقی مانده است. همچنین چگونه می‌توان از آن برای تصاحب مشاغل، کسب درآمد از راه‌های غیراخلاقی یا بهره برداری از گروه‌های آسیب پذیر استفاده کرد. اینها سوالاتی است که در مورد همه LLMها مطرح شده است و در حال حاضر، ما سوالات بسیار بیشتری نسبت به پاسخ داریم.

یکی از مواردی که باید در هنگام مکالمه با Google Gemini در نظر داشته باشید این است که تمام کلمات شما ممکن است برای آموزش بیشتر هوش مصنوعی استفاده شود. مکالمات شما همچنین می‌تواند توسط کارکنان Google که وظیفه بهبود محصول را دارند، بازبینی و بررسی شود، همانطور که در اولین باز کردن Gemini به وضوح آشکار شد. مراقب چیزهایی باشید که با هوش مصنوعی به اشتراک می‌گذارید و اطلاعات خصوصی را که در جای دیگری از اینترنت با صدای بلند بیان نمی‌کنید، در اختیار دیگران قرار ندهید.

تِک یاران