مقایسه نسخه GPT-4o در برابر GPT-4: تفاوت آنها در چیست؟

26 فروردین, 140426 فروردین, 1404 11 دقیقه خواندن شاهو 229 Views

GPT-4o شرکت OpenAI نوید بهبود قابلیت‌های چندوجهی و افزایش کارایی را می‌دهد. تفاوت‌های بین GPT-4o و سلف آن، یعنی GPT-4 را در این مطلب بررسی می‌کنیم.

GPT-4o شرکت OpenAI بر اساس مدل‌های قبلی این شرکت با به‌روزرسانی‌های قابل توجه، از جمله قابلیت‌های چندوجهی بهبود یافته و عملکرد سریع‌تر، ساخته شده است.

از زمانی که شرکت OpenAI برای اولین بار ChatGPT را در اواخر سال 2022 راه‌اندازی کرد، رابط چت بات و مدل‌های زیربنایی آن قبلاً دستخوش چندین تغییر اساسی شده‌اند. GPT-4o در ماه می‌2024 به عنوان جانشین GPT-4 منتشر شد که در مارس 2023 راه‌اندازی شد و پس از آن GPT-4o mini در جولای 2024 عرضه شد.

GPT-4 و GPT-4o (این حرف o برای کلمه omni است که به معنای “همه” یا “فراگیر” یا “عام” است) مدل‌های پیشرفته هوش مصنوعی مولد هستند که OpenAI برای استفاده در رابط ChatGPT توسعه داده‌اند. هر دو مدل برای تولید متن با صدای طبیعی در پاسخ به درخواست‌های کاربران آموزش دیده‌اند و می‌توانند در مکالمات تعاملی و پشت سر هم شرکت کنند، حافظه و زمینه را برای اطلاع‌رسانی به پاسخ‌های آینده حفظ کنند.

بیشتر بخوانید:

هوش مصنوعی مولد (Generative-AI) چیست؟

آخرین مدل هوش مصنوعی AI Anthropic Claude 3.5 Sonnet عرضه شد و اکنون می توانید آن را امتحان کنید

Google Gemini: هر آنچه باید در مورد هوش مصنوعی چندوجهی نسل بعدی گوگل بدانید

از بسیاری جهات، GPT-4o و GPT-4 مشابه هستند. هر دو مدل‌های پیشرفته OpenAI با قابلیت‌های بینایی و صوتی و توانایی به یاد آوردن اطلاعات و تجزیه و تحلیل اسناد آپلود شده هستند. هر یک دارای یک پنجره زمینه ۱۲۸۰۰۰ توکن و تاریخ قطع دانش در اواخر سال ۲۰۲۳ — اکتبر برای GPT-4o و ماه دسامبر برای GPT-4 است.

اما GPT-4o و GPT-4 نیز در چندین زمینه متفاوت هستند: قابلیت های چندوجهی عملکرد و کارایی؛ قیمت گذاری؛ و پشتیبانی از زبان

GPT-4o mini در کجا قرار می‌گیرد؟

در 18 ژوئیه 2024، OpenAI GPT-4o mini را منتشر کرد، مدلی مقرون به صرفه و کوچکتر در سری GPT خود.

GPT-4o mini برای جایگزینی GPT-3.5 طراحی شده است و OpenAI می‌گوید که از آن مدل بهتر عمل می‌کند در حالی که هزینه کمتری نسبت به سایر گزینه‌های شرکت دارد. این مدل جدید با هدف توسعه‌دهندگانی که به دنبال ساخت برنامه‌های هوش مصنوعی بدون متحمل شدن هزینه‌های محاسباتی مربوط به مدل‌های بزرگ‌تر مانند GPT-4 هستند، به‌عنوان رقیبی برای سایر مدل‌های زبان کوچک مانند هایکو کلود قرار می‌گیرد.

همه کاربران در طرح‌های ChatGPT Free، Plus و Team در زمان راه‌اندازی به GPT-4o mini دسترسی پیدا کردند و انتظار می‌رود کاربران ChatGPT Enterprise کمی بعد به آن دسترسی پیدا کنند. مدل جدید از متن و دید پشتیبانی می‌کند و اگرچه OpenAI گفته است که در نهایت از انواع دیگر ورودی‌های چندوجهی مانند ویدیو و صدا پشتیبانی می‌کند، هنوز جدول زمانی مشخصی برای آن وجود ندارد.

چند وجهی

مدل‌های هوش مصنوعی چندوجهی قادر به پردازش انواع داده‌های متعدد مانند متن، تصویر و صدا هستند. به یک معنا، هر دو GPT-4 و GPT-4o چند وجهی هستند: در رابط ChatGPT، کاربران می‌توانند بدون در نظر گرفتن اینکه از GPT-4 یا GPT-4o استفاده می‌کنند، تصاویر ایجاد و آپلود کنند و از چت صوتی استفاده کنند. با این حال، روشی که این دو مدل به چندوجهی نزدیک می‌شوند بسیار متفاوت است. این یکی از بزرگترین تمایز بین GPT-4o و GPT-4 است.

GPT-4 یک مدل زبان بزرگ ( LLM ) است که در درجه اول برای پردازش متن طراحی شده است، به این معنی که فاقد پشتیبانی داخلی برای مدیریت تصاویر، صدا و ویدئو است. در رابط وب ChatGPT، GPT-4 باید از سایر مدل‌های OpenAI مانند تولیدکننده تصویر Dall-E یا مدل تشخیص گفتار Whisper برای پردازش ورودی غیر متنی استفاده کند.

در مقابل، GPT-4o برای چندوجهی از ابتدا طراحی شده است، از این رو “omni” در نام آن است. نمایندگان OpenAI در یک پست وبلاگی که راه‌اندازی آن را اعلام کردند، نوشتند : «ما یک مدل جدید را در متن، دید و صدا آموزش دادیم، به این معنی که همه ورودی‌ها و خروجی‌ها توسط یک شبکه عصبی پردازش می‌شوند.

این چند وجهی بومی باعث می‌شود GPT-4o در کارهایی که شامل چندین نوع داده است، مانند تجزیه و تحلیل تصویر، سریع‌تر از GPT-4 باشد. به عنوان مثال، در نسخه نمایشی OpenAI از GPT-4o در 13 مه 2024، رهبران شرکت از GPT-4o برای تجزیه و تحلیل ویدیوی زنده کاربر در حال حل یک مسئله ریاضی و ارائه بازخورد صوتی در زمان واقعی استفاده کردند.

عملکرد و کارایی

GPT-4o همچنین به گونه‌ای طراحی شده است که سریع‌تر و از نظر محاسباتی کارآمدتر از GPT-4 در سراسر صفحه باشد، نه فقط برای پرس‌وجوهای چندوجهی. طبق پست وبلاگ OpenAI، GPT-4o دو برابر سریع‌تر از آخرین نسخه GPT-4 است.

با این حال، زمانی که ویراستاران این مطلب دو مدل را در آزمایشی در ژانویه 2025 زمان‌بندی کردند، پاسخ‌های GPT-4 عموماً سریع‌تر از GPT-4o بودند – تغییری نسبت به آزمایش‌های قبلی با استفاده از همان اعلان‌ها در جولای 2024. در مجموع، پاسخ‌های دو مدل از نظر کیفیت مشابه بودند، اگرچه گاهی اوقات جزئیات GPT-4o بیشتر بود.

جدول زیر زمان پاسخگویی GPT-4o و GPT-4 را با پنج درخواست نمونه با استفاده از برنامه وب ChatGPT مقایسه می‌کند.

اعلان	GPT-4o	GPT-4
یک مطلب 500 کلمه‌ای در مورد اینکه چگونه محاسبات کوانتومی می‌تواند صنعت فناوری اطلاعات را تغییر دهد، ایجاد کنید.	63 ثانیه (قبلا 23 ثانیه)	37 ثانیه (قبلا 33 ثانیه)
یک برنامه سفر برای یک سفر سه روزه به شهر تراورس، میشیگان تهیه کنید.	65 ثانیه (قبلا 28 ثانیه)	40 ثانیه (قبلا 48 ثانیه)
چاپ جملات “Hello World” در زبان برنامه نویسی C.	11 ثانیه (قبلا 4 ثانیه)	6 ثانیه (قبلا 7 ثانیه)
توضیحات مربوط، برای تصویر پیوست شده بنویسید.	8 ثانیه (قبلا 2 ثانیه)	8 ثانیه (قبلا 3 ثانیه)
سند پیوست شده [مطلب 22 صفحه‌ای مجله علوم اعصاب] را در پنج نقطه کلیدی خلاصه کنید.	29 ثانیه (قبلا 16 ثانیه)	24 ثانیه (قبلاا 19 ثانیه)

آزمایش OpenAI نشان می‌دهد که GPT-4o در معیارهای اصلی از جمله ریاضی ساده، درک زبان و درک بینایی بهتر از GPT-4 عمل می‌کند. OpenAI همچنین گفته است که GPT-4o درک متنی قوی تری نسبت به GPT-4 دارد و آن را قادر می‌سازد اصطلاحات، استعاره‌ها و مراجع فرهنگی را بهتر درک کند.

آنچه کاربران واقعی می‌گویند متفاوت است. از زمان انتشار، GPT-4o در بین مدل‌های دارای رتبه برتر در پلتفرم ارزیابی LLM جمع‌سپاری شده LMSYS Chatbot Arena، هم به طور کلی و هم در دسته‌های خاص مانند کدنویسی و پاسخ‌گویی به سوالات دشوار است. اما سایر کاربران GPT-4o را “بیش از حد” می‌نامند و گزارش می‌دهند که عملکرد آن در کارهایی مانند کدگذاری، طبقه بندی و استدلال بدتر از GPT-4 است.

متأسفانه، هر نوع شواهد – معیارهای گزارش شده از توسعه دهندگان مدل، ارزیابی‌های انسانی جمع آوری شده و حکایات تأیید نشده – محدودیت‌های خاص خود را دارد. برای توسعه‌دهندگانی که برنامه‌های LLM را می‌سازند و کاربرانی که هوش مصنوعی مولد را در جریان کار خود ادغام می‌کنند، تصمیم‌گیری در مورد بهترین مدل ممکن است در نهایت نیاز به آزمایش در طول زمان و در زمینه‌های مختلف داشته باشد. به عنوان مثال، برخی از توسعه دهندگان می گویند که بسته به وظیفه‌ای که در دست دارند، بین GPT-4 و GPT-4o به عقب و جلو می‌روند.

قیمت گذاری

یکی از مزیت‌های بهبود کارایی محاسباتی GPT-4o قیمت پایین تر آن است.

برای توسعه دهندگانی که از API OpenAI استفاده می‌کنند، GPT-4o به مراتب گزینه مقرون به صرفه تر است. این با نرخ 2.50 دلار به ازای هر میلیون توکن ورودی و 10 دلار در هر میلیون توکن خروجی در دسترس است، در حالی که GPT-4 مبلغ 30 دلار به ازای هر میلیون توکن ورودی و 60 دلار به ازای هر میلیون توکن خروجی هزینه دارد. GPT-4o mini حتی ارزان تر است، با 15 سنت در هر میلیون توکن ورودی و 60 سنت در هر میلیون توکن خروجی.

برای کاربران برنامه‌های وب، این تفاوت حتی مهم تر است. GPT-4o اکنون نسخه رایگان ChatGPT را با GPT-4o و GPT-4o مینی جایگزین GPT-3.5 می کند. این به کاربران امکان دسترسی رایگان به چندوجهی بودن، پاسخ‌های متنی با کیفیت بالاتر، چت صوتی و GPTهای سفارشی را می‌دهد – گزینه‌ای بدون کد برای ساخت ربات‌های گفتگوی شخصی – که قبلاً فقط برای مشتریان پولی در دسترس بود. GPT-4 فقط برای افرادی که دارای طرح پولی هستند، از جمله ChatGPT Plus، Pro، Team و Enterprise که از 20 دلار در ماه شروع می‌شود، در دسترس خواهد بود.

علاوه بر این، کاربران رایگان و پولی سطوح مختلفی از دسترسی به هر مدل را خواهند داشت. کاربران رایگان با محدودیت‌های پیام برای GPT-4o مواجه می‌شوند و پس از زدن این محدودیت‌ها، به GPT-4o mini مهاجرت می‌کنند. کاربران ChatGPT Plus محدودیت‌های پیام بالاتری نسبت به کاربران رایگان خواهند داشت و کسانی که در طرح Pro، Team یا Enterprise هستند، محدودیت‌های کمتری خواهند داشت.

پشتیبانی از زبان

GPT-4o همچنین در مقایسه با GPT-4 از زبان‌های غیرانگلیسی پشتیبانی بهتری ارائه می‌دهد. به طور خاص، OpenAI توکن سازی را برای زبان‌هایی که از الفبای غربی استفاده نمی‌کنند، مانند هندی، چینی و کره‌ای بهبود بخشیده است. توکنایزر جدید، متن غیرانگلیسی را با هدف مدیریت درخواست‌ها در آن زبان‌ها به روشی ارزان تر و سریع تر به طور موثرتر فشرده می‌کند.

این تغییر به یک مسئله دیرینه در پردازش زبان طبیعی می‌پردازد که در آن مدل‌ها از نظر تاریخی برای زبان‌های غربی به قیمت زبان‌هایی که در مناطق دیگر صحبت می‌شوند، بهینه‌سازی شده‌اند. استفاده از زبان‌های بیشتر با دقت و تسلط بیشتر، GPT-4o را برای برنامه‌های جهانی مؤثرتر می‌کند و دسترسی به گروه‌هایی را که ممکن است قادر به تعامل کامل با مدل‌های قبلی نبودند، باز کند.

اما پشتیبانی از زبان بهبود یافته بدون چالش نیست. تنها چند روز پس از انتشار OpenAI GPT-4o، محققان متوجه شدند که بسیاری از توکن‌های چینی شامل عبارات نامناسب مرتبط با پورنوگرافی و قمار هستند. توسعه‌دهندگان مدل ممکن است این توکن‌های مشکل‌ساز را به دلیل پاک‌سازی ناکافی داده‌ها وارد کرده باشند که به طور بالقوه درک مدل را ضعیف می‌کند و خطر نقض امنیتی و توهم را به همراه دارد.

آیا GPT-4o بهتر از GPT-4 است؟

در بیشتر موارد، GPT-4o در واقع بهتر از GPT-4 است. OpenAI اکنون GPT-4o را به عنوان مدل پرچمدار خود توصیف می‌کند و سرعت بهبود یافته، هزینه‌های کمتر و قابلیت‌های چند وجهی آن برای بسیاری از کاربران جذاب خواهد بود.

گفته می‌شود، برخی از کاربران ممکن است همچنان GPT-4 را ترجیح دهند، به خصوص در زمینه‌های تجاری. از آنجایی که GPT-4 از مارس 2023 در دسترس بوده است، به خوبی آزمایش شده و برای بسیاری از توسعه دهندگان و مشاغل آشنا است. این نوع پایداری می‌تواند برای برنامه‌های کاربردی حیاتی و پرکاربرد بسیار مهم باشد، جایی که قابلیت اطمینان ممکن است اولویت بالاتری نسبت به داشتن کمترین هزینه یا آخرین ویژگی‌ها باشد.

علاوه بر این، اگرچه GPT-4o عموماً برای استقرارهای جدید مقرون به صرفه تر خواهد بود، تیم‌های فناوری اطلاعات که به دنبال مدیریت تنظیمات موجود هستند ممکن است ادامه استفاده از GPT-4 را مقرون به صرفه تر بدانند. انتقال به یک مدل جدید هزینه‌های خاص خود را دارد، به‌ویژه برای سیستم‌هایی که کاملاً با GPT-4 ادغام شده‌اند، جایی که مدل‌های سوئیچینگ می‌توانند شامل تغییرات قابل توجهی در زیرساخت یا گردش کار باشند.

علاوه بر این، قابلیت‌های چندوجهی GPT-4o ممکن است برای API در مقابل کاربران وب، حداقل در حال حاضر متفاوت باشد. در یک پست می 2024 در انجمن توسعه دهندگان OpenAI، یک مدیر محصول OpenAI توضیح داد که GPT-4o هنوز از تولید تصویر یا صدا از طریق API پشتیبانی نمی‌کند. در نتیجه، شرکت‌هایی که عمدتاً از APIهای OpenAI استفاده می‌کنند، ممکن است GPT-4o را به اندازه کافی قانع‌کننده برای ایجاد تغییر پیدا نکنند تا زمانی که قابلیت‌های چندوجهی آن به طور کلی از طریق API در دسترس قرار گیرند.

معرفی GPT-4o برای کاربران ChatGPT چه معنایی دارد؟

معرفی GPT-4o به عنوان نسخه پیش فرض جدید ChatGPT منجر به تغییرات عمده‌ای برای کاربران خواهد شد. یکی از مهم ترین به روز رسانی ها، در دسترس بودن قابلیت‌های چند وجهی است، همانطور که قبلاً ذکر شد. با حرکت رو به جلو، همه کاربران می‌توانند با استفاده از متن، تصاویر، صدا و ویدیو با ChatGPT تعامل داشته باشند و GPT‌های سفارشی ایجاد کنند – عملکردهایی که قبلاً محدود یا در دسترس نبودند.

این پیشرفت‌ها ممکن است اشتراک پلاس را برای برخی از کاربران کمتر جذاب کند، زیرا بسیاری از ویژگی‌های برتر سابق اکنون در سطح رایگان قابل دسترسی هستند. با این حال، طرح‌های پولی همچنان مزایایی مانند سقف استفاده بالاتر و زمان پاسخ‌دهی سریع‌تر را ارائه می‌کنند که می‌تواند عاملی تعیین‌کننده برای کاربران با حجم کار سنگین یا کسب‌وکارهایی باشد که به قابلیت اطمینان در تعاملات مداوم و با حجم بالا نیاز دارند.

علاوه بر این، چشم انداز توسعه مدل هوش مصنوعی به سرعت در حال حرکت است و GPT-4o می‌تواند به سرعت عقب بماند. از زمان راه‌اندازی GPT-4o، شرکت OpenAI چندین مدل و قابلیت جدید منتشر کرده است: مدل‌های استدلالی o1 و o3، همتایان کوچکتر آنها o1-mini و o3-mini و ویژگی‌های متمرکز بر عامل مانند Operator رقابت خارج از OpenAI نیز در حال فراگیر شدن است، زیرا رقبایی مانند Anthropic’s Claude و DeepSeek’s R1 چالش‌های قانونی را برای تسلط ChatGPT ارائه می‌دهند.

تِک یاران