مقایسه نسخه GPT-4o در برابر GPT-4: تفاوت آنها در چیست؟
GPT-4o شرکت OpenAI نوید بهبود قابلیتهای چندوجهی و افزایش کارایی را میدهد. تفاوتهای بین GPT-4o و سلف آن، یعنی GPT-4 را در این مطلب بررسی میکنیم.
از زمانی که شرکت OpenAI برای اولین بار ChatGPT را در اواخر سال 2022 راهاندازی کرد، رابط چت بات و مدلهای زیربنایی آن قبلاً دستخوش چندین تغییر اساسی شدهاند. GPT-4o در ماه می2024 به عنوان جانشین GPT-4 منتشر شد که در مارس 2023 راهاندازی شد و پس از آن GPT-4o mini در جولای 2024 عرضه شد.
GPT-4 و GPT-4o (این حرف o برای کلمه omni است که به معنای “همه” یا “فراگیر” یا “عام” است) مدلهای پیشرفته هوش مصنوعی مولد هستند که OpenAI برای استفاده در رابط ChatGPT توسعه دادهاند. هر دو مدل برای تولید متن با صدای طبیعی در پاسخ به درخواستهای کاربران آموزش دیدهاند و میتوانند در مکالمات تعاملی و پشت سر هم شرکت کنند، حافظه و زمینه را برای اطلاعرسانی به پاسخهای آینده حفظ کنند.
از بسیاری جهات، GPT-4o و GPT-4 مشابه هستند. هر دو مدلهای پیشرفته OpenAI با قابلیتهای بینایی و صوتی و توانایی به یاد آوردن اطلاعات و تجزیه و تحلیل اسناد آپلود شده هستند. هر یک دارای یک پنجره زمینه ۱۲۸۰۰۰ توکن و تاریخ قطع دانش در اواخر سال ۲۰۲۳ — اکتبر برای GPT-4o و ماه دسامبر برای GPT-4 است.
اما GPT-4o و GPT-4 نیز در چندین زمینه متفاوت هستند: قابلیت های چندوجهی عملکرد و کارایی؛ قیمت گذاری؛ و پشتیبانی از زبان
GPT-4o mini در کجا قرار میگیرد؟
در 18 ژوئیه 2024، OpenAI GPT-4o mini را منتشر کرد، مدلی مقرون به صرفه و کوچکتر در سری GPT خود.
GPT-4o mini برای جایگزینی GPT-3.5 طراحی شده است و OpenAI میگوید که از آن مدل بهتر عمل میکند در حالی که هزینه کمتری نسبت به سایر گزینههای شرکت دارد. این مدل جدید با هدف توسعهدهندگانی که به دنبال ساخت برنامههای هوش مصنوعی بدون متحمل شدن هزینههای محاسباتی مربوط به مدلهای بزرگتر مانند GPT-4 هستند، بهعنوان رقیبی برای سایر مدلهای زبان کوچک مانند هایکو کلود قرار میگیرد.
همه کاربران در طرحهای ChatGPT Free، Plus و Team در زمان راهاندازی به GPT-4o mini دسترسی پیدا کردند و انتظار میرود کاربران ChatGPT Enterprise کمی بعد به آن دسترسی پیدا کنند. مدل جدید از متن و دید پشتیبانی میکند و اگرچه OpenAI گفته است که در نهایت از انواع دیگر ورودیهای چندوجهی مانند ویدیو و صدا پشتیبانی میکند، هنوز جدول زمانی مشخصی برای آن وجود ندارد.
چند وجهی
مدلهای هوش مصنوعی چندوجهی قادر به پردازش انواع دادههای متعدد مانند متن، تصویر و صدا هستند. به یک معنا، هر دو GPT-4 و GPT-4o چند وجهی هستند: در رابط ChatGPT، کاربران میتوانند بدون در نظر گرفتن اینکه از GPT-4 یا GPT-4o استفاده میکنند، تصاویر ایجاد و آپلود کنند و از چت صوتی استفاده کنند. با این حال، روشی که این دو مدل به چندوجهی نزدیک میشوند بسیار متفاوت است. این یکی از بزرگترین تمایز بین GPT-4o و GPT-4 است.
GPT-4 یک مدل زبان بزرگ ( LLM ) است که در درجه اول برای پردازش متن طراحی شده است، به این معنی که فاقد پشتیبانی داخلی برای مدیریت تصاویر، صدا و ویدئو است. در رابط وب ChatGPT، GPT-4 باید از سایر مدلهای OpenAI مانند تولیدکننده تصویر Dall-E یا مدل تشخیص گفتار Whisper برای پردازش ورودی غیر متنی استفاده کند.
در مقابل، GPT-4o برای چندوجهی از ابتدا طراحی شده است، از این رو “omni” در نام آن است. نمایندگان OpenAI در یک پست وبلاگی که راهاندازی آن را اعلام کردند، نوشتند : «ما یک مدل جدید را در متن، دید و صدا آموزش دادیم، به این معنی که همه ورودیها و خروجیها توسط یک شبکه عصبی پردازش میشوند.
این چند وجهی بومی باعث میشود GPT-4o در کارهایی که شامل چندین نوع داده است، مانند تجزیه و تحلیل تصویر، سریعتر از GPT-4 باشد. به عنوان مثال، در نسخه نمایشی OpenAI از GPT-4o در 13 مه 2024، رهبران شرکت از GPT-4o برای تجزیه و تحلیل ویدیوی زنده کاربر در حال حل یک مسئله ریاضی و ارائه بازخورد صوتی در زمان واقعی استفاده کردند.
عملکرد و کارایی
GPT-4o همچنین به گونهای طراحی شده است که سریعتر و از نظر محاسباتی کارآمدتر از GPT-4 در سراسر صفحه باشد، نه فقط برای پرسوجوهای چندوجهی. طبق پست وبلاگ OpenAI، GPT-4o دو برابر سریعتر از آخرین نسخه GPT-4 است.
با این حال، زمانی که ویراستاران این مطلب دو مدل را در آزمایشی در ژانویه 2025 زمانبندی کردند، پاسخهای GPT-4 عموماً سریعتر از GPT-4o بودند – تغییری نسبت به آزمایشهای قبلی با استفاده از همان اعلانها در جولای 2024. در مجموع، پاسخهای دو مدل از نظر کیفیت مشابه بودند، اگرچه گاهی اوقات جزئیات GPT-4o بیشتر بود.
جدول زیر زمان پاسخگویی GPT-4o و GPT-4 را با پنج درخواست نمونه با استفاده از برنامه وب ChatGPT مقایسه میکند.
اعلان | GPT-4o | GPT-4 |
یک مطلب 500 کلمهای در مورد اینکه چگونه محاسبات کوانتومی میتواند صنعت فناوری اطلاعات را تغییر دهد، ایجاد کنید. | 63 ثانیه (قبلا 23 ثانیه) | 37 ثانیه (قبلا 33 ثانیه) |
یک برنامه سفر برای یک سفر سه روزه به شهر تراورس، میشیگان تهیه کنید. | 65 ثانیه (قبلا 28 ثانیه) | 40 ثانیه (قبلا 48 ثانیه) |
چاپ جملات “Hello World” در زبان برنامه نویسی C. | 11 ثانیه (قبلا 4 ثانیه) | 6 ثانیه (قبلا 7 ثانیه) |
توضیحات مربوط، برای تصویر پیوست شده بنویسید. | 8 ثانیه (قبلا 2 ثانیه) | 8 ثانیه (قبلا 3 ثانیه) |
سند پیوست شده [مطلب 22 صفحهای مجله علوم اعصاب] را در پنج نقطه کلیدی خلاصه کنید. | 29 ثانیه (قبلا 16 ثانیه) | 24 ثانیه (قبلاا 19 ثانیه) |
آزمایش OpenAI نشان میدهد که GPT-4o در معیارهای اصلی از جمله ریاضی ساده، درک زبان و درک بینایی بهتر از GPT-4 عمل میکند. OpenAI همچنین گفته است که GPT-4o درک متنی قوی تری نسبت به GPT-4 دارد و آن را قادر میسازد اصطلاحات، استعارهها و مراجع فرهنگی را بهتر درک کند.
آنچه کاربران واقعی میگویند متفاوت است. از زمان انتشار، GPT-4o در بین مدلهای دارای رتبه برتر در پلتفرم ارزیابی LLM جمعسپاری شده LMSYS Chatbot Arena، هم به طور کلی و هم در دستههای خاص مانند کدنویسی و پاسخگویی به سوالات دشوار است. اما سایر کاربران GPT-4o را “بیش از حد” مینامند و گزارش میدهند که عملکرد آن در کارهایی مانند کدگذاری، طبقه بندی و استدلال بدتر از GPT-4 است.
متأسفانه، هر نوع شواهد – معیارهای گزارش شده از توسعه دهندگان مدل، ارزیابیهای انسانی جمع آوری شده و حکایات تأیید نشده – محدودیتهای خاص خود را دارد. برای توسعهدهندگانی که برنامههای LLM را میسازند و کاربرانی که هوش مصنوعی مولد را در جریان کار خود ادغام میکنند، تصمیمگیری در مورد بهترین مدل ممکن است در نهایت نیاز به آزمایش در طول زمان و در زمینههای مختلف داشته باشد. به عنوان مثال، برخی از توسعه دهندگان می گویند که بسته به وظیفهای که در دست دارند، بین GPT-4 و GPT-4o به عقب و جلو میروند.
قیمت گذاری
یکی از مزیتهای بهبود کارایی محاسباتی GPT-4o قیمت پایین تر آن است.
برای توسعه دهندگانی که از API OpenAI استفاده میکنند، GPT-4o به مراتب گزینه مقرون به صرفه تر است. این با نرخ 2.50 دلار به ازای هر میلیون توکن ورودی و 10 دلار در هر میلیون توکن خروجی در دسترس است، در حالی که GPT-4 مبلغ 30 دلار به ازای هر میلیون توکن ورودی و 60 دلار به ازای هر میلیون توکن خروجی هزینه دارد. GPT-4o mini حتی ارزان تر است، با 15 سنت در هر میلیون توکن ورودی و 60 سنت در هر میلیون توکن خروجی.
برای کاربران برنامههای وب، این تفاوت حتی مهم تر است. GPT-4o اکنون نسخه رایگان ChatGPT را با GPT-4o و GPT-4o مینی جایگزین GPT-3.5 می کند. این به کاربران امکان دسترسی رایگان به چندوجهی بودن، پاسخهای متنی با کیفیت بالاتر، چت صوتی و GPTهای سفارشی را میدهد – گزینهای بدون کد برای ساخت رباتهای گفتگوی شخصی – که قبلاً فقط برای مشتریان پولی در دسترس بود. GPT-4 فقط برای افرادی که دارای طرح پولی هستند، از جمله ChatGPT Plus، Pro، Team و Enterprise که از 20 دلار در ماه شروع میشود، در دسترس خواهد بود.
علاوه بر این، کاربران رایگان و پولی سطوح مختلفی از دسترسی به هر مدل را خواهند داشت. کاربران رایگان با محدودیتهای پیام برای GPT-4o مواجه میشوند و پس از زدن این محدودیتها، به GPT-4o mini مهاجرت میکنند. کاربران ChatGPT Plus محدودیتهای پیام بالاتری نسبت به کاربران رایگان خواهند داشت و کسانی که در طرح Pro، Team یا Enterprise هستند، محدودیتهای کمتری خواهند داشت.
پشتیبانی از زبان
GPT-4o همچنین در مقایسه با GPT-4 از زبانهای غیرانگلیسی پشتیبانی بهتری ارائه میدهد. به طور خاص، OpenAI توکن سازی را برای زبانهایی که از الفبای غربی استفاده نمیکنند، مانند هندی، چینی و کرهای بهبود بخشیده است. توکنایزر جدید، متن غیرانگلیسی را با هدف مدیریت درخواستها در آن زبانها به روشی ارزان تر و سریع تر به طور موثرتر فشرده میکند.
این تغییر به یک مسئله دیرینه در پردازش زبان طبیعی میپردازد که در آن مدلها از نظر تاریخی برای زبانهای غربی به قیمت زبانهایی که در مناطق دیگر صحبت میشوند، بهینهسازی شدهاند. استفاده از زبانهای بیشتر با دقت و تسلط بیشتر، GPT-4o را برای برنامههای جهانی مؤثرتر میکند و دسترسی به گروههایی را که ممکن است قادر به تعامل کامل با مدلهای قبلی نبودند، باز کند.
اما پشتیبانی از زبان بهبود یافته بدون چالش نیست. تنها چند روز پس از انتشار OpenAI GPT-4o، محققان متوجه شدند که بسیاری از توکنهای چینی شامل عبارات نامناسب مرتبط با پورنوگرافی و قمار هستند. توسعهدهندگان مدل ممکن است این توکنهای مشکلساز را به دلیل پاکسازی ناکافی دادهها وارد کرده باشند که به طور بالقوه درک مدل را ضعیف میکند و خطر نقض امنیتی و توهم را به همراه دارد.
آیا GPT-4o بهتر از GPT-4 است؟
در بیشتر موارد، GPT-4o در واقع بهتر از GPT-4 است. OpenAI اکنون GPT-4o را به عنوان مدل پرچمدار خود توصیف میکند و سرعت بهبود یافته، هزینههای کمتر و قابلیتهای چند وجهی آن برای بسیاری از کاربران جذاب خواهد بود.
گفته میشود، برخی از کاربران ممکن است همچنان GPT-4 را ترجیح دهند، به خصوص در زمینههای تجاری. از آنجایی که GPT-4 از مارس 2023 در دسترس بوده است، به خوبی آزمایش شده و برای بسیاری از توسعه دهندگان و مشاغل آشنا است. این نوع پایداری میتواند برای برنامههای کاربردی حیاتی و پرکاربرد بسیار مهم باشد، جایی که قابلیت اطمینان ممکن است اولویت بالاتری نسبت به داشتن کمترین هزینه یا آخرین ویژگیها باشد.
علاوه بر این، اگرچه GPT-4o عموماً برای استقرارهای جدید مقرون به صرفه تر خواهد بود، تیمهای فناوری اطلاعات که به دنبال مدیریت تنظیمات موجود هستند ممکن است ادامه استفاده از GPT-4 را مقرون به صرفه تر بدانند. انتقال به یک مدل جدید هزینههای خاص خود را دارد، بهویژه برای سیستمهایی که کاملاً با GPT-4 ادغام شدهاند، جایی که مدلهای سوئیچینگ میتوانند شامل تغییرات قابل توجهی در زیرساخت یا گردش کار باشند.
علاوه بر این، قابلیتهای چندوجهی GPT-4o ممکن است برای API در مقابل کاربران وب، حداقل در حال حاضر متفاوت باشد. در یک پست می 2024 در انجمن توسعه دهندگان OpenAI، یک مدیر محصول OpenAI توضیح داد که GPT-4o هنوز از تولید تصویر یا صدا از طریق API پشتیبانی نمیکند. در نتیجه، شرکتهایی که عمدتاً از APIهای OpenAI استفاده میکنند، ممکن است GPT-4o را به اندازه کافی قانعکننده برای ایجاد تغییر پیدا نکنند تا زمانی که قابلیتهای چندوجهی آن به طور کلی از طریق API در دسترس قرار گیرند.
معرفی GPT-4o برای کاربران ChatGPT چه معنایی دارد؟
معرفی GPT-4o به عنوان نسخه پیش فرض جدید ChatGPT منجر به تغییرات عمدهای برای کاربران خواهد شد. یکی از مهم ترین به روز رسانی ها، در دسترس بودن قابلیتهای چند وجهی است، همانطور که قبلاً ذکر شد. با حرکت رو به جلو، همه کاربران میتوانند با استفاده از متن، تصاویر، صدا و ویدیو با ChatGPT تعامل داشته باشند و GPTهای سفارشی ایجاد کنند – عملکردهایی که قبلاً محدود یا در دسترس نبودند.
این پیشرفتها ممکن است اشتراک پلاس را برای برخی از کاربران کمتر جذاب کند، زیرا بسیاری از ویژگیهای برتر سابق اکنون در سطح رایگان قابل دسترسی هستند. با این حال، طرحهای پولی همچنان مزایایی مانند سقف استفاده بالاتر و زمان پاسخدهی سریعتر را ارائه میکنند که میتواند عاملی تعیینکننده برای کاربران با حجم کار سنگین یا کسبوکارهایی باشد که به قابلیت اطمینان در تعاملات مداوم و با حجم بالا نیاز دارند.
علاوه بر این، چشم انداز توسعه مدل هوش مصنوعی به سرعت در حال حرکت است و GPT-4o میتواند به سرعت عقب بماند. از زمان راهاندازی GPT-4o، شرکت OpenAI چندین مدل و قابلیت جدید منتشر کرده است: مدلهای استدلالی o1 و o3، همتایان کوچکتر آنها o1-mini و o3-mini و ویژگیهای متمرکز بر عامل مانند Operator رقابت خارج از OpenAI نیز در حال فراگیر شدن است، زیرا رقبایی مانند Anthropic’s Claude و DeepSeek’s R1 چالشهای قانونی را برای تسلط ChatGPT ارائه میدهند.