هوش مصنوعی GPT-5.4؛ مدل جدید OpenAI - رسانه تخصصی هوش مصنوعی سیمرغ

معرفی GPT-5.4؛ مدل جدید OpenAI برای کارهای حرفه‌ای، کدنویسی و اجرای وظایف پیچیده

در این ماه شرکت OpenAI از مدل جدید GPT-5.4 رونمایی کرده است؛ مدلی که برخلاف بسیاری از نسخه‌های قبلی، فقط برای چت‌کردن و پاسخ‌دادن طراحی نشده، بلکه مستقیماً برای کار حرفه‌ای واقعی ساخته شده است. این مدل در ChatGPT با نام GPT-5.4 Thinking، در API و در Codex منتشر شده و نسخه قدرتمندتر GPT-5.4 Pro هم برای کاربرانی ارائه شده که به بیشترین توان پردازشی و دقت در وظایف پیچیده نیاز دارند.

به زبان ساده، GPT-5.4 تلاش می‌کند یک شکاف قدیمی را پر کند: فاصله بین «هوش مصنوعی که جواب می‌دهد» و «هوش مصنوعی که واقعاً کار را انجام می‌دهد». و بله، بعد از این همه مدل که با اعتمادبه‌نفس جواب اشتباه می‌دادند، همین خودش یک پیشرفت قابل توجه است.

مدل هوش مصنوعی GPT-5.4؟

GPT-5.4 جدیدترین مدل مرزی OpenAI برای کارهای حرفه‌ای است؛ یعنی مدلی که قرار است در سطح بالای توانایی‌های زبانی، استدلالی، کدنویسی و عامل‌محور قرار بگیرد. این مدل چند مسیر پیشرفت را در یک سیستم واحد جمع کرده است:

استدلال پیشرفته‌تر
توانایی‌های کدنویسی در سطح بالاتر
تعامل بهتر با ابزارها و نرم‌افزارها
عملکرد بهتر در کارهای مبتنی بر اسناد، ارائه‌ها و صفحه‌گسترده‌ها
توانایی اجرای وظایف طولانی و چندمرحله‌ای

OpenAI می‌گوید GPT-5.4 نتیجه ترکیب مهم‌ترین دستاوردهای اخیر این شرکت در حوزه reasoning، coding و agentic workflows است. یعنی مدلی که قرار است در پروژه‌های واقعی، خروجی دقیق‌تر و کم‌رفت‌وآمدتری تولید کند.

	GPT-5.3-Codex	GPT-5.2	GPT-5.4
GDPval (wins or ties)	۸۳.۰%	۷۰.۹%	۷۰.۹%
SWE-Bench Pro (Public)	۵۷.۷%	۵۶.۸%	۵۵.۶%
OSWorld-Verified	۷۵.۰%	۷۴.۰%*	۴۷.۳%
Toolathlon	۵۴.۶%	۵۱.۹%	۴۶.۳%
BrowseComp	۸۲.۷%	۷۷.۳%	۶۵.۸%

GPT-5.4 در برابر نسل‌های قبلی؛ بررسی عملکرد در مهم‌ترین بنچمارک‌ها

یک مدل، چند محیط: ChatGPT، API و Codex

GPT-5.4 هم‌زمان در چند بستر عرضه شده است. در ChatGPT، نسخه Thinking آن برای تعاملات پیچیده‌تر در دسترس قرار گرفته است. در API، توسعه‌دهندگان می‌توانند مستقیماً از مدل استفاده کنند. در Codex هم تمرکز اصلی روی کدنویسی، اتوماسیون و اجرای workflowهای حرفه‌ای است.

نسخه GPT-5.4 Pro هم برای کسانی طراحی شده که روی مسائل پیچیده‌تر کار می‌کنند و به بیشترین کیفیت خروجی نیاز دارند. این یعنی OpenAI به‌جای یک نسخه یکنواخت برای همه، مدل را به سمت استفاده حرفه‌ای و سازمانی برده است.

تفکر شفاف‌تر و کنترل‌پذیرتر در ChatGPT

یکی از ویژگی‌های جالب GPT-5.4 Thinking این است که می‌تواند قبل از رسیدن به پاسخ نهایی، یک نقشه اولیه از مسیر فکر خود ارائه کند. این قابلیت به کاربر اجازه می‌دهد وسط کار، مسیر پاسخ را اصلاح کند یا جهت آن را تغییر دهد.

این موضوع برای کارهای دقیق خیلی مهم است. چون در مدل‌های قبلی، کاربر باید صبر می‌کرد تا پاسخ کامل شود، بعد تازه متوجه می‌شد خروجی آن‌چیزی که می‌خواسته نیست. حالا مدل می‌تواند مسیر را شفاف‌تر نشان دهد و نتیجه را به نیاز کاربر نزدیک‌تر کند.

OpenAI همچنین می‌گوید GPT-5.4 Thinking در تحقیقات وب عمیق و پرسش‌های بسیار مشخص هم بهتر شده و در پاسخ‌های بلندتر، کانتکست را بهتر حفظ می‌کند. نتیجه این است که پاسخ‌ها سریع‌تر، مرتبط‌تر و دقیق‌تر به دست می‌رسند.

برتری GPT-5.4 در انجام کارهای تخصصی؛ رقابت با نیروی انسانی در ۴۴ شغل

جهش در کارهای دانشی و حرفه‌ای

یکی از مهم‌ترین حوزه‌هایی که GPT-5.4 در آن پیشرفت نشان داده، knowledge work یا همان کارهای دانشی و حرفه‌ای است. این دسته شامل کارهایی مثل تهیه گزارش، تحلیل، ساخت ارائه، کار با داده، تهیه اسناد و وظایف اداری و مدیریتی می‌شود.

در بنچمارک GDPval که توانایی مدل‌ها را در انجام کارهای مشخص در ۴۴ شغل مختلف می‌سنجد، GPT-5.4 به ۸۳ درصد رسید؛ در حالی که GPT-5.2 به ۷۰.۹ درصد رسیده بود. این عدد نشان می‌دهد GPT-5.4 در بخش مهمی از وظایف واقعی، نه فقط در تست‌های زبانی، عملکردی در سطح حرفه‌ای‌ها ارائه می‌دهد.

OpenAI تأکید می‌کند که این بنچمارک شامل کارهایی مانند:

اسلایدهای فروش
صفحه‌گسترده‌های حسابداری
برنامه‌ریزی شیفت‌ها
نمودارهای تولید
و حتی ویدئوهای کوتاه

بوده است. همین موضوع نشان می‌دهد مدل جدید فقط برای تولید متن نیست، بلکه برای خروجی‌های چندرسانه‌ای و ساختارمند هم طراحی شده است.

بهتر در اکسل، اسناد و ارائه‌ها

OpenAI روی سه ابزار بسیار مهم در کار روزمره حرفه‌ای‌ها تمرکز ویژه‌ای داشته است: Spreadsheet، Presentation و Document.

در یک بنچمارک داخلی مربوط به مدل‌سازی صفحه‌گسترده، GPT-5.4 به امتیاز میانگین ۸۷.۳ درصد رسید، در حالی که GPT-5.2 به ۶۸.۴ درصد رسیده بود. این جهش برای کسانی که با تحلیل مالی، بودجه‌بندی، مدل‌سازی داده و گزارش‌های مدیریتی سروکار دارند، بسیار مهم است.

در بخش ارائه‌ها هم ارزیابان انسانی در ۶۸ درصد موارد، خروجی GPT-5.4 را به GPT-5.2 ترجیح داده‌اند. دلیل این ترجیح، به گفته OpenAI، زیبایی بصری بهتر، تنوع بیشتر در طراحی و استفاده مؤثرتر از تصویرسازی بوده است.

این یعنی GPT-5.4 فقط متن نمی‌نویسد، بلکه می‌تواند خروجی‌هایی بسازد که از نظر بصری هم قابل ارائه باشند. برای فضای کسب‌وکار، همین تفاوت کوچک نیست.

کاهش خطا و توهم مدل

یکی از نقاط ضعف شناخته‌شده مدل‌های زبانی، خطاهای factual و hallucination است. GPT-5.4 در این زمینه هم بهبود قابل توجهی داشته است.

OpenAI می‌گوید در مجموعه‌ای از درخواست‌هایی که کاربران قبلاً در آن‌ها خطای factual گزارش کرده بودند، GPT-5.4 نسبت به GPT-5.2:

۳۳ درصد کمتر احتمال دارد که ادعای نادرست تولید کند
و ۱۸ درصد کمتر احتمال دارد که پاسخ نهایی‌اش شامل خطا باشد

این یعنی مدل نه فقط باهوش‌تر، بلکه مطمئن‌تر و قابل‌اتکاتر شده است. برای کارهای حرفه‌ای، این مسئله از خودِ سرعت هم مهم‌تر است.

جهش GPT-5.4 در کار با محیط‌های نرم‌افزاری؛ از تحلیل اسکرین‌شات تا اجرای دستورات واقعی — **جهش GPT-5.4** در کار با محیط‌های نرم‌افزاری

ورود جدی به دنیای Computer Use

شاید مهم‌ترین بخش معرفی GPT-5.4 همین باشد: این مدل اولین مدل عمومی چندمنظوره OpenAI است که قابلیت native computer use دارد. یعنی می‌تواند با محیط کامپیوتر و نرم‌افزارها تعامل واقعی داشته باشد.

به‌طور مشخص، GPT-5.4 می‌تواند:

با اسکرین‌شات‌ها کار کند
از طریق موس و کیبورد دستور اجرا کند
با نرم‌افزارها و وب‌سایت‌ها وارد تعامل شود
workflowهای چندمرحله‌ای را در محیط‌های مختلف پیش ببرد

OpenAI می‌گوید این مدل برای توسعه‌دهندگان agentها، یک گام مهم رو به جلوست. این یعنی AI دیگر فقط پاسخ‌گو نیست، بلکه می‌تواند بخشی از فرآیند اجرا را هم انجام دهد.

در بنچمارک OSWorld-Verified، GPT-5.4 به ۷۵ درصد رسید و حتی از عملکرد انسانی گزارش‌شده در آن آزمون هم بالاتر رفت. در WebArena-Verified و Online-Mind2Web هم عملکرد آن نسبت به نسل قبلی بهتر بوده است.

مقایسه عملکرد GPT-5.4 و GPT-5.2 در درک تصویر و پردازش اسناد (MMMU و OmniDocBench)

درک بهتر تصویر و اسناد

پیشرفت GPT-5.4 فقط به متن محدود نیست. OpenAI می‌گوید این مدل در بینایی و درک بصری هم بهتر شده و این موضوع مستقیماً روی computer use اثر می‌گذارد.

در آزمون MMMU-Pro، GPT-5.4 بدون ابزار به ۸۱.۲ درصد رسید که نسبت به GPT-5.2 بهتر است. در OmniDocBench هم خطای مدل کاهش یافته و اسناد را دقیق‌تر می‌خواند و تفسیر می‌کند.

OpenAI همچنین از سطح جدیدی برای ورودی تصویر با جزئیات کامل خبر داده است. این سطح جدید می‌تواند تصاویر بسیار بزرگ‌تری را با دقت بالاتر پردازش کند. این موضوع برای تحلیل اسناد حجیم، تصاویر فنی، نمودارها و اسناد اسکن‌شده اهمیت زیادی دارد.

کدنویسی سریع‌تر و حرفه‌ای‌تر

GPT-5.4 توانایی‌های GPT-5.3-Codex را حفظ کرده و آن‌ها را با استدلال بهتر و کار با ابزارها ترکیب کرده است. OpenAI می‌گوید این مدل در SWE-Bench Pro یا هم‌سطح GPT-5.3-Codex است یا از آن بهتر عمل می‌کند، در حالی که تأخیر کمتری هم دارد.

در Codex، حالت /fast هم بهینه‌تر شده و می‌تواند تا ۱.۵ برابر سریع‌تر token velocity بدهد. این یعنی چرخه کدنویسی، تست، اصلاح و دیباگ سریع‌تر جلو می‌رود.

OpenAI همچنین از یک قابلیت آزمایشی به نام Playwright (Interactive) رونمایی کرده که به Codex کمک می‌کند اپلیکیشن‌های وب و Electron را به‌صورت بصری تست و دیباگ کند. برای تیم‌های توسعه، این ویژگی می‌تواند بسیار کاربردی باشد، چون مرز بین ساختن و آزمایش‌کردن را کوتاه‌تر می‌کند.

مدیریت بهتر ابزارها و جستجوی ابزار

یکی از نوآوری‌های فنی مهم در GPT-5.4 قابلیت tool search است. در مدل‌های قبلی، وقتی تعداد ابزارها زیاد بود، تعریف همه آن‌ها از ابتدا داخل prompt قرار می‌گرفت و این باعث افزایش هزینه، کندی و شلوغی کانتکست می‌شد.

GPT-5.4 به‌جای این روش، ابتدا یک فهرست سبک از ابزارها را می‌گیرد و هر زمان به ابزار خاصی نیاز داشته باشد، تعریف آن را در همان لحظه جستجو می‌کند. این تغییر:

مصرف توکن را کاهش می‌دهد
سرعت را بالا می‌برد
و کار با اکوسیستم‌های ابزار بزرگ را ممکن‌تر می‌کند

OpenAI حتی گزارش داده که در یک آزمون روی ۲۵۰ وظیفه از MCP Atlas، استفاده از tool search باعث ۴۷ درصد کاهش مصرف توکن شده است، بدون اینکه دقت افت کند.

جست‌وجوی وب بهتر برای پاسخ‌های پیچیده

GPT-5.4 در جست‌وجوی وب هم عملکرد بهتری دارد. در بنچمارک BrowseComp، این مدل نسبت به GPT-5.2 جهش قابل توجهی داشته و نسخه Pro آن به سطح بالاتری هم رسیده است.

این موضوع برای پرسش‌های سخت و «سوزنی در انبار کاه» بسیار مهم است. یعنی سؤال‌هایی که جوابشان در یک منبع واحد نیست و مدل باید چند مرحله جست‌وجو کند، منابع مختلف را کنار هم بگذارد و بعد یک پاسخ منطقی و منسجم بسازد.

قابلیت هدایت بهتر و کنترل بیشتر

GPT-5.4 Thinking در ChatGPT هنگام پاسخ‌دادن به پرسش‌های پیچیده، می‌تواند یک پیش‌نویس از مسیر کارش ارائه کند. کاربر هم می‌تواند وسط پاسخ، مسیر را تغییر دهد. این ویژگی برای کاربران حرفه‌ای، مخصوصاً کسانی که روی متن، تحلیل، استدلال یا برنامه‌ریزی کار می‌کنند، ارزش زیادی دارد.

از طرف دیگر، مدل می‌تواند برای مدت طولانی‌تری فکر کند و در عین حال، انسجام پاسخ را حفظ کند. این یعنی برای کارهای چندمرحله‌ای و طولانی، کمتر از مسیر خارج می‌شود.

امنیت و ملاحظات سایبری

OpenAI GPT-5.4 را با نگاه محتاطانه‌ای در حوزه امنیت عرضه کرده است. این مدل مانند GPT-5.3-Codex، در چارچوب High cyber capability ارزیابی شده و با لایه‌های حفاظتی مربوطه ارائه می‌شود. این شامل سیستم‌های مانیتورینگ، کنترل دسترسی و جلوگیری از درخواست‌های پرریسک است.

همچنین OpenAI روی پژوهش‌های مربوط به monitorability در زنجیره تفکر هم کار کرده تا روشن شود مدل تا چه اندازه می‌تواند فرآیند فکر خود را پنهان کند. طبق گزارش منتشرشده، توانایی GPT-5.4 Thinking در پنهان‌سازی زنجیره تفکر پایین است، که از منظر ایمنی یک نکته مثبت محسوب می‌شود.

دسترسی و قیمت

GPT-5.4 از امروز به‌صورت تدریجی در ChatGPT و Codex در حال انتشار است. در API، این مدل با نام gpt-5.4 در دسترس قرار گرفته و نسخه gpt-5.4-pro هم برای کاربردهای پیچیده‌تر عرضه شده است.

در ChatGPT، نسخه GPT-5.4 Thinking برای کاربران Plus، Team و Pro منتشر شده و جای GPT-5.2 Thinking را می‌گیرد. نسخه قدیمی GPT-5.2 Thinking نیز برای مدت سه ماه در بخش Legacy Models باقی می‌ماند و سپس در ۵ ژوئن ۲۰۲۶ بازنشسته می‌شود. برای کاربران Enterprise و Edu هم امکان فعال‌سازی زودهنگام از طریق تنظیمات مدیریتی وجود دارد.

جمع‌بندی؛ GPT-5.4 فقط یک مدل جدید نیست

GPT-5.4 را می‌توان یکی از مهم‌ترین نسخه‌های اخیر OpenAI دانست، چون تمرکز آن فقط روی چت بهتر یا پاسخ‌های شاعرانه‌تر نیست. این مدل برای کار واقعی ساخته شده است: تحلیل، کدنویسی، مدیریت فایل‌ها، تعامل با ابزارها، جست‌وجوی وب، پردازش اسناد و اجرای workflowهای چندمرحله‌ای.

اگر نسل‌های قبلی بیشتر نشان می‌دادند که AI «چه می‌تواند بگوید»، GPT-5.4 بیشتر نشان می‌دهد که AI «چه می‌تواند انجام دهد». و این همان جهشی است که صنعت هوش مصنوعی مدت‌ها منتظرش بود.

برای رسانه‌های تخصصی، توسعه‌دهندگان و تیم‌های محصول، GPT-5.4 فقط یک خبر نیست؛ نشانه‌ای است از اینکه موج بعدی هوش مصنوعی، کمتر گفت‌وگومحور و بیشتر عمل‌محور خواهد بود. و این، برای دنیایی که هنوز با اکسل و فرمت‌کردن اسلایدها درگیر است، شاید بهترین خبر سال باشد.

منبع: https://openai.com/index/introducing-gpt-5-4

برای دریافت جدیدترین اخبار عضو خبرنامه شوید

پست جذاب میخوای؟