معرفی GPT-5.4؛ مدل جدید OpenAI برای کارهای حرفهای، کدنویسی و اجرای وظایف پیچیده
در این ماه شرکت OpenAI از مدل جدید GPT-5.4 رونمایی کرده است؛ مدلی که برخلاف بسیاری از نسخههای قبلی، فقط برای چتکردن و پاسخدادن طراحی نشده، بلکه مستقیماً برای کار حرفهای واقعی ساخته شده است. این مدل در ChatGPT با نام GPT-5.4 Thinking، در API و در Codex منتشر شده و نسخه قدرتمندتر GPT-5.4 Pro هم برای کاربرانی ارائه شده که به بیشترین توان پردازشی و دقت در وظایف پیچیده نیاز دارند.
به زبان ساده، GPT-5.4 تلاش میکند یک شکاف قدیمی را پر کند: فاصله بین «هوش مصنوعی که جواب میدهد» و «هوش مصنوعی که واقعاً کار را انجام میدهد». و بله، بعد از این همه مدل که با اعتمادبهنفس جواب اشتباه میدادند، همین خودش یک پیشرفت قابل توجه است.
مدل هوش مصنوعی GPT-5.4؟
GPT-5.4 جدیدترین مدل مرزی OpenAI برای کارهای حرفهای است؛ یعنی مدلی که قرار است در سطح بالای تواناییهای زبانی، استدلالی، کدنویسی و عاملمحور قرار بگیرد. این مدل چند مسیر پیشرفت را در یک سیستم واحد جمع کرده است:
- استدلال پیشرفتهتر
- تواناییهای کدنویسی در سطح بالاتر
- تعامل بهتر با ابزارها و نرمافزارها
- عملکرد بهتر در کارهای مبتنی بر اسناد، ارائهها و صفحهگستردهها
- توانایی اجرای وظایف طولانی و چندمرحلهای
OpenAI میگوید GPT-5.4 نتیجه ترکیب مهمترین دستاوردهای اخیر این شرکت در حوزه reasoning، coding و agentic workflows است. یعنی مدلی که قرار است در پروژههای واقعی، خروجی دقیقتر و کمرفتوآمدتری تولید کند.
| GPT-5.3-Codex | GPT-5.2 | GPT-5.4 | ||
| GDPval (wins or ties) | ۸۳.۰% | ۷۰.۹% | ۷۰.۹% | |
| SWE-Bench Pro (Public) | ۵۷.۷% | ۵۶.۸% | ۵۵.۶% | |
| OSWorld-Verified | ۷۵.۰% | ۷۴.۰%* | ۴۷.۳% | |
| Toolathlon | ۵۴.۶% | ۵۱.۹% | ۴۶.۳% | |
| BrowseComp | ۸۲.۷% | ۷۷.۳% | ۶۵.۸% |
یک مدل، چند محیط: ChatGPT، API و Codex
GPT-5.4 همزمان در چند بستر عرضه شده است. در ChatGPT، نسخه Thinking آن برای تعاملات پیچیدهتر در دسترس قرار گرفته است. در API، توسعهدهندگان میتوانند مستقیماً از مدل استفاده کنند. در Codex هم تمرکز اصلی روی کدنویسی، اتوماسیون و اجرای workflowهای حرفهای است.
نسخه GPT-5.4 Pro هم برای کسانی طراحی شده که روی مسائل پیچیدهتر کار میکنند و به بیشترین کیفیت خروجی نیاز دارند. این یعنی OpenAI بهجای یک نسخه یکنواخت برای همه، مدل را به سمت استفاده حرفهای و سازمانی برده است.
تفکر شفافتر و کنترلپذیرتر در ChatGPT
یکی از ویژگیهای جالب GPT-5.4 Thinking این است که میتواند قبل از رسیدن به پاسخ نهایی، یک نقشه اولیه از مسیر فکر خود ارائه کند. این قابلیت به کاربر اجازه میدهد وسط کار، مسیر پاسخ را اصلاح کند یا جهت آن را تغییر دهد.
این موضوع برای کارهای دقیق خیلی مهم است. چون در مدلهای قبلی، کاربر باید صبر میکرد تا پاسخ کامل شود، بعد تازه متوجه میشد خروجی آنچیزی که میخواسته نیست. حالا مدل میتواند مسیر را شفافتر نشان دهد و نتیجه را به نیاز کاربر نزدیکتر کند.
OpenAI همچنین میگوید GPT-5.4 Thinking در تحقیقات وب عمیق و پرسشهای بسیار مشخص هم بهتر شده و در پاسخهای بلندتر، کانتکست را بهتر حفظ میکند. نتیجه این است که پاسخها سریعتر، مرتبطتر و دقیقتر به دست میرسند.

جهش در کارهای دانشی و حرفهای
یکی از مهمترین حوزههایی که GPT-5.4 در آن پیشرفت نشان داده، knowledge work یا همان کارهای دانشی و حرفهای است. این دسته شامل کارهایی مثل تهیه گزارش، تحلیل، ساخت ارائه، کار با داده، تهیه اسناد و وظایف اداری و مدیریتی میشود.
در بنچمارک GDPval که توانایی مدلها را در انجام کارهای مشخص در ۴۴ شغل مختلف میسنجد، GPT-5.4 به ۸۳ درصد رسید؛ در حالی که GPT-5.2 به ۷۰.۹ درصد رسیده بود. این عدد نشان میدهد GPT-5.4 در بخش مهمی از وظایف واقعی، نه فقط در تستهای زبانی، عملکردی در سطح حرفهایها ارائه میدهد.
OpenAI تأکید میکند که این بنچمارک شامل کارهایی مانند:
- اسلایدهای فروش
- صفحهگستردههای حسابداری
- برنامهریزی شیفتها
- نمودارهای تولید
- و حتی ویدئوهای کوتاه
بوده است. همین موضوع نشان میدهد مدل جدید فقط برای تولید متن نیست، بلکه برای خروجیهای چندرسانهای و ساختارمند هم طراحی شده است.



بهتر در اکسل، اسناد و ارائهها
OpenAI روی سه ابزار بسیار مهم در کار روزمره حرفهایها تمرکز ویژهای داشته است: Spreadsheet، Presentation و Document.
در یک بنچمارک داخلی مربوط به مدلسازی صفحهگسترده، GPT-5.4 به امتیاز میانگین ۸۷.۳ درصد رسید، در حالی که GPT-5.2 به ۶۸.۴ درصد رسیده بود. این جهش برای کسانی که با تحلیل مالی، بودجهبندی، مدلسازی داده و گزارشهای مدیریتی سروکار دارند، بسیار مهم است.
در بخش ارائهها هم ارزیابان انسانی در ۶۸ درصد موارد، خروجی GPT-5.4 را به GPT-5.2 ترجیح دادهاند. دلیل این ترجیح، به گفته OpenAI، زیبایی بصری بهتر، تنوع بیشتر در طراحی و استفاده مؤثرتر از تصویرسازی بوده است.
این یعنی GPT-5.4 فقط متن نمینویسد، بلکه میتواند خروجیهایی بسازد که از نظر بصری هم قابل ارائه باشند. برای فضای کسبوکار، همین تفاوت کوچک نیست.
کاهش خطا و توهم مدل
یکی از نقاط ضعف شناختهشده مدلهای زبانی، خطاهای factual و hallucination است. GPT-5.4 در این زمینه هم بهبود قابل توجهی داشته است.
OpenAI میگوید در مجموعهای از درخواستهایی که کاربران قبلاً در آنها خطای factual گزارش کرده بودند، GPT-5.4 نسبت به GPT-5.2:
- ۳۳ درصد کمتر احتمال دارد که ادعای نادرست تولید کند
- و ۱۸ درصد کمتر احتمال دارد که پاسخ نهاییاش شامل خطا باشد
این یعنی مدل نه فقط باهوشتر، بلکه مطمئنتر و قابلاتکاتر شده است. برای کارهای حرفهای، این مسئله از خودِ سرعت هم مهمتر است.

ورود جدی به دنیای Computer Use
شاید مهمترین بخش معرفی GPT-5.4 همین باشد: این مدل اولین مدل عمومی چندمنظوره OpenAI است که قابلیت native computer use دارد. یعنی میتواند با محیط کامپیوتر و نرمافزارها تعامل واقعی داشته باشد.
بهطور مشخص، GPT-5.4 میتواند:
- با اسکرینشاتها کار کند
- از طریق موس و کیبورد دستور اجرا کند
- با نرمافزارها و وبسایتها وارد تعامل شود
- workflowهای چندمرحلهای را در محیطهای مختلف پیش ببرد
OpenAI میگوید این مدل برای توسعهدهندگان agentها، یک گام مهم رو به جلوست. این یعنی AI دیگر فقط پاسخگو نیست، بلکه میتواند بخشی از فرآیند اجرا را هم انجام دهد.
در بنچمارک OSWorld-Verified، GPT-5.4 به ۷۵ درصد رسید و حتی از عملکرد انسانی گزارششده در آن آزمون هم بالاتر رفت. در WebArena-Verified و Online-Mind2Web هم عملکرد آن نسبت به نسل قبلی بهتر بوده است.

درک بهتر تصویر و اسناد
پیشرفت GPT-5.4 فقط به متن محدود نیست. OpenAI میگوید این مدل در بینایی و درک بصری هم بهتر شده و این موضوع مستقیماً روی computer use اثر میگذارد.
در آزمون MMMU-Pro، GPT-5.4 بدون ابزار به ۸۱.۲ درصد رسید که نسبت به GPT-5.2 بهتر است. در OmniDocBench هم خطای مدل کاهش یافته و اسناد را دقیقتر میخواند و تفسیر میکند.
OpenAI همچنین از سطح جدیدی برای ورودی تصویر با جزئیات کامل خبر داده است. این سطح جدید میتواند تصاویر بسیار بزرگتری را با دقت بالاتر پردازش کند. این موضوع برای تحلیل اسناد حجیم، تصاویر فنی، نمودارها و اسناد اسکنشده اهمیت زیادی دارد.

کدنویسی سریعتر و حرفهایتر
GPT-5.4 تواناییهای GPT-5.3-Codex را حفظ کرده و آنها را با استدلال بهتر و کار با ابزارها ترکیب کرده است. OpenAI میگوید این مدل در SWE-Bench Pro یا همسطح GPT-5.3-Codex است یا از آن بهتر عمل میکند، در حالی که تأخیر کمتری هم دارد.
در Codex، حالت /fast هم بهینهتر شده و میتواند تا ۱.۵ برابر سریعتر token velocity بدهد. این یعنی چرخه کدنویسی، تست، اصلاح و دیباگ سریعتر جلو میرود.
OpenAI همچنین از یک قابلیت آزمایشی به نام Playwright (Interactive) رونمایی کرده که به Codex کمک میکند اپلیکیشنهای وب و Electron را بهصورت بصری تست و دیباگ کند. برای تیمهای توسعه، این ویژگی میتواند بسیار کاربردی باشد، چون مرز بین ساختن و آزمایشکردن را کوتاهتر میکند.
مدیریت بهتر ابزارها و جستجوی ابزار
یکی از نوآوریهای فنی مهم در GPT-5.4 قابلیت tool search است. در مدلهای قبلی، وقتی تعداد ابزارها زیاد بود، تعریف همه آنها از ابتدا داخل prompt قرار میگرفت و این باعث افزایش هزینه، کندی و شلوغی کانتکست میشد.
GPT-5.4 بهجای این روش، ابتدا یک فهرست سبک از ابزارها را میگیرد و هر زمان به ابزار خاصی نیاز داشته باشد، تعریف آن را در همان لحظه جستجو میکند. این تغییر:
- مصرف توکن را کاهش میدهد
- سرعت را بالا میبرد
- و کار با اکوسیستمهای ابزار بزرگ را ممکنتر میکند
OpenAI حتی گزارش داده که در یک آزمون روی ۲۵۰ وظیفه از MCP Atlas، استفاده از tool search باعث ۴۷ درصد کاهش مصرف توکن شده است، بدون اینکه دقت افت کند.
جستوجوی وب بهتر برای پاسخهای پیچیده
GPT-5.4 در جستوجوی وب هم عملکرد بهتری دارد. در بنچمارک BrowseComp، این مدل نسبت به GPT-5.2 جهش قابل توجهی داشته و نسخه Pro آن به سطح بالاتری هم رسیده است.
این موضوع برای پرسشهای سخت و «سوزنی در انبار کاه» بسیار مهم است. یعنی سؤالهایی که جوابشان در یک منبع واحد نیست و مدل باید چند مرحله جستوجو کند، منابع مختلف را کنار هم بگذارد و بعد یک پاسخ منطقی و منسجم بسازد.
قابلیت هدایت بهتر و کنترل بیشتر
GPT-5.4 Thinking در ChatGPT هنگام پاسخدادن به پرسشهای پیچیده، میتواند یک پیشنویس از مسیر کارش ارائه کند. کاربر هم میتواند وسط پاسخ، مسیر را تغییر دهد. این ویژگی برای کاربران حرفهای، مخصوصاً کسانی که روی متن، تحلیل، استدلال یا برنامهریزی کار میکنند، ارزش زیادی دارد.
از طرف دیگر، مدل میتواند برای مدت طولانیتری فکر کند و در عین حال، انسجام پاسخ را حفظ کند. این یعنی برای کارهای چندمرحلهای و طولانی، کمتر از مسیر خارج میشود.
امنیت و ملاحظات سایبری
OpenAI GPT-5.4 را با نگاه محتاطانهای در حوزه امنیت عرضه کرده است. این مدل مانند GPT-5.3-Codex، در چارچوب High cyber capability ارزیابی شده و با لایههای حفاظتی مربوطه ارائه میشود. این شامل سیستمهای مانیتورینگ، کنترل دسترسی و جلوگیری از درخواستهای پرریسک است.
همچنین OpenAI روی پژوهشهای مربوط به monitorability در زنجیره تفکر هم کار کرده تا روشن شود مدل تا چه اندازه میتواند فرآیند فکر خود را پنهان کند. طبق گزارش منتشرشده، توانایی GPT-5.4 Thinking در پنهانسازی زنجیره تفکر پایین است، که از منظر ایمنی یک نکته مثبت محسوب میشود.
دسترسی و قیمت
GPT-5.4 از امروز بهصورت تدریجی در ChatGPT و Codex در حال انتشار است. در API، این مدل با نام gpt-5.4 در دسترس قرار گرفته و نسخه gpt-5.4-pro هم برای کاربردهای پیچیدهتر عرضه شده است.
در ChatGPT، نسخه GPT-5.4 Thinking برای کاربران Plus، Team و Pro منتشر شده و جای GPT-5.2 Thinking را میگیرد. نسخه قدیمی GPT-5.2 Thinking نیز برای مدت سه ماه در بخش Legacy Models باقی میماند و سپس در ۵ ژوئن ۲۰۲۶ بازنشسته میشود. برای کاربران Enterprise و Edu هم امکان فعالسازی زودهنگام از طریق تنظیمات مدیریتی وجود دارد.
جمعبندی؛ GPT-5.4 فقط یک مدل جدید نیست
GPT-5.4 را میتوان یکی از مهمترین نسخههای اخیر OpenAI دانست، چون تمرکز آن فقط روی چت بهتر یا پاسخهای شاعرانهتر نیست. این مدل برای کار واقعی ساخته شده است: تحلیل، کدنویسی، مدیریت فایلها، تعامل با ابزارها، جستوجوی وب، پردازش اسناد و اجرای workflowهای چندمرحلهای.
اگر نسلهای قبلی بیشتر نشان میدادند که AI «چه میتواند بگوید»، GPT-5.4 بیشتر نشان میدهد که AI «چه میتواند انجام دهد». و این همان جهشی است که صنعت هوش مصنوعی مدتها منتظرش بود.
برای رسانههای تخصصی، توسعهدهندگان و تیمهای محصول، GPT-5.4 فقط یک خبر نیست؛ نشانهای است از اینکه موج بعدی هوش مصنوعی، کمتر گفتوگومحور و بیشتر عملمحور خواهد بود. و این، برای دنیایی که هنوز با اکسل و فرمتکردن اسلایدها درگیر است، شاید بهترین خبر سال باشد.
منبع: https://openai.com/index/introducing-gpt-5-4

