مدلهای جدید GPT-4.1
تهران- مجله هوش مصنوعی سیمرغ- در روز دوشنبه، شرکت OpenAI از خانوادهای تازه از مدلهای زبانی با نام GPT-4.1 رونمایی کرد؛ خانوادهای که شامل نسخههای «معمولی»، «مینی» و «نانو» میشود. بهرغم نامگذاری نهچندان سادهی این مدلها، هدف اصلی آنها کاملاً روشن است: توانمندسازی هوش مصنوعی در زمینهی برنامهنویسی و پیروی دقیق از دستورالعملها.
این مدلهای چندوجهی (مولتیمودال) که تنها از طریق رابط برنامهنویسی (API) در دسترس هستند و نه از طریق سرویس ChatGPT، دارای پنجرهی متنی (context window) یکمیلیون توکنی هستند؛ یعنی میتوانند متنی معادل حدود ۷۵۰ هزار واژه را در یک بار پردازش کنند — حتی بیش از حجم رمان «جنگ و صلح».
عرضهی GPT-4.1 در شرایطی صورت میگیرد که رقبای OpenAI همچون گوگل و آنتروپیک (Anthropic) نیز در حال پیشبرد مدلهای پیشرفتهی برنامهنویسی خود هستند. بهعنوان نمونه، مدل تازهی Gemini 2.5 Pro از گوگل با پنجرهی متنی یکمیلیونی خود، عملکردی بسیار خوب در ارزیابیهای استاندارد برنامهنویسی از خود نشان داده است. همچنین مدل Claude 3.7 Sonnet از شرکت آنتروپیک و مدل V3 شرکت چینی DeepSeek نیز از نظر توانایی کدنویسی در سطح بالایی قرار دارند.
آرزوی بزرگ شرکتهایی چون OpenAI آن است که مدلهای هوش مصنوعیای بسازند که قادر به انجام وظایف پیچیدهی مهندسی نرمافزار باشند. سارا فرایر (Sarah Friar)، مدیر ارشد مالی OpenAI، در یکی از نشستهای فناوری در لندن، از چشمانداز این شرکت برای خلق «مهندس نرمافزار عاملمحور» (agentic software engineer) سخن گفت؛ مدلی که بتواند یک برنامهی نرمافزاری را بهصورت کامل طراحی، پیادهسازی، آزمونگیری، رفع اشکال و مستندسازی کند.

مدل GPT-4.1 گامی در این مسیر به شمار میرود.
یکی از سخنگویان OpenAI در گفتوگو با TechCrunch اظهار داشت:
«ما GPT-4.1 را بر اساس بازخوردهای مستقیم از کاربران، برای کاربردهای واقعی بهینه کردهایم؛ بهویژه در حوزههایی چون کدنویسی سمت کاربر (frontend)، کاهش ویرایشهای غیرضروری، پایبندی دقیق به قالبها، ساختار پاسخها و ترتیببندی، استفادهی پایدار از ابزارها، و موارد دیگر. این پیشرفتها به توسعهدهندگان امکان میدهد عاملهایی بسازند که توانمندتر از پیش در انجام وظایف مهندسی نرمافزار در دنیای واقعی عمل کنند.»
طبق ادعای OpenAI، مدل کامل GPT-4.1 از نسخههای قبلی چون GPT-4o و GPT-4o mini در بنچمارکهای برنامهنویسی (از جمله SWE-bench) عملکرد بهتری دارد. نسخههای مینی و نانو نیز با وجود افت نسبی دقت، دارای سرعت و بهرهوری بالاتری هستند؛ تا آنجا که GPT-4.1 nano بهعنوان سریعترین و کمهزینهترین مدل تاکنون معرفی شده است.
هزینهی استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی ۲ دلار و برای هر یک میلیون توکن خروجی ۸ دلار است. این مقادیر برای نسخهی مینی به ترتیب ۰.۴۰ دلار و ۱.۶۰ دلار و برای نسخهی نانو به ۰.۱۰ دلار و ۰.۴۰ دلار کاهش مییابد.
بر اساس آزمایشهای داخلی OpenAI، مدل GPT-4.1 که توانایی تولید همزمان ۳۲,۷۶۸ توکن را دارد (در برابر ۱۶,۳۸۴ توکن در GPT-4o)، در مجموعهی SWE-bench Verified — نسخهای اعتبارسنجیشده توسط انسان — امتیازی بین ۵۲٪ تا ۵۴.۶٪ کسب کرده است. لازم به ذکر است که برخی از راهحلهای تولیدشده توسط مدل، امکان اجرا در زیرساخت OpenAI را نداشتهاند که همین امر موجب نوسان در امتیازات شده است. برای مقایسه، مدل Gemini 2.5 Pro از گوگل امتیاز ۶۳.۸٪ و مدل Claude 3.7 Sonnet امتیاز ۶۲.۳٪ را در همین ارزیابی به دست آوردهاند.
در ارزیابی دیگری تحت عنوان Video-MME که هدف آن سنجش توانایی مدل در درک محتوای ویدئویی است، GPT-4.1 در دستهی «ویدئوهای بلند بدون زیرنویس» به دقت ۷۲٪ دست یافته است — که بالاترین میزان در این دسته بهشمار میرود.
هرچند GPT-4.1 بر روی ارزیابیها عملکرد قابلقبولی دارد و از دادههایی نسبتاً بهروز (با مرز دانشی تا ژوئن ۲۰۲۴) برخوردار است، باید به این نکته توجه داشت که حتی بهترین مدلهای امروز نیز در انجام برخی وظایف ابتدایی برنامهنویسی که برای یک متخصص ساده تلقی میشود، دچار خطا میشوند. پژوهشهای متعددی نشان دادهاند که این مدلها در بسیاری موارد، نه تنها موفق به رفع آسیبپذیریها نمیشوند، بلکه گاه حتی اشکالات امنیتی جدیدی نیز ایجاد میکنند.
OpenAI نیز اذعان دارد که مدل GPT-4.1 با افزایش حجم ورودی (تعداد توکنها)، دقت خود را از دست میدهد. در یکی از آزمونهای داخلی این شرکت با نام OpenAI-MRCR، دقت مدل از حدود ۸۴٪ با ورودی ۸ هزار توکن به ۵۰٪ با ورودی یکمیلیون توکن کاهش یافته است. همچنین، این مدل در مقایسه با GPT-4o گرایش بیشتری به «تعبیر واژهبهواژه» دارد و در نتیجه گاهی نیاز به دستورات دقیقتر و صریحتر دارد.
در مجموع، GPT-4.1 را میتوان گامی پیشرو در جهت تحقق چشمانداز OpenAI برای توسعهی ابزارهای هوش مصنوعی پیشرفته در حوزهی مهندسی نرمافزار دانست — ابزاری که اگرچه هنوز با عملکرد انسانی فاصله دارد، اما بهسرعت در حال نزدیکتر شدن به آن است.
