مدل‌های جدید GPT-4.1 از شرکت OpenAI با تمرکز بر برنامه‌نویسی معرفی شدند

0

مدل‌های جدید GPT-4.1

تهران- مجله هوش مصنوعی سیمرغ- در روز دوشنبه، شرکت OpenAI از خانواده‌ای تازه از مدل‌های زبانی با نام GPT-4.1 رونمایی کرد؛ خانواده‌ای که شامل نسخه‌های «معمولی»، «مینی» و «نانو» می‌شود. به‌رغم نام‌گذاری نه‌چندان ساده‌ی این مدل‌ها، هدف اصلی آن‌ها کاملاً روشن است: توانمندسازی هوش مصنوعی در زمینه‌ی برنامه‌نویسی و پیروی دقیق از دستورالعمل‌ها.

این مدل‌های چندوجهی (مولتی‌مودال) که تنها از طریق رابط برنامه‌نویسی (API) در دسترس هستند و نه از طریق سرویس ChatGPT، دارای پنجره‌ی متنی (context window) یک‌میلیون توکنی هستند؛ یعنی می‌توانند متنی معادل حدود ۷۵۰ هزار واژه را در یک بار پردازش کنند — حتی بیش از حجم رمان «جنگ و صلح».

عرضه‌ی GPT-4.1 در شرایطی صورت می‌گیرد که رقبای OpenAI همچون گوگل و آنتروپیک (Anthropic) نیز در حال پیشبرد مدل‌های پیشرفته‌ی برنامه‌نویسی خود هستند. به‌عنوان نمونه، مدل تازه‌ی Gemini 2.5 Pro از گوگل با پنجره‌ی متنی یک‌میلیونی خود، عملکردی بسیار خوب در ارزیابی‌های استاندارد برنامه‌نویسی از خود نشان داده است. همچنین مدل Claude 3.7 Sonnet از شرکت آنتروپیک و مدل V3 شرکت چینی DeepSeek نیز از نظر توانایی کدنویسی در سطح بالایی قرار دارند.

آرزوی بزرگ شرکت‌هایی چون OpenAI آن است که مدل‌های هوش مصنوعی‌ای بسازند که قادر به انجام وظایف پیچیده‌ی مهندسی نرم‌افزار باشند. سارا فرایر (Sarah Friar)، مدیر ارشد مالی OpenAI، در یکی از نشست‌های فناوری در لندن، از چشم‌انداز این شرکت برای خلق «مهندس نرم‌افزار عامل‌محور» (agentic software engineer) سخن گفت؛ مدلی که بتواند یک برنامه‌ی نرم‌افزاری را به‌صورت کامل طراحی، پیاده‌سازی، آزمون‌گیری، رفع اشکال و مستندسازی کند.

مدل‌های جدید GPT-4.1
مدل‌های جدید GPT-4.1

مدل GPT-4.1 گامی در این مسیر به شمار می‌رود.

یکی از سخنگویان OpenAI در گفت‌وگو با TechCrunch اظهار داشت:

«ما GPT-4.1 را بر اساس بازخوردهای مستقیم از کاربران، برای کاربردهای واقعی بهینه کرده‌ایم؛ به‌ویژه در حوزه‌هایی چون کدنویسی سمت کاربر (frontend)، کاهش ویرایش‌های غیرضروری، پایبندی دقیق به قالب‌ها، ساختار پاسخ‌ها و ترتیب‌بندی، استفاده‌ی پایدار از ابزارها، و موارد دیگر. این پیشرفت‌ها به توسعه‌دهندگان امکان می‌دهد عامل‌هایی بسازند که توانمندتر از پیش در انجام وظایف مهندسی نرم‌افزار در دنیای واقعی عمل کنند.»

طبق ادعای OpenAI، مدل کامل GPT-4.1 از نسخه‌های قبلی چون GPT-4o و GPT-4o mini در بنچمارک‌های برنامه‌نویسی (از جمله SWE-bench) عملکرد بهتری دارد. نسخه‌های مینی و نانو نیز با وجود افت نسبی دقت، دارای سرعت و بهره‌وری بالاتری هستند؛ تا آنجا که GPT-4.1 nano به‌عنوان سریع‌ترین و کم‌هزینه‌ترین مدل تاکنون معرفی شده است.

هزینه‌ی استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی ۲ دلار و برای هر یک میلیون توکن خروجی ۸ دلار است. این مقادیر برای نسخه‌ی مینی به ترتیب ۰.۴۰ دلار و ۱.۶۰ دلار و برای نسخه‌ی نانو به ۰.۱۰ دلار و ۰.۴۰ دلار کاهش می‌یابد.

بر اساس آزمایش‌های داخلی OpenAI، مدل GPT-4.1 که توانایی تولید هم‌زمان ۳۲,۷۶۸ توکن را دارد (در برابر ۱۶,۳۸۴ توکن در GPT-4o)، در مجموعه‌ی SWE-bench Verified — نسخه‌ای اعتبارسنجی‌شده توسط انسان — امتیازی بین ۵۲٪ تا ۵۴.۶٪ کسب کرده است. لازم به ذکر است که برخی از راه‌حل‌های تولیدشده توسط مدل، امکان اجرا در زیرساخت OpenAI را نداشته‌اند که همین امر موجب نوسان در امتیازات شده است. برای مقایسه، مدل Gemini 2.5 Pro از گوگل امتیاز ۶۳.۸٪ و مدل Claude 3.7 Sonnet امتیاز ۶۲.۳٪ را در همین ارزیابی به دست آورده‌اند.

در ارزیابی دیگری تحت عنوان Video-MME که هدف آن سنجش توانایی مدل در درک محتوای ویدئویی است، GPT-4.1 در دسته‌ی «ویدئوهای بلند بدون زیرنویس» به دقت ۷۲٪ دست یافته است — که بالاترین میزان در این دسته به‌شمار می‌رود.

هرچند GPT-4.1 بر روی ارزیابی‌ها عملکرد قابل‌قبولی دارد و از داده‌هایی نسبتاً به‌روز (با مرز دانشی تا ژوئن ۲۰۲۴) برخوردار است، باید به این نکته توجه داشت که حتی بهترین مدل‌های امروز نیز در انجام برخی وظایف ابتدایی برنامه‌نویسی که برای یک متخصص ساده تلقی می‌شود، دچار خطا می‌شوند. پژوهش‌های متعددی نشان داده‌اند که این مدل‌ها در بسیاری موارد، نه تنها موفق به رفع آسیب‌پذیری‌ها نمی‌شوند، بلکه گاه حتی اشکالات امنیتی جدیدی نیز ایجاد می‌کنند.

OpenAI نیز اذعان دارد که مدل GPT-4.1 با افزایش حجم ورودی (تعداد توکن‌ها)، دقت خود را از دست می‌دهد. در یکی از آزمون‌های داخلی این شرکت با نام OpenAI-MRCR، دقت مدل از حدود ۸۴٪ با ورودی ۸ هزار توکن به ۵۰٪ با ورودی یک‌میلیون توکن کاهش یافته است. همچنین، این مدل در مقایسه با GPT-4o گرایش بیشتری به «تعبیر واژه‌به‌واژه» دارد و در نتیجه گاهی نیاز به دستورات دقیق‌تر و صریح‌تر دارد.

در مجموع، GPT-4.1 را می‌توان گامی پیشرو در جهت تحقق چشم‌انداز OpenAI برای توسعه‌ی ابزارهای هوش مصنوعی پیشرفته در حوزه‌ی مهندسی نرم‌افزار دانست — ابزاری که اگرچه هنوز با عملکرد انسانی فاصله دارد، اما به‌سرعت در حال نزدیک‌تر شدن به آن است.

%D8%B4%D8%A7%D8%AE%D8%B5 28
Share.
Leave A Reply