مدل‌های Claude 4

0

رونمایی از مدل‌های Claude 4

در تاریخ ۲۲ مه ۲۰۲۵، شرکت Anthropic نسل جدیدی از مدل‌های هوش مصنوعی خود را با نام‌های Claude Opus 4 و Claude Sonnet 4 معرفی کرد. این مدل‌ها با هدف ارتقاء توانمندی‌های کدنویسی، استدلال پیشرفته و عملکرد عامل‌های هوشمند طراحی شده‌اند و استانداردهای جدیدی را در این حوزه‌ها بازتعریف می‌کنند.


Claude Opus 4: پیشرفته‌ترین مدل کدنویسی جهان

Claude Opus 4 در آزمون‌های SWE-bench با امتیاز ۷۲.۵٪ و Terminal-bench با امتیاز ۴۳.۲٪ پیشتاز است و به‌عنوان قدرتمندترین مدل کدنویسی معرفی شده است. این مدل قابلیت اجرای وظایف پیچیده و طولانی‌مدت را دارد و می‌تواند به‌صورت مداوم برای چندین ساعت فعالیت کند، که این ویژگی آن را از مدل‌های قبلی متمایز می‌سازد.

شرکت‌های مختلفی مانند Cursor، Replit، Block و Rakuten عملکرد برتر Opus 4 را در پروژه‌های خود تأیید کرده‌اند. به‌عنوان مثال، Rakuten از این مدل برای بازسازی یک پروژه متن‌باز به‌مدت ۷ ساعت استفاده کرده است.


Claude Sonnet 4: تعادل بین کارایی و بهره‌وری

Claude Sonnet 4 نسخه ارتقاءیافته‌ای از Sonnet 3.7 است که با امتیاز ۷۲.۷٪ در آزمون SWE-bench عملکرد قابل‌توجهی دارد. این مدل با تمرکز بر بهره‌وری و دقت در پیروی از دستورالعمل‌ها، برای استفاده‌های داخلی و خارجی مناسب است.

GitHub اعلام کرده است که از Sonnet 4 در نسخه جدید GitHub Copilot استفاده خواهد کرد. همچنین، شرکت‌هایی مانند Manus، iGent و Sourcegraph بهبودهای این مدل در درک دستورالعمل‌های پیچیده و توسعه نرم‌افزار را گزارش داده‌اند.


قابلیت‌های جدید مدل‌ها

هر دو مدل Claude Opus 4 و Sonnet 4 دارای قابلیت‌های پیشرفته‌ای هستند که شامل موارد زیر می‌شود:

  • تفکر توسعه‌یافته با استفاده از ابزارها (نسخه بتا): امکان استفاده از ابزارهایی مانند جستجوی وب برای بهبود پاسخ‌ها.
  • اجرای موازی ابزارها: توانایی استفاده هم‌زمان از چندین ابزار برای افزایش کارایی.
  • حافظه بهبودیافته: با دسترسی به فایل‌های محلی، مدل‌ها می‌توانند اطلاعات کلیدی را استخراج و ذخیره کنند تا تداوم و دانش ضمنی را در طول زمان حفظ کنند.

Claude Code: در دسترس برای توسعه‌دهندگان

Claude Code اکنون به‌صورت عمومی در دسترس است و امکاناتی مانند:

  • پشتیبانی از وظایف پس‌زمینه از طریق GitHub Actions.
  • ادغام بومی با محیط‌های توسعه VS Code و JetBrains.
  • نمایش ویرایش‌ها به‌صورت مستقیم در فایل‌ها برای برنامه‌نویسی دونفره.

همچنین، یک SDK قابل توسعه برای Claude Code منتشر شده است که به توسعه‌دهندگان امکان ساخت عامل‌ها و برنامه‌های سفارشی را می‌دهد.

مدل‌های Claude 4
مدل های Claude 4 در SWE-bench Verified پیشرو هستند، معیاری برای عملکرد در وظایف واقعی مهندسی نرم افزار.

قابلیت‌های جدید API

چهار قابلیت جدید در API شرکت Anthropic معرفی شده است:

  1. ابزار اجرای کد.
  2. اتصال‌دهنده MCP.
  3. API فایل‌ها.
  4. امکان ذخیره‌سازی پرامپت‌ها تا یک ساعت.
مدل های Claude 4 عملکرد قوی در کدنویسی، استدلال، قابلیت های چند وجهی و وظایف عامل ارائه می دهند.
مدل های Claude 4 عملکرد قوی در کدنویسی، استدلال، قابلیت های چند وجهی و وظایف عامل ارائه می دهند.

مدل‌های هیبریدی با دو حالت عملکرد

مدل‌های Claude Opus 4 و Sonnet 4 به‌صورت هیبریدی طراحی شده‌اند و دو حالت عملکرد دارند:

  • پاسخ‌های تقریباً فوری.
  • تفکر توسعه‌یافته برای استدلال عمیق‌تر.

این مدل‌ها در برنامه‌های Pro، Max، Team و Enterprise در دسترس هستند و Sonnet 4 همچنین برای کاربران رایگان نیز قابل استفاده است.


بهبودهای مدل‌ها

علاوه بر قابلیت‌های جدید، رفتار مدل‌ها در استفاده از میانبرها یا راه‌های میان‌بر برای تکمیل وظایف به میزان ۶۵٪ کاهش یافته است. همچنین، Claude Opus 4 در زمینه حافظه عملکرد بهتری نسبت به مدل‌های قبلی دارد و می‌تواند فایل‌های حافظه‌ای ایجاد و نگهداری کند تا آگاهی بلندمدت از وظایف را بهبود بخشد.

image 16

خلاصه‌سازی تفکر

برای مدل‌های Claude 4، خلاصه‌سازی تفکر با استفاده از مدل‌های کوچکتر معرفی شده است تا فرآیندهای فکری طولانی را فشرده کند. این خلاصه‌سازی تنها در حدود ۵٪ مواقع مورد نیاز است و برای کاربران پیشرفته، حالت Developer Mode برای دسترسی کامل به زنجیره‌های فکری خام در دسترس است.


شروع به کار

این مدل‌ها گامی بزرگ به‌سوی همکار مجازی هستند که می‌توانند زمینه کامل را حفظ کرده، تمرکز بر پروژه‌های طولانی‌مدت را ادامه داده و تأثیر تحول‌آفرینی داشته باشند. با آزمایش‌ها و ارزیابی‌های گسترده برای کاهش ریسک و افزایش ایمنی، این مدل‌ها در سطوح بالای ایمنی هوش مصنوعی مانند ASL-3 پیاده‌سازی شده‌اند.

برای شروع، می‌توانید از Claude، Claude Code یا پلتفرم مورد نظر خود استفاده کنید. همچنین، بازخوردهای شما به ما در بهبود این مدل‌ها کمک می‌کند.


منابع بنچمارک عملکرد

داده‌های بنچمارک عملکرد از منابع مختلفی مانند OpenAI، Gemini و Claude جمع‌آوری شده‌اند. مدل‌های Claude 4 در آزمون‌های مختلفی مانند SWE-bench Verified، Terminal-bench، TAU-bench، GPQA Diamond، MMMLU، MMMU و AIME عملکرد قوی‌ای از خود نشان داده‌اند. برای اطلاعات بیشتر در مورد روش‌شناسی این آزمون‌ها، به پیوست مراجعه کنید.


با معرفی Claude 4، شرکت Anthropic گامی مهم در توسعه مدل‌های هوش مصنوعی برداشته است که می‌تواند تأثیرات قابل‌توجهی در زمینه‌های مختلفی مانند کدنویسی، تحقیق، نوشتن و کشف علمی داشته باشد.

Share.
Leave A Reply