آنتروپیک از عرضه هوش مصنوعی Claude Sonnet ۵ خبر داد

تحریریه هوش مصنوعی سیمرغ

2 روز ago

شرکت آنتروپیک در تاریخ ۳۰ ژوئن ۲۰۲۶، از جدیدترین دستاورد خود یعنی Claude Sonnet 5 رونمایی کرد. این مدل به عنوان «عاملی‌ترین» (Agentic) نسخه از خانواده Sonnet تا به امروز معرفی شده است؛ مدلی که می‌تواند برنامه‌ریزی کند، از ابزارهایی مانند مرورگرها و ترمینال‌ها بهره ببرد و به صورت خودمختار در سطحی عمل کند که تا همین چند ماه پیش، تنها از عهده مدل‌های بسیار بزرگ‌تر و گران‌تر برمی‌آمد.

برای بسیاری از توسعه‌دهندگان، عصر هوش مصنوعی عاملی با مدل‌های کلاس Sonnet (مانند نسخه‌های ۳.۵، ۳.۶ و ۳.۷) آغاز شد؛ مدل‌هایی که برای اولین بار مهارت‌های خیره‌کننده‌ای در کدنویسی و استفاده از ابزار به نمایش گذاشتند. با این حال، در ماه‌های اخیر، بیشترین پیشرفت‌ها در قابلیت‌های عاملی متعلق به مدل‌های کلاس Opus بود.

اکنون Sonnet 5 این فاصله را به حداقل رسانده است: عملکرد این مدل بسیار نزدیک به Opus 4.8 شده است، اما با قیمتی بسیار پایین‌تر. این نسخه نسبت به نسل قبلی خود یعنی Sonnet 4.6، در شاخص‌های کلیدی عملکرد عاملی نظیر استدلال، استفاده از ابزار، کدنویسی و کارهای دانشی (Knowledge Work) پیشرفت چشمگیری داشته است.

مقایسه امتیازات Sonnet 5 با Sonnet 4.6 و Opus 4.8

ایمن‌تر برای محیط‌های عاملی

ارزیابی‌های ایمنی آنتروپیک نشان می‌دهد که Sonnet 5 نسبت به Sonnet 4.6 نرخ پایین‌تری از رفتارهای نامطلوب را بروز می‌دهد و به طور کلی برای استفاده در ساختارهای خودمختار و عاملی ایمن‌تر است. همچنین، ارزیابی‌ها ثابت کرده‌اند که توانایی این مدل در انجام وظایف مرتبط با امنیت سایبری بسیار کمتر از مدل‌های فعلی Opus است که این موضوع ریسک استفاده از آن را کاهش می‌دهد.

دسترسی و قیمت‌گذاری

از امروز، Claude Sonnet 5 در تمامی طرح‌های کاربری در دسترس است. این مدل اکنون به عنوان مدل پیش‌فرض برای کاربران رایگان و Pro تنظیم شده و برای کاربران Max، Team و Enterprise نیز قابل استفاده است. توسعه‌دهندگان می‌توانند از طریق Claude Code، پلتفرم Claude و Claude API به آن دسترسی داشته باشند.

قیمت‌گذاری اولیه (تا ۳۱ اوت ۲۰۲۶): ۲ دلار به ازای هر یک میلیون توکن ورودی و ۱۰ دلار به ازای هر یک میلیون توکن خروجی.
قیمت‌گذاری استاندارد (پس از ۳۱ اوت): ۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی.

(نکته فنی: Sonnet 5 از یک توکنایزر جدید استفاده می‌کند که پردازش متن را بهبود می‌بخشد، اما ممکن است متن‌های مشابه، بین ۱.۰ تا ۱.۳۵ برابر توکن بیشتری نسبت به قبل مصرف کنند. قیمت‌گذاری اولیه به گونه‌ای تنظیم شده که این تغییر برای کاربران از نظر هزینه خنثی باشد.)

عملکرد و مدیریت هزینه‌ها در Sonnet 5

نمودارهای ارزیابی در وظایف جستجوی عاملی (BrowseComp) و استفاده از کامپیوتر (OSWorld-Verified) نشان می‌دهند که Sonnet 5 یک ارتقای قطعی نسبت به Sonnet 4.6 است. این مدل در مقایسه با Opus 4.8، طیف بسیار وسیع‌تری از گزینه‌های «هزینه-عملکرد» را پوشش می‌دهد و در سطوح تلاشِ متوسط (Medium Effort)، کارایی اقتصادی بسیار بالاتری دارد. در برخی وظایف با سطح تلاش بالا، Sonnet 5 حتی می‌تواند با Opus 4.8 برابری کند و به کاربران اجازه می‌دهد تا تعادل دقیقی بین هزینه و عملکرد ایجاد کنند.

مودارهای هزینه-عملکرد در سطوح

بازخوردهای شرکای دسترسی اولیه (Early Access) بسیار هماهنگ بوده است: Sonnet 5 به مراتب عاملی‌تر از پیشینیان خود است. تسترها گزارش داده‌اند که این مدل وظایف پیچیده‌ای را که مدل‌های قبلی در میانه راه رها می‌کردند، به پایان می‌رساند؛ خروجی‌های خود را بدون نیاز به درخواست صریح کاربر بررسی و اصلاح می‌کند؛ و تمامی این کارها را با قیمتی جذاب انجام می‌دهد.

بازخورد شرکا پس از استفاده از Claude Sonnet 5

ارزیابی‌های ایمنی و رفتاری

آزمون‌های پیش از عرضه نشان داد که Sonnet 5 در رد کردن درخواست‌های مخرب و مقاومت در برابر حملات «تزریق پرامپت» (Prompt Injection) عملکرد بهتری دارد. همچنین نرخ توهم (Hallucination) و چاپلوسی/تأیید بی‌مورد (Sycophancy) در آن نسبت به نسل قبلی کاهش یافته است. با این حال، در ممیزی‌های رفتاری خودکار، نرخ رفتارهای ناهمسو در این مدل کمی بالاتر از مدل‌های قدرتمندتری مانند Opus 4.8 و Mythos Preview بوده است.

نرخ رفتارهای ناهمسو در ممیزی رفتار خودکار

محدودیت‌ها و گاردریل‌های سایبری

آنتروپیک تأکید کرده است که Sonnet 5 به طور عمدی برای وظایف امنیت سایبری آموزش ندیده است. در حالی که این مدل می‌تواند برخی وظایف روتین و بی‌خطر سایبری را انجام دهد، در ارزیابی‌های مربوط به مهارت‌های خطرناک (مانند توسعه اکسپلویت‌های نرم‌افزاری)، عملکرد بسیار ضعیف‌تری نسبت به Opus 4.8 و Mythos 5 دارد.

برای مثال، در آزمون توسعه اکسپلویت برای آسیب‌پذیری‌های مرورگر فایرفاکس، Sonnet 5 هرگز نتوانست یک اکسپلویت کاملاً کارآمد بسازد؛ هرچند نرخ موفقیت جزئی آن به دلیل بهبود هوش عمومی، کمی بیشتر از Sonnet 4.6 بود.

امتیازات مربوط به توسعه اکسپلویت برای آسیب‌پذیری‌های فایرفاکس

به همین دلیل، Sonnet 5 با گاردریل‌های سایبری فعال به صورت پیش‌فرض عرضه شده است. این لایه‌های محافظتی که مشابه تدابیر امنیتی Opus 4.7 و ۴.۸ هستند، استفاده‌های خطرناک سایبری را در لحظه شناسایی و مسدود می‌کنند. علاوه بر این، محدودیت‌های نرخ درخواست (Rate Limits) در تمامی پلتفرم‌های آنتروپیک افزایش یافته تا توسعه‌دهندگان بتوانند پروژه‌های پیچیده‌تر خود را بدون مشکل پیش ببرند.