شرکت آنتروپیک در تاریخ ۳۰ ژوئن ۲۰۲۶، از جدیدترین دستاورد خود یعنی Claude Sonnet 5 رونمایی کرد. این مدل به عنوان «عاملیترین» (Agentic) نسخه از خانواده Sonnet تا به امروز معرفی شده است؛ مدلی که میتواند برنامهریزی کند، از ابزارهایی مانند مرورگرها و ترمینالها بهره ببرد و به صورت خودمختار در سطحی عمل کند که تا همین چند ماه پیش، تنها از عهده مدلهای بسیار بزرگتر و گرانتر برمیآمد.
برای بسیاری از توسعهدهندگان، عصر هوش مصنوعی عاملی با مدلهای کلاس Sonnet (مانند نسخههای ۳.۵، ۳.۶ و ۳.۷) آغاز شد؛ مدلهایی که برای اولین بار مهارتهای خیرهکنندهای در کدنویسی و استفاده از ابزار به نمایش گذاشتند. با این حال، در ماههای اخیر، بیشترین پیشرفتها در قابلیتهای عاملی متعلق به مدلهای کلاس Opus بود.
اکنون Sonnet 5 این فاصله را به حداقل رسانده است: عملکرد این مدل بسیار نزدیک به Opus 4.8 شده است، اما با قیمتی بسیار پایینتر. این نسخه نسبت به نسل قبلی خود یعنی Sonnet 4.6، در شاخصهای کلیدی عملکرد عاملی نظیر استدلال، استفاده از ابزار، کدنویسی و کارهای دانشی (Knowledge Work) پیشرفت چشمگیری داشته است.

ایمنتر برای محیطهای عاملی
ارزیابیهای ایمنی آنتروپیک نشان میدهد که Sonnet 5 نسبت به Sonnet 4.6 نرخ پایینتری از رفتارهای نامطلوب را بروز میدهد و به طور کلی برای استفاده در ساختارهای خودمختار و عاملی ایمنتر است. همچنین، ارزیابیها ثابت کردهاند که توانایی این مدل در انجام وظایف مرتبط با امنیت سایبری بسیار کمتر از مدلهای فعلی Opus است که این موضوع ریسک استفاده از آن را کاهش میدهد.
دسترسی و قیمتگذاری
از امروز، Claude Sonnet 5 در تمامی طرحهای کاربری در دسترس است. این مدل اکنون به عنوان مدل پیشفرض برای کاربران رایگان و Pro تنظیم شده و برای کاربران Max، Team و Enterprise نیز قابل استفاده است. توسعهدهندگان میتوانند از طریق Claude Code، پلتفرم Claude و Claude API به آن دسترسی داشته باشند.
- قیمتگذاری اولیه (تا ۳۱ اوت ۲۰۲۶): ۲ دلار به ازای هر یک میلیون توکن ورودی و ۱۰ دلار به ازای هر یک میلیون توکن خروجی.
- قیمتگذاری استاندارد (پس از ۳۱ اوت): ۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی.
(نکته فنی: Sonnet 5 از یک توکنایزر جدید استفاده میکند که پردازش متن را بهبود میبخشد، اما ممکن است متنهای مشابه، بین ۱.۰ تا ۱.۳۵ برابر توکن بیشتری نسبت به قبل مصرف کنند. قیمتگذاری اولیه به گونهای تنظیم شده که این تغییر برای کاربران از نظر هزینه خنثی باشد.)
عملکرد و مدیریت هزینهها در Sonnet 5
نمودارهای ارزیابی در وظایف جستجوی عاملی (BrowseComp) و استفاده از کامپیوتر (OSWorld-Verified) نشان میدهند که Sonnet 5 یک ارتقای قطعی نسبت به Sonnet 4.6 است. این مدل در مقایسه با Opus 4.8، طیف بسیار وسیعتری از گزینههای «هزینه-عملکرد» را پوشش میدهد و در سطوح تلاشِ متوسط (Medium Effort)، کارایی اقتصادی بسیار بالاتری دارد. در برخی وظایف با سطح تلاش بالا، Sonnet 5 حتی میتواند با Opus 4.8 برابری کند و به کاربران اجازه میدهد تا تعادل دقیقی بین هزینه و عملکرد ایجاد کنند.


بازخوردهای شرکای دسترسی اولیه (Early Access) بسیار هماهنگ بوده است: Sonnet 5 به مراتب عاملیتر از پیشینیان خود است. تسترها گزارش دادهاند که این مدل وظایف پیچیدهای را که مدلهای قبلی در میانه راه رها میکردند، به پایان میرساند؛ خروجیهای خود را بدون نیاز به درخواست صریح کاربر بررسی و اصلاح میکند؛ و تمامی این کارها را با قیمتی جذاب انجام میدهد.

ارزیابیهای ایمنی و رفتاری
آزمونهای پیش از عرضه نشان داد که Sonnet 5 در رد کردن درخواستهای مخرب و مقاومت در برابر حملات «تزریق پرامپت» (Prompt Injection) عملکرد بهتری دارد. همچنین نرخ توهم (Hallucination) و چاپلوسی/تأیید بیمورد (Sycophancy) در آن نسبت به نسل قبلی کاهش یافته است. با این حال، در ممیزیهای رفتاری خودکار، نرخ رفتارهای ناهمسو در این مدل کمی بالاتر از مدلهای قدرتمندتری مانند Opus 4.8 و Mythos Preview بوده است.

محدودیتها و گاردریلهای سایبری
آنتروپیک تأکید کرده است که Sonnet 5 به طور عمدی برای وظایف امنیت سایبری آموزش ندیده است. در حالی که این مدل میتواند برخی وظایف روتین و بیخطر سایبری را انجام دهد، در ارزیابیهای مربوط به مهارتهای خطرناک (مانند توسعه اکسپلویتهای نرمافزاری)، عملکرد بسیار ضعیفتری نسبت به Opus 4.8 و Mythos 5 دارد.
برای مثال، در آزمون توسعه اکسپلویت برای آسیبپذیریهای مرورگر فایرفاکس، Sonnet 5 هرگز نتوانست یک اکسپلویت کاملاً کارآمد بسازد؛ هرچند نرخ موفقیت جزئی آن به دلیل بهبود هوش عمومی، کمی بیشتر از Sonnet 4.6 بود.

به همین دلیل، Sonnet 5 با گاردریلهای سایبری فعال به صورت پیشفرض عرضه شده است. این لایههای محافظتی که مشابه تدابیر امنیتی Opus 4.7 و ۴.۸ هستند، استفادههای خطرناک سایبری را در لحظه شناسایی و مسدود میکنند. علاوه بر این، محدودیتهای نرخ درخواست (Rate Limits) در تمامی پلتفرمهای آنتروپیک افزایش یافته تا توسعهدهندگان بتوانند پروژههای پیچیدهتر خود را بدون مشکل پیش ببرند.

