گوگل در ماه مارس، مدل پیشرفتهی Gemini 2.5 Pro را معرفی کرد که هوشمندترین مدل این تا کنون بوده است. همچنین بنا به گفته این شرکت دو هفته پیش، بهمنظور تسهیل توسعهی اپلیکیشنهای وب، بهروزرسانی I/O را زودتر در اختیار توسعهدهندگان قرار داده شد. امروز نیز بهروزرسانیهای جدیدی را برای خانوادهی مدلهای سری ۲.۵ اعلام شد:
- فراتر از عملکرد فوقالعادهی ۲.۵ Pro در آزمونهای استاندارد علمی، این مدل اکنون رتبهی نخست را در جدولهای رتبهبندی WebDev Arena و LMArena دارد و به عنوان بهترین ابزار کمک آموزشی نیز شناخته شده است.
- قابلیتهای جدیدی برای ۲.۵ Pro و ۲.۵ Flash عرضه شدهاند، از جمله: تولید صوت بومی برای ایجاد تجربهی گفتوگویی طبیعیتر، حفاظتهای امنیتی پیشرفته، و توانمندیهای استفاده از رایانه در پروژهی Mariner. مدل ۲.۵ Pro همچنین با قابلیت نوآورانهای به نام Deep Think بهبود مییابد؛ حالتی آزمایشی برای استدلال پیشرفته در مسائل پیچیدهی ریاضی و برنامهنویسی.
- بهبود تجربهی توسعهدهنده نیز ادامه دارد: خلاصهسازی فرایند تفکر مدلها در API جمینی و Vertex AI برای شفافیت بیشتر، امکان تعریف «بودجهی تفکر» در ۲.۵ Pro برای کنترل بهتر، و پشتیبانی از ابزارهای متنباز از طریق MCP در API و SDK جمینی.
- مدل ۲.۵ Flash اکنون برای همه کاربران در اپلیکیشن Gemini قابل دسترسی است و نسخهی بهروز آن از اوایل ژوئن در Google AI Studio و Vertex AI بهصورت عمومی عرضه خواهد شد. مدل ۲.۵ Pro نیز بهزودی در دسترس قرار میگیرد.
این دستاوردها نتیجهی تلاش بیوقفهی تیمهای مختلف در گوگل برای توسعهی فناوریهای پیشرفته به شیوهای ایمن و مسئولانه است. در ادامه به جزئیات میپردازیم:
عملکرد برجستهی Gemini 2.5 Pro
مدل بهروزشدهی ۲.۵ Pro به توسعهدهندگان کمک میکند تا اپلیکیشنهای وب تعاملی و غنیتری بسازند. علاوه بر عملکرد عالی در آزمونهای علمی، این مدل اکنون با امتیاز ELO برابر با ۱۴۱۵ در صدر رتبهبندی محبوب WebDev Arena قرار دارد و همچنین در همهی جدولهای LMArena که اولویتهای انسانی را در ابعاد مختلف ارزیابی میکنند، رتبهی نخست را کسب کرده است. با دارا بودن پنجرهی متنی با ظرفیت یک میلیون توکن، ۲.۵ Pro در درک متون طولانی و ویدیوها نیز عملکردی در سطح جهانی دارد.
با افزودن LearnLM—سری مدلهایی توسعه یافته با همکاری متخصصان آموزشی—۲.۵ Pro به برترین مدل در زمینهی یادگیری نیز تبدیل شده است. در مقایسههای مستقیم با سایر مدلها، مربیان و کارشناسان آموزشی در سناریوهای متنوع، این مدل را از نظر شیوهی آموزش و کارآمدی ترجیح دادهاند. همچنین، در هر پنج اصل بنیادین علم یادگیری، عملکردی برتر از دیگر مدلها از خود نشان داده است.
Deep Think: توانایی استدلال عمیق
در چارچوب کاوشهای پیشرفته برای ارتقای توان تفکر مدلهای Gemini، حالتی آزمایشی با عنوان Deep Think را توسعه دادهایم. این حالت با بهرهگیری از روشهای پژوهشی نوین، امکان بررسی همزمان چندین فرضیه را پیش از ارائهی پاسخ فراهم میسازد.
مدل ۲.۵ Pro با فعالسازی Deep Think، عملکرد خیرهکنندهای در آزمون ریاضی USAMO 2025 که یکی از دشوارترین آزمونها در سطح جهانی است، داشته است. همچنین، در آزمون LiveCodeBench (ویژهی کدنویسی رقابتی) پیشتاز بوده و در آزمون MMMU که استدلال چندوجهی را میسنجد، امتیاز ۸۴٪ را کسب کرده است.
با توجه به ماهیت پیشروانهی Deep Think، ارزیابیهای ایمنی بیشتری در حال انجام است. این ویژگی در ابتدا برای تستکنندگان منتخب از طریق API جمینی در دسترس قرار خواهد گرفت تا بازخورد لازم پیش از عرضهی عمومی جمعآوری شود.
نسخهی ارتقایافتهی ۲.۵ Flash
مدل ۲.۵ Flash، کارآمدترین مدل گوگل از نظر سرعت و هزینه، اکنون در بسیاری از ابعاد عملکردی بهبود یافته است. این مدل در ارزیابیهای مربوط به استدلال، چندوجهی بودن، کدنویسی و درک زمینههای طولانی، امتیازات بهتری کسب کرده و در عین حال، استفاده از توکن را ۲۰ تا ۳۰ درصد کاهش داده است.
این نسخهی جدید اکنون برای آزمایش در Google AI Studio، Vertex AI و اپلیکیشن Gemini در دسترس است. عرضهی عمومی آن نیز از اوایل ژوئن آغاز خواهد شد.
قابلیتهای جدید در سری Gemini 2.5
خروجی صوتی بومی و بهروزرسانی Live API
امروز، Live API نسخهی آزمایشی از ورودی سمعی-بصری و گفتوگوی صوتی بومی را معرفی میکند؛ قابلیتی که امکان ایجاد تعاملات طبیعیتر و بیانگرایانهتر با مدل را فراهم میسازد.
این ویژگی به کاربر اجازه میدهد لحن، لهجه و سبک گفتار مدل را کنترل کند؛ برای مثال، میتوانید از مدل بخواهید داستانی را با صدای دراماتیک تعریف کند. همچنین پشتیبانی از ابزارهای کمکی مانند جستوجوی خودکار نیز فراهم شده است.
برخی ویژگیهای اولیه که قابل آزمایش هستند عبارتاند از:
- گفتوگوی عاطفی (Affective Dialogue): تشخیص احساسات در صدای کاربر و پاسخگویی متناسب.
- صدای پیشدستانه (Proactive Audio): نادیدهگیری مکالمات پسزمینه و پاسخگویی هوشمندانه.
- تفکر در Live API: بهرهگیری از توانایی تفکر مدل برای انجام وظایف پیچیدهتر.
همچنین نسخههای آزمایشی تبدیل متن به گفتار برای مدلهای ۲.۵ Pro و ۲.۵ Flash عرضه میشوند که برای نخستین بار از چند گوینده پشتیبانی میکنند؛ به طوریکه میتوان با دو صدا بهصورت همزمان، خروجی صوتی تولید کرد.
این قابلیت در بیش از ۲۴ زبان کار میکند و امکان سوئیچ بین زبانها را نیز دارد.
توانمندیهای استفاده از رایانه
تواناییهای پروژهی Mariner در استفاده از رایانه اکنون به API جمینی و Vertex AI افزوده شدهاند. شرکتهایی همچون Automation Anywhere، UiPath، Browserbase، Autotab و Cartwheel در حال آزمایش این قابلیتها هستند و بنا به گفته گوگل در تابستان امسال آن را در اختیار توسعهدهندگان بیشتری قرار خواهند داد.
امنیت بیشتر
گوگل بهطور چشمگیری سطح حفاظت در برابر تهدیدهای امنیتی مانند injectionهای غیرمستقیم در promptها را افزایش داده است. این نوع حمله، شامل درج دستورهای مخرب در دادههایی است که مدل بازیابی میکند. رویکرد امنیتی جدید گوگل توانست نرخ حفاظت Gemini را در برابر این نوع حملات هنگام استفاده از ابزارها بهطور قابلتوجهی افزایش دهد و سری ۲.۵ را به امنترین خانوادهی مدلهای گوگل تبدیل کند.
بهبود تجربهی توسعهدهنده
خلاصههای تفکر (Thought Summaries)
مدلهای ۲.۵ Pro و Flash اکنون در API جمینی و Vertex AI شامل «خلاصههای تفکر» هستند. این خلاصهها، افکار خام مدل را بهصورت ساختاریافته با عنوانبندی و جزئیات کلیدی و اطلاعاتی دربارهی کنشهای مدل (مانند زمان استفاده از ابزار) ارائه میدهند. هدف از این ویژگی، شفافسازی فرآیند تصمیمگیری مدل برای توسعهدهندگان و تسهیل اشکالزدایی است.
بودجههای تفکر (Thinking Budgets)
برای کنترل بهتر هزینه، ۲.۵ Flash با مفهوم «بودجهی تفکر» معرفی شد—تعادلی میان کیفیت و سرعت پاسخدهی. اکنون این قابلیت به مدل ۲.۵ Pro نیز گسترش یافته است. توسعهدهنده میتواند تعداد توکنهایی که مدل پیش از پاسخدهی صرف «تفکر» میکند را تنظیم یا این قابلیت را غیرفعال کند.
این قابلیت در هفتههای آتی بهصورت پایدار برای استفادهی تولیدی عرضه خواهد شد.
پشتیبانی از MCP
پشتیبانی بومی از تعریفهای Model Context Protocol (MCP) اکنون در SDK و API جمینی فراهم شده است تا یکپارچهسازی با ابزارهای متنباز تسهیل شود. همچنین در حال بررسی راهکارهایی برای استقرار سرورهای MCP و سایر ابزارهای میزبانیشده هستیم تا توسعهی اپلیکیشنهای عاملمحور آسانتر شود.