Gemini 2.5: مدل‌های هوشمند گوگل از همیشه هوشمندتر!

Gemini 2.5

گوگل در ماه مارس، مدل پیشرفته‌ی Gemini 2.5 Pro را معرفی کرد که هوشمندترین مدل این تا کنون بوده است. همچنین بنا به گفته این شرکت دو هفته پیش، به‌منظور تسهیل توسعه‌ی اپلیکیشن‌های وب، به‌روزرسانی I/O را زودتر در اختیار توسعه‌دهندگان قرار داده شد. امروز نیز به‌روزرسانی‌های جدیدی را برای خانواده‌ی مدل‌های سری ۲.۵ اعلام شد:

فراتر از عملکرد فوق‌العاده‌ی ۲.۵ Pro در آزمون‌های استاندارد علمی، این مدل اکنون رتبه‌ی نخست را در جدول‌های رتبه‌بندی WebDev Arena و LMArena دارد و به عنوان بهترین ابزار کمک آموزشی نیز شناخته شده است.
قابلیت‌های جدیدی برای ۲.۵ Pro و ۲.۵ Flash عرضه شده‌اند، از جمله: تولید صوت بومی برای ایجاد تجربه‌ی گفت‌وگویی طبیعی‌تر، حفاظت‌های امنیتی پیشرفته، و توانمندی‌های استفاده از رایانه در پروژه‌ی Mariner. مدل ۲.۵ Pro همچنین با قابلیت نوآورانه‌ای به نام Deep Think بهبود می‌یابد؛ حالتی آزمایشی برای استدلال پیشرفته در مسائل پیچیده‌ی ریاضی و برنامه‌نویسی.
بهبود تجربه‌ی توسعه‌دهنده نیز ادامه دارد: خلاصه‌سازی فرایند تفکر مدل‌ها در API جمینی و Vertex AI برای شفافیت بیشتر، امکان تعریف «بودجه‌ی تفکر» در ۲.۵ Pro برای کنترل بهتر، و پشتیبانی از ابزارهای متن‌باز از طریق MCP در API و SDK جمینی.
مدل ۲.۵ Flash اکنون برای همه کاربران در اپلیکیشن Gemini قابل دسترسی است و نسخه‌ی به‌روز آن از اوایل ژوئن در Google AI Studio و Vertex AI به‌صورت عمومی عرضه خواهد شد. مدل ۲.۵ Pro نیز به‌زودی در دسترس قرار می‌گیرد.

این دستاوردها نتیجه‌ی تلاش بی‌وقفه‌ی تیم‌های مختلف در گوگل برای توسعه‌ی فناوری‌های پیشرفته به شیوه‌ای ایمن و مسئولانه است. در ادامه به جزئیات می‌پردازیم:

عملکرد برجسته‌ی Gemini 2.5 Pro

مدل به‌روزشده‌ی ۲.۵ Pro به توسعه‌دهندگان کمک می‌کند تا اپلیکیشن‌های وب تعاملی و غنی‌تری بسازند. علاوه بر عملکرد عالی در آزمون‌های علمی، این مدل اکنون با امتیاز ELO برابر با ۱۴۱۵ در صدر رتبه‌بندی محبوب WebDev Arena قرار دارد و همچنین در همه‌ی جدول‌های LMArena که اولویت‌های انسانی را در ابعاد مختلف ارزیابی می‌کنند، رتبه‌ی نخست را کسب کرده است. با دارا بودن پنجره‌ی متنی با ظرفیت یک میلیون توکن، ۲.۵ Pro در درک متون طولانی و ویدیوها نیز عملکردی در سطح جهانی دارد.

با افزودن LearnLM—سری مدل‌هایی توسعه‌ یافته با همکاری متخصصان آموزشی—۲.۵ Pro به برترین مدل در زمینه‌ی یادگیری نیز تبدیل شده است. در مقایسه‌های مستقیم با سایر مدل‌ها، مربیان و کارشناسان آموزشی در سناریوهای متنوع، این مدل را از نظر شیوه‌ی آموزش و کارآمدی ترجیح داده‌اند. همچنین، در هر پنج اصل بنیادین علم یادگیری، عملکردی برتر از دیگر مدل‌ها از خود نشان داده است.

Deep Think: توانایی استدلال عمیق

در چارچوب کاوش‌های پیشرفته برای ارتقای توان تفکر مدل‌های Gemini، حالتی آزمایشی با عنوان Deep Think را توسعه داده‌ایم. این حالت با بهره‌گیری از روش‌های پژوهشی نوین، امکان بررسی هم‌زمان چندین فرضیه را پیش از ارائه‌ی پاسخ فراهم می‌سازد.

مدل ۲.۵ Pro با فعال‌سازی Deep Think، عملکرد خیره‌کننده‌ای در آزمون ریاضی USAMO 2025 که یکی از دشوارترین آزمون‌ها در سطح جهانی است، داشته است. همچنین، در آزمون LiveCodeBench (ویژه‌ی کدنویسی رقابتی) پیشتاز بوده و در آزمون MMMU که استدلال چندوجهی را می‌سنجد، امتیاز ۸۴٪ را کسب کرده است.

با توجه به ماهیت پیشروانه‌ی Deep Think، ارزیابی‌های ایمنی بیشتری در حال انجام است. این ویژگی در ابتدا برای تست‌کنندگان منتخب از طریق API جمینی در دسترس قرار خواهد گرفت تا بازخورد لازم پیش از عرضه‌ی عمومی جمع‌آوری شود.

نسخه‌ی ارتقایافته‌ی ۲.۵ Flash

مدل ۲.۵ Flash، کارآمدترین مدل گوگل از نظر سرعت و هزینه، اکنون در بسیاری از ابعاد عملکردی بهبود یافته است. این مدل در ارزیابی‌های مربوط به استدلال، چندوجهی بودن، کدنویسی و درک زمینه‌های طولانی، امتیازات بهتری کسب کرده و در عین حال، استفاده از توکن را ۲۰ تا ۳۰ درصد کاهش داده است.

این نسخه‌ی جدید اکنون برای آزمایش در Google AI Studio، Vertex AI و اپلیکیشن Gemini در دسترس است. عرضه‌ی عمومی آن نیز از اوایل ژوئن آغاز خواهد شد.

قابلیت‌های جدید در سری Gemini 2.5

خروجی صوتی بومی و به‌روزرسانی Live API

امروز، Live API نسخه‌ی آزمایشی از ورودی سمعی-بصری و گفت‌وگوی صوتی بومی را معرفی می‌کند؛ قابلیتی که امکان ایجاد تعاملات طبیعی‌تر و بیان‌گرایانه‌تر با مدل را فراهم می‌سازد.

این ویژگی به کاربر اجازه می‌دهد لحن، لهجه و سبک گفتار مدل را کنترل کند؛ برای مثال، می‌توانید از مدل بخواهید داستانی را با صدای دراماتیک تعریف کند. همچنین پشتیبانی از ابزارهای کمکی مانند جست‌وجوی خودکار نیز فراهم شده است.

برخی ویژگی‌های اولیه که قابل آزمایش هستند عبارت‌اند از:

گفت‌وگوی عاطفی (Affective Dialogue): تشخیص احساسات در صدای کاربر و پاسخ‌گویی متناسب.
صدای پیش‌دستانه (Proactive Audio): نادیده‌گیری مکالمات پس‌زمینه و پاسخ‌گویی هوشمندانه.
تفکر در Live API: بهره‌گیری از توانایی تفکر مدل برای انجام وظایف پیچیده‌تر.

همچنین نسخه‌های آزمایشی تبدیل متن به گفتار برای مدل‌های ۲.۵ Pro و ۲.۵ Flash عرضه می‌شوند که برای نخستین بار از چند گوینده پشتیبانی می‌کنند؛ به طوری‌که می‌توان با دو صدا به‌صورت هم‌زمان، خروجی صوتی تولید کرد.

این قابلیت در بیش از ۲۴ زبان کار می‌کند و امکان سوئیچ بین زبان‌ها را نیز دارد.

توانمندی‌های استفاده از رایانه

توانایی‌های پروژه‌ی Mariner در استفاده از رایانه اکنون به API جمینی و Vertex AI افزوده شده‌اند. شرکت‌هایی همچون Automation Anywhere، UiPath، Browserbase، Autotab و Cartwheel در حال آزمایش این قابلیت‌ها هستند و بنا به گفته گوگل در تابستان امسال آن را در اختیار توسعه‌دهندگان بیشتری قرار خواهند داد.

امنیت بیشتر

گوگل به‌طور چشم‌گیری سطح حفاظت در برابر تهدیدهای امنیتی مانند injectionهای غیرمستقیم در promptها را افزایش داده‌ است. این نوع حمله، شامل درج دستورهای مخرب در داده‌هایی است که مدل بازیابی می‌کند. رویکرد امنیتی جدید گوگل توانست نرخ حفاظت Gemini را در برابر این نوع حملات هنگام استفاده از ابزارها به‌طور قابل‌توجهی افزایش دهد و سری ۲.۵ را به امن‌ترین خانواده‌ی مدل‌های گوگل تبدیل کند.

بهبود تجربه‌ی توسعه‌دهنده

خلاصه‌های تفکر (Thought Summaries)

مدل‌های ۲.۵ Pro و Flash اکنون در API جمینی و Vertex AI شامل «خلاصه‌های تفکر» هستند. این خلاصه‌ها، افکار خام مدل را به‌صورت ساختاریافته با عنوان‌بندی و جزئیات کلیدی و اطلاعاتی درباره‌ی کنش‌های مدل (مانند زمان استفاده از ابزار) ارائه می‌دهند. هدف از این ویژگی، شفاف‌سازی فرآیند تصمیم‌گیری مدل برای توسعه‌دهندگان و تسهیل اشکال‌زدایی است.

بودجه‌های تفکر (Thinking Budgets)

برای کنترل بهتر هزینه، ۲.۵ Flash با مفهوم «بودجه‌ی تفکر» معرفی شد—تعادلی میان کیفیت و سرعت پاسخ‌دهی. اکنون این قابلیت به مدل ۲.۵ Pro نیز گسترش یافته است. توسعه‌دهنده می‌تواند تعداد توکن‌هایی که مدل پیش از پاسخ‌دهی صرف «تفکر» می‌کند را تنظیم یا این قابلیت را غیرفعال کند.

این قابلیت در هفته‌های آتی به‌صورت پایدار برای استفاده‌ی تولیدی عرضه خواهد شد.

پشتیبانی از MCP

پشتیبانی بومی از تعریف‌های Model Context Protocol (MCP) اکنون در SDK و API جمینی فراهم شده است تا یکپارچه‌سازی با ابزارهای متن‌باز تسهیل شود. همچنین در حال بررسی راهکارهایی برای استقرار سرورهای MCP و سایر ابزارهای میزبانی‌شده هستیم تا توسعه‌ی اپلیکیشن‌های عامل‌محور آسان‌تر شود.

کانال تلگرام هوش مصنوعی

تحریریه هوش مصنوعی سیمرغ