Gemini 2.5
گوگل در ماه مارس، مدل پیشرفتهی Gemini 2.5 Pro را معرفی کرد که هوشمندترین مدل این تا کنون بوده است. همچنین بنا به گفته این شرکت دو هفته پیش، بهمنظور تسهیل توسعهی اپلیکیشنهای وب، بهروزرسانی I/O را زودتر در اختیار توسعهدهندگان قرار داده شد. امروز نیز بهروزرسانیهای جدیدی را برای خانوادهی مدلهای سری ۲.۵ اعلام شد:
این دستاوردها نتیجهی تلاش بیوقفهی تیمهای مختلف در گوگل برای توسعهی فناوریهای پیشرفته به شیوهای ایمن و مسئولانه است. در ادامه به جزئیات میپردازیم:
مدل بهروزشدهی ۲.۵ Pro به توسعهدهندگان کمک میکند تا اپلیکیشنهای وب تعاملی و غنیتری بسازند. علاوه بر عملکرد عالی در آزمونهای علمی، این مدل اکنون با امتیاز ELO برابر با ۱۴۱۵ در صدر رتبهبندی محبوب WebDev Arena قرار دارد و همچنین در همهی جدولهای LMArena که اولویتهای انسانی را در ابعاد مختلف ارزیابی میکنند، رتبهی نخست را کسب کرده است. با دارا بودن پنجرهی متنی با ظرفیت یک میلیون توکن، ۲.۵ Pro در درک متون طولانی و ویدیوها نیز عملکردی در سطح جهانی دارد.
با افزودن LearnLM—سری مدلهایی توسعه یافته با همکاری متخصصان آموزشی—۲.۵ Pro به برترین مدل در زمینهی یادگیری نیز تبدیل شده است. در مقایسههای مستقیم با سایر مدلها، مربیان و کارشناسان آموزشی در سناریوهای متنوع، این مدل را از نظر شیوهی آموزش و کارآمدی ترجیح دادهاند. همچنین، در هر پنج اصل بنیادین علم یادگیری، عملکردی برتر از دیگر مدلها از خود نشان داده است.
در چارچوب کاوشهای پیشرفته برای ارتقای توان تفکر مدلهای Gemini، حالتی آزمایشی با عنوان Deep Think را توسعه دادهایم. این حالت با بهرهگیری از روشهای پژوهشی نوین، امکان بررسی همزمان چندین فرضیه را پیش از ارائهی پاسخ فراهم میسازد.
مدل ۲.۵ Pro با فعالسازی Deep Think، عملکرد خیرهکنندهای در آزمون ریاضی USAMO 2025 که یکی از دشوارترین آزمونها در سطح جهانی است، داشته است. همچنین، در آزمون LiveCodeBench (ویژهی کدنویسی رقابتی) پیشتاز بوده و در آزمون MMMU که استدلال چندوجهی را میسنجد، امتیاز ۸۴٪ را کسب کرده است.
با توجه به ماهیت پیشروانهی Deep Think، ارزیابیهای ایمنی بیشتری در حال انجام است. این ویژگی در ابتدا برای تستکنندگان منتخب از طریق API جمینی در دسترس قرار خواهد گرفت تا بازخورد لازم پیش از عرضهی عمومی جمعآوری شود.
مدل ۲.۵ Flash، کارآمدترین مدل گوگل از نظر سرعت و هزینه، اکنون در بسیاری از ابعاد عملکردی بهبود یافته است. این مدل در ارزیابیهای مربوط به استدلال، چندوجهی بودن، کدنویسی و درک زمینههای طولانی، امتیازات بهتری کسب کرده و در عین حال، استفاده از توکن را ۲۰ تا ۳۰ درصد کاهش داده است.
این نسخهی جدید اکنون برای آزمایش در Google AI Studio، Vertex AI و اپلیکیشن Gemini در دسترس است. عرضهی عمومی آن نیز از اوایل ژوئن آغاز خواهد شد.
امروز، Live API نسخهی آزمایشی از ورودی سمعی-بصری و گفتوگوی صوتی بومی را معرفی میکند؛ قابلیتی که امکان ایجاد تعاملات طبیعیتر و بیانگرایانهتر با مدل را فراهم میسازد.
این ویژگی به کاربر اجازه میدهد لحن، لهجه و سبک گفتار مدل را کنترل کند؛ برای مثال، میتوانید از مدل بخواهید داستانی را با صدای دراماتیک تعریف کند. همچنین پشتیبانی از ابزارهای کمکی مانند جستوجوی خودکار نیز فراهم شده است.
برخی ویژگیهای اولیه که قابل آزمایش هستند عبارتاند از:
همچنین نسخههای آزمایشی تبدیل متن به گفتار برای مدلهای ۲.۵ Pro و ۲.۵ Flash عرضه میشوند که برای نخستین بار از چند گوینده پشتیبانی میکنند؛ به طوریکه میتوان با دو صدا بهصورت همزمان، خروجی صوتی تولید کرد.
این قابلیت در بیش از ۲۴ زبان کار میکند و امکان سوئیچ بین زبانها را نیز دارد.
تواناییهای پروژهی Mariner در استفاده از رایانه اکنون به API جمینی و Vertex AI افزوده شدهاند. شرکتهایی همچون Automation Anywhere، UiPath، Browserbase، Autotab و Cartwheel در حال آزمایش این قابلیتها هستند و بنا به گفته گوگل در تابستان امسال آن را در اختیار توسعهدهندگان بیشتری قرار خواهند داد.
گوگل بهطور چشمگیری سطح حفاظت در برابر تهدیدهای امنیتی مانند injectionهای غیرمستقیم در promptها را افزایش داده است. این نوع حمله، شامل درج دستورهای مخرب در دادههایی است که مدل بازیابی میکند. رویکرد امنیتی جدید گوگل توانست نرخ حفاظت Gemini را در برابر این نوع حملات هنگام استفاده از ابزارها بهطور قابلتوجهی افزایش دهد و سری ۲.۵ را به امنترین خانوادهی مدلهای گوگل تبدیل کند.
مدلهای ۲.۵ Pro و Flash اکنون در API جمینی و Vertex AI شامل «خلاصههای تفکر» هستند. این خلاصهها، افکار خام مدل را بهصورت ساختاریافته با عنوانبندی و جزئیات کلیدی و اطلاعاتی دربارهی کنشهای مدل (مانند زمان استفاده از ابزار) ارائه میدهند. هدف از این ویژگی، شفافسازی فرآیند تصمیمگیری مدل برای توسعهدهندگان و تسهیل اشکالزدایی است.
برای کنترل بهتر هزینه، ۲.۵ Flash با مفهوم «بودجهی تفکر» معرفی شد—تعادلی میان کیفیت و سرعت پاسخدهی. اکنون این قابلیت به مدل ۲.۵ Pro نیز گسترش یافته است. توسعهدهنده میتواند تعداد توکنهایی که مدل پیش از پاسخدهی صرف «تفکر» میکند را تنظیم یا این قابلیت را غیرفعال کند.
این قابلیت در هفتههای آتی بهصورت پایدار برای استفادهی تولیدی عرضه خواهد شد.
پشتیبانی بومی از تعریفهای Model Context Protocol (MCP) اکنون در SDK و API جمینی فراهم شده است تا یکپارچهسازی با ابزارهای متنباز تسهیل شود. همچنین در حال بررسی راهکارهایی برای استقرار سرورهای MCP و سایر ابزارهای میزبانیشده هستیم تا توسعهی اپلیکیشنهای عاملمحور آسانتر شود.
۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی از دید رسانه هوش مصنوعی سیمرغ هوش مصنوعی در…
ChatGPT Pulse آغازگر نسلی تازه از دستیارهای هوش مصنوعی است؛ این مدل از پاسخ به…
نقشه راه فریلنسرها برای تامین امنیت آینده شغلی در عصر هوش مصنوعی فهرست دسترسی سریعنقشه…
راهنمای راهاندازی مدل Grok 4 در Cursor با استفاده از xAI API مدلهای هوش مصنوعی…
مرورگرها مدتهاست فقط وسیلهای برای باز کردن وبسایتها بودهاند، اما حالا با معرفی مرورگر Genspark…
بهینهسازی پرامپتها در GPT-5 با استفاده از «Prompt Optimizer» با معرفی خانواده مدلهای GPT-5، اوپناِیآی…