بینایی هوشمند با Gemini 3 Pro؛ آیندهی Vision AI همینجا آغاز میشود
جمینای ۳ پرو (Gemini 3 Pro) پیشرفتهترین عملکرد را در زمینه درک اسناد، درک فضایی، صفحه نمایش و ویدیو ارائه میدهد.
جمینای ۳ پرو نشاندهنده یک جهش نسلی از «تشخیص ساده تصاویر» به سمت «استدلال واقعی بصری و فضایی» است. این توانمندترین مدل چندمنظوره (Multimodal) ما تا به امروز است که در درک اسناد، محیط فیزیکی، صفحه نمایش رایانه و ویدیو، عملکردی خیرهکننده و پیشرو دارد.
این مدل رکوردهای جدیدی را در بنچمارکهای بینایی (مانند MMMU Pro و Video MMMU) برای استدلالهای پیچیده بصری ثبت کرده است و همچنین در تستهای تخصصی مربوط به اسناد، فضا، صفحه نمایش و ویدیوهای طولانی عملکردی عالی داشته است.


۱. درک اسناد (Document understanding)
اسناد در دنیای واقعی معمولاً نامرتب، بدون ساختار و خوانش آنها دشوار است. آنها اغلب پر از تصاویر درهمآمیخته، دستخطهای ناخوانا، جداول تودرتو، فرمولهای پیچیده ریاضی و چیدمانهای غیرخطی هستند. جمینای ۳ پرو یک جهش بزرگ در این زمینه محسوب میشود و در تمام مراحل پردازش سند؛ از تبدیل عکس به متن (OCR) با دقت بالا گرفته تا استدلالهای تصویری پیچیده؛ عملکردی عالی دارد.
درک و دریافت هوشمند
برای اینکه یک مدل واقعاً یک سند را بفهمد، باید بتواند متن، جداول، فرمولهای ریاضی، شکلها و نمودارها را بدون توجه به نویز یا فرمت آنها، با دقت تشخیص دهد.
یکی از قابلیتهای بنیادی، توانایی «مهندسی معکوس تصویر» است؛ یعنی تبدیل یک سند تصویری به کدهای ساختاریافته (مثل HTML، LaTeX یا Markdown) که بتواند آن سند را بازسازی کند. همانطور که در مثالهای زیر میبینید، جمینای ۳ درک دقیقی از انواع مختلف اسناد دارد؛ از تبدیل دفتر حسابوکتاب یک تاجر قرن هجدهمی به یک جدول پیچیده گرفته تا تبدیل یک تصویر خام با یادداشتهای ریاضی به کد دقیق LaTeX.



استدلال پیشرفته
کاربران میتوانند روی جمینای ۳ برای انجام استدلالهای پیچیده و چندمرحلهای در جداول و نمودارها — حتی در گزارشهای طولانی — حساب کنند. در واقع، این مدل در بنچمارک استدلال CharXiv (با امتیاز ۸۰.۵٪) عملکردی بهتر از انسان دارد.
برای روشن شدن موضوع، تصور کنید کاربری در حال تحلیل گزارش ۶۲ صفحهای اداره سرشماری آمریکا با عنوان «درآمد در ایالات متحده: ۲۰۲۲» است و این سوال را میپرسد:
«تغییرات درصدی سال ۲۰۲۱ تا ۲۰۲۲ را برای شاخص جینی در “درآمد پولی” و “درآمد پس از کسر مالیات” مقایسه کن. چه چیزی باعث اختلاف در معیار پس از کسر مالیات شده است؟ و در مورد “درآمد پولی”، آیا سهم پایینترین دهک جامعه افزایش یافته یا کاهش؟»
برای دیدن استدلال گامبهگام مدل، روی تصاویر زیر کلیک کنید…




(محل قرارگیری تصویر: استخراج بصری)
توضیح: برای پاسخ به سوال مقایسه شاخص جینی، جمینای اطلاعات را پیدا کرد: در شکل ۳ دید که “درآمد پولی ۱.۲ درصد کاهش یافته” و در جدول B-3 دید که “درآمد پس از کسر مالیات ۳.۲ درصد افزایش یافته است”.
(محل قرارگیری تصویر: منطق علی و معلولی)
توضیح: نکته مهم اینجاست که جمینای ۳ فقط به اعداد بسنده نمیکند؛ او این فاصله را با تحلیلهای متنی گزارش مرتبط میکند و به درستی تشخیص میدهد که “انقضای سیاستهای ARPA” و “پایان پرداختهای حمایتی” دلایل اصلی این اختلاف هستند.
(محل قرارگیری تصویر: مقایسه عددی)
توضیح: برای مقایسه سهم پایینترین دهک، جمینای ۳ به جدول A-3 نگاه کرد، اعداد ۲.۹ و ۳.۰ را مقایسه کرد و نتیجه گرفت که “سهم مجموع درآمد خانوار که در اختیار پایینترین دهک است، افزایش یافته است.”
(محل قرارگیری تصویر: پاسخ نهایی مدل)
۲. درک فضایی (Spatial understanding)
جمینای ۳ پرو قویترین مدل ما در زمینه درک فضایی تا به امروز است. ترکیب این قابلیت با قدرت استدلال بالا، به مدل اجازه میدهد تا دنیای فیزیکی را درک کند.
- قابلیت اشاره کردن: جمینای ۳ میتواند با ارائه مختصات دقیق پیکسلی، به مکانهای خاصی در تصاویر اشاره کند. زنجیرهای از نقاط دوبعدی میتوانند برای کارهای پیچیده مثل تخمین حالت بدن انسان یا نشان دادن مسیر حرکت در طول زمان استفاده شوند.
- درک اشیاء با زبان آزاد: جمینای ۳ اشیاء و نیت کاربر را با استفاده از دایره واژگان باز (Open vocabulary) شناسایی میکند. کاربرد مستقیم این ویژگی در رباتیک است: کاربر میتواند از یک ربات بخواهد نقشهای فضایی بکشد، مثلاً: «با توجه به این میز بههمریخته، برنامهای برای دستهبندی زبالهها ارائه بده.» این قابلیت در دستگاههای واقعیت افزوده (AR/XR) هم کاربرد دارد؛ مثلاً کاربر میتواند بپرسد: «طبق دفترچه راهنما، به پیچ مورد نظر اشاره کن.»



۳. درک صفحه نمایش (Screen understanding)
درک فضایی جمینای ۳ پرو به طور ویژهای در درک صفحه نمایش دسکتاپ و موبایل میدرخشد. این قابلیت اطمینانبخش باعث میشود دستیارهای کامپیوتری به اندازه کافی قوی باشند تا کارهای تکراری را خودکار کنند. قابلیتهای درک رابط کاربری (UI) همچنین میتواند کارهایی مثل تست کیفیت نرمافزار (QA)، آموزش کاربران جدید و تحلیل تجربه کاربری را ممکن سازد. دمو زیر نشان میدهد که مدل چگونه با دقت بالا صفحه را میبیند و کلیک میکند.
(محل قرارگیری ویدیو یا تصویر متحرک: دمو استفاده از کامپیوتر)
وظیفه: مجموع درآمد برای هر نوع تبلیغات را در یک شیت جدید (Sheet2) خلاصه کن، به طوری که نام تبلیغات به عنوان سرستونها باشد و از ویژگی Pivot Table استفاده شود.
۴. درک ویدیو (Video understanding)
جمینای ۳ پرو جهشی بزرگ در نحوه درک ویدیو توسط هوش مصنوعی ایجاد کرده است؛ ویدیو پیچیدهترین فرمت دادهای است که با آن سروکار داریم زیرا متراکم، پویا، چندوجهی و پر از محتواست.
۱. درک با نرخ فریم بالا: ما مدل را بهینه کردهایم تا در درک حرکات سریع (زمانی که با سرعت بیش از ۱ فریم بر ثانیه نمونهبرداری میشود) بسیار قویتر باشد. جمینای ۳ پرو میتواند جزئیات سریع را ثبت کند — که برای کارهایی مثل تحلیل مکانیسم ضربه در گلف حیاتی است.
با پردازش ویدیو در ۱۰ فریم بر ثانیه — یعنی ۱۰ برابر سرعت پیشفرض — جمینای ۳ پرو هر نوسان و تغییر وزن را میگیرد و بینش عمیقی از مکانیسم بدن بازیکن ارائه میدهد.
۲. استدلال ویدیویی با حالت «تفکر»: ما حالت «تفکر» (Thinking mode) را ارتقا دادهایم تا فراتر از تشخیص اشیاء برود و به استدلال واقعی ویدیویی برسد. مدل اکنون میتواند روابط علت و معلولی پیچیده را در طول زمان بهتر ردیابی کند. به جای اینکه فقط بگوید چه چیزی در حال رخ دادن است، میفهمد چرا آن اتفاق میافتد.
۳. تبدیل ویدیوهای طولانی به عمل: جمینای ۳ پرو شکاف بین ویدیو و کدنویسی را پر میکند. این مدل میتواند دانش را از محتوای طولانی استخراج کرده و بلافاصله آن را به برنامههای کاربردی یا کدهای ساختاریافته تبدیل کند.
۵. کاربردهای دنیای واقعی
در اینجا چند مورد از روشهایی که فکر میکنیم حوزههای مختلف میتوانند از قابلیتهای جمینای ۳ بهرهمند شوند، آورده شده است.
آموزش
قابلیتهای بینایی ارتقا یافته جمینای ۳ پرو پیشرفتهای قابل توجهی را در زمینه آموزش، به ویژه برای سوالات مبتنی بر نمودار در ریاضی و علوم ایجاد میکند. این مدل با موفقیت طیف کاملی از مسائل استدلالی چندوجهی را از دوره راهنمایی تا دانشگاه حل میکند. این شامل معماهای استدلال تصویری (مانند ریاضیات کانگورو) و نمودارهای پیچیده شیمی و فیزیک میشود.
هوش بصری جمینای ۳ همچنین قدرت قابلیتهای تولیدی Nano Banana Pro را تامین میکند. برای مثال، با ترکیب استدلال پیشرفته و تولید دقیق محتوا، این مدل میتواند به کاربران کمک کند تا دقیقاً بفهمند کجای حل تمرینشان اشتباه بوده است.
درخواست کاربر (Prompt): «این عکس تلاش من برای حل تکلیف است. لطفاً مراحل مرا بررسی کن و بگو کجا اشتباه کردم. به جای توضیح متنی، روی تصویر خودم به صورت بصری نشان بده.» (نکته: کار دانشآموز با رنگ آبی و اصلاحات مدل با رنگ قرمز نشان داده شده است).

تصویربرداری پزشکی و زیستی
جمینای ۳ پرو [۱] به عنوان توانمندترین مدل عمومی ما برای درک تصاویر پزشکی و زیستی شناخته میشود و در بنچمارکهای عمومی و مهم مانند MedXpertQA-MM (یک آزمون استدلال پزشکی دشوار در سطح متخصص)، VQA-RAD (پرسش و پاسخ تصاویر رادیولوژی) و MicroVQA (بنچمارکهای استدلال چندوجهی برای تحقیقات بیولوژیکی میکروسکوپی) به عملکردی پیشرو دست یافته است.

حقوق و مالی
درک پیشرفته اسناد در جمینای ۳ پرو به متخصصان حوزه مالی و حقوقی کمک میکند تا با جریانهای کاری بسیار پیچیده مقابله کنند. پلتفرمهای مالی میتوانند گزارشهای فشرده پر از نمودار و جدول را به راحتی تحلیل کنند، و پلتفرمهای حقوقی از استدلال پیشرفته مدل روی اسناد بهرهمند میشوند.
«ما تحت تأثیر پیشرفتهای جمینای ۳ در استدلال حقوقی پیشرفته قرار گرفتیم، بهویژه توانایی آن در درک و ویرایش قراردادهایی با خطخوردگیهای (redlines) پیچیده. این ویژگی به دلیل حجم بالا و تنوع قراردادهای حقوقی مشتریان داخلی ما، بسیار ارزشمند بوده است.»
۶. کنترل رزولوشن مدیا (Media resolution control)
جمینای ۳ پرو روش پردازش ورودیهای بصری را با حفظ نسبت ابعاد اصلی (Aspect Ratio) تصاویر بهبود میبخشد. این کار باعث افزایش کیفیت چشمگیر در تمامی زمینهها میشود.
علاوه بر این، توسعهدهندگان از طریق پارامتر جدید media_resolution کنترل دقیقی بر عملکرد و هزینه خواهند داشت. این به شما اجازه میدهد تا میزان استفاده از توکنهای بصری را برای ایجاد تعادل بین دقت و هزینه تنظیم کنید:
- رزولوشن بالا (High resolution): حداکثر دقت برای کارهایی که نیاز به جزئیات دقیق دارند، مثل خواندن متون ریز (OCR متراکم) یا درک اسناد پیچیده.
- رزولوشن پایین (Low resolution): بهینهسازی برای هزینه و سرعت در کارهای سادهتر، مثل تشخیص کلی صحنه یا کارهایی با محتوای طولانی.

