نسل جدید بینایی هوشمند با Gemini ۳ Pro

تحریریه هوش مصنوعی سیمرغ

7 ماه ago

بینایی هوشمند با Gemini ۳ Pro؛ آینده‌ی Vision AI همین‌جا آغاز می‌شود

جمینای ۳ پرو (Gemini ۳ Pro) پیشرفته‌ترین عملکرد را در زمینه درک اسناد، درک فضایی، صفحه نمایش و ویدیو ارائه می‌دهد.

جمینای ۳ پرو نشان‌دهنده یک جهش نسلی از «تشخیص ساده تصاویر» به سمت «استدلال واقعی بصری و فضایی» است. این توانمندترین مدل چندمنظوره (Multimodal) ما تا به امروز است که در درک اسناد، محیط فیزیکی، صفحه نمایش رایانه و ویدیو، عملکردی خیره‌کننده و پیشرو دارد.

این مدل رکوردهای جدیدی را در بنچمارک‌های بینایی (مانند MMMU Pro و Video MMMU) برای استدلال‌های پیچیده بصری ثبت کرده است و همچنین در تست‌های تخصصی مربوط به اسناد، فضا، صفحه نمایش و ویدیوهای طولانی عملکردی عالی داشته است.

۱. درک اسناد (Document understanding)

اسناد در دنیای واقعی معمولاً نامرتب، بدون ساختار و خوانش آنها دشوار است. آن‌ها اغلب پر از تصاویر درهم‌آمیخته، دست‌خط‌های ناخوانا، جداول تودرتو، فرمول‌های پیچیده ریاضی و چیدمان‌های غیرخطی هستند. جمینای ۳ پرو یک جهش بزرگ در این زمینه محسوب می‌شود و در تمام مراحل پردازش سند؛ از تبدیل عکس به متن (OCR) با دقت بالا گرفته تا استدلال‌های تصویری پیچیده؛ عملکردی عالی دارد.

درک و دریافت هوشمند

برای اینکه یک مدل واقعاً یک سند را بفهمد، باید بتواند متن، جداول، فرمول‌های ریاضی، شکل‌ها و نمودارها را بدون توجه به نویز یا فرمت آن‌ها، با دقت تشخیص دهد.

یکی از قابلیت‌های بنیادی، توانایی «مهندسی معکوس تصویر» است؛ یعنی تبدیل یک سند تصویری به کدهای ساختاریافته (مثل HTML، LaTeX یا Markdown) که بتواند آن سند را بازسازی کند. همان‌طور که در مثال‌های زیر می‌بینید، جمینای ۳ درک دقیقی از انواع مختلف اسناد دارد؛ از تبدیل دفتر حساب‌وکتاب یک تاجر قرن هجدهمی به یک جدول پیچیده گرفته تا تبدیل یک تصویر خام با یادداشت‌های ریاضی به کد دقیق LaTeX.

جدول دست‌نویس پیچیده از دفترچه تاجر آلبانی در قرن ۱۸

بازسازی معادلات از روی یک تصویر

بازسازی نمودار دایره‌ای اصلی فلورانس نایتینگل به یک نمودار تعاملی

استدلال پیشرفته

کاربران می‌توانند روی جمینای ۳ برای انجام استدلال‌های پیچیده و چندمرحله‌ای در جداول و نمودارها — حتی در گزارش‌های طولانی — حساب کنند. در واقع، این مدل در بنچمارک استدلال CharXiv (با امتیاز ۸۰.۵٪) عملکردی بهتر از انسان دارد.

برای روشن شدن موضوع، تصور کنید کاربری در حال تحلیل گزارش ۶۲ صفحه‌ای اداره سرشماری آمریکا با عنوان «درآمد در ایالات متحده: ۲۰۲۲» است و این سوال را می‌پرسد:
«تغییرات درصدی سال ۲۰۲۱ تا ۲۰۲۲ را برای شاخص جینی در “درآمد پولی” و “درآمد پس از کسر مالیات” مقایسه کن. چه چیزی باعث اختلاف در معیار پس از کسر مالیات شده است؟ و در مورد “درآمد پولی”، آیا سهم پایین‌ترین دهک جامعه افزایش یافته یا کاهش؟»

برای دیدن استدلال گام‌به‌گام مدل، روی تصاویر زیر کلیک کنید…

(محل قرارگیری تصویر: استخراج بصری)
توضیح: برای پاسخ به سوال مقایسه شاخص جینی، جمینای اطلاعات را پیدا کرد: در شکل ۳ دید که “درآمد پولی ۱.۲ درصد کاهش یافته” و در جدول B-۳ دید که “درآمد پس از کسر مالیات ۳.۲ درصد افزایش یافته است”.

(محل قرارگیری تصویر: منطق علی و معلولی)
توضیح: نکته مهم اینجاست که جمینای ۳ فقط به اعداد بسنده نمی‌کند؛ او این فاصله را با تحلیل‌های متنی گزارش مرتبط می‌کند و به درستی تشخیص می‌دهد که “انقضای سیاست‌های ARPA” و “پایان پرداخت‌های حمایتی” دلایل اصلی این اختلاف هستند.

(محل قرارگیری تصویر: مقایسه عددی)
توضیح: برای مقایسه سهم پایین‌ترین دهک، جمینای ۳ به جدول A-۳ نگاه کرد، اعداد ۲.۹ و ۳.۰ را مقایسه کرد و نتیجه گرفت که “سهم مجموع درآمد خانوار که در اختیار پایین‌ترین دهک است، افزایش یافته است.”

(محل قرارگیری تصویر: پاسخ نهایی مدل)

۲. درک فضایی (Spatial understanding)

جمینای ۳ پرو قوی‌ترین مدل ما در زمینه درک فضایی تا به امروز است. ترکیب این قابلیت با قدرت استدلال بالا، به مدل اجازه می‌دهد تا دنیای فیزیکی را درک کند.

قابلیت اشاره کردن: جمینای ۳ می‌تواند با ارائه مختصات دقیق پیکسلی، به مکان‌های خاصی در تصاویر اشاره کند. زنجیره‌ای از نقاط دوبعدی می‌توانند برای کارهای پیچیده مثل تخمین حالت بدن انسان یا نشان دادن مسیر حرکت در طول زمان استفاده شوند.
درک اشیاء با زبان آزاد: جمینای ۳ اشیاء و نیت کاربر را با استفاده از دایره واژگان باز (Open vocabulary) شناسایی می‌کند. کاربرد مستقیم این ویژگی در رباتیک است: کاربر می‌تواند از یک ربات بخواهد نقشه‌ای فضایی بکشد، مثلاً: «با توجه به این میز به‌هم‌ریخته، برنامه‌ای برای دسته‌بندی زباله‌ها ارائه بده.» این قابلیت در دستگاه‌های واقعیت افزوده (AR/XR) هم کاربرد دارد؛ مثلاً کاربر می‌تواند بپرسد: «طبق دفترچه راهنما، به پیچ مورد نظر اشاره کن.»

۳. درک صفحه نمایش (Screen understanding)

درک فضایی جمینای ۳ پرو به طور ویژه‌ای در درک صفحه نمایش دسکتاپ و موبایل می‌درخشد. این قابلیت اطمینان‌بخش باعث می‌شود دستیارهای کامپیوتری به اندازه کافی قوی باشند تا کارهای تکراری را خودکار کنند. قابلیت‌های درک رابط کاربری (UI) همچنین می‌تواند کارهایی مثل تست کیفیت نرم‌افزار (QA)، آموزش کاربران جدید و تحلیل تجربه کاربری را ممکن سازد. دمو زیر نشان می‌دهد که مدل چگونه با دقت بالا صفحه را می‌بیند و کلیک می‌کند.

(محل قرارگیری ویدیو یا تصویر متحرک: دمو استفاده از کامپیوتر)
وظیفه: مجموع درآمد برای هر نوع تبلیغات را در یک شیت جدید (Sheet2) خلاصه کن، به طوری که نام تبلیغات به عنوان سرستون‌ها باشد و از ویژگی Pivot Table استفاده شود.

۴. درک ویدیو (Video understanding)

جمینای ۳ پرو جهشی بزرگ در نحوه درک ویدیو توسط هوش مصنوعی ایجاد کرده است؛ ویدیو پیچیده‌ترین فرمت داده‌ای است که با آن سروکار داریم زیرا متراکم، پویا، چندوجهی و پر از محتواست.

۱. درک با نرخ فریم بالا: ما مدل را بهینه کرده‌ایم تا در درک حرکات سریع (زمانی که با سرعت بیش از ۱ فریم بر ثانیه نمونه‌برداری می‌شود) بسیار قوی‌تر باشد. جمینای ۳ پرو می‌تواند جزئیات سریع را ثبت کند — که برای کارهایی مثل تحلیل مکانیسم ضربه در گلف حیاتی است.

با پردازش ویدیو در ۱۰ فریم بر ثانیه — یعنی ۱۰ برابر سرعت پیش‌فرض — جمینای ۳ پرو هر نوسان و تغییر وزن را می‌گیرد و بینش عمیقی از مکانیسم بدن بازیکن ارائه می‌دهد.

۲. استدلال ویدیویی با حالت «تفکر»: ما حالت «تفکر» (Thinking mode) را ارتقا داده‌ایم تا فراتر از تشخیص اشیاء برود و به استدلال واقعی ویدیویی برسد. مدل اکنون می‌تواند روابط علت و معلولی پیچیده را در طول زمان بهتر ردیابی کند. به جای اینکه فقط بگوید چه چیزی در حال رخ دادن است، می‌فهمد چرا آن اتفاق می‌افتد.

۳. تبدیل ویدیوهای طولانی به عمل: جمینای ۳ پرو شکاف بین ویدیو و کدنویسی را پر می‌کند. این مدل می‌تواند دانش را از محتوای طولانی استخراج کرده و بلافاصله آن را به برنامه‌های کاربردی یا کدهای ساختاریافته تبدیل کند.

۵. کاربردهای دنیای واقعی

در اینجا چند مورد از روش‌هایی که فکر می‌کنیم حوزه‌های مختلف می‌توانند از قابلیت‌های جمینای ۳ بهره‌مند شوند، آورده شده است.

آموزش

قابلیت‌های بینایی ارتقا یافته جمینای ۳ پرو پیشرفت‌های قابل توجهی را در زمینه آموزش، به ویژه برای سوالات مبتنی بر نمودار در ریاضی و علوم ایجاد می‌کند. این مدل با موفقیت طیف کاملی از مسائل استدلالی چندوجهی را از دوره راهنمایی تا دانشگاه حل می‌کند. این شامل معماهای استدلال تصویری (مانند ریاضیات کانگورو) و نمودارهای پیچیده شیمی و فیزیک می‌شود.

هوش بصری جمینای ۳ همچنین قدرت قابلیت‌های تولیدی Nano Banana Pro را تامین می‌کند. برای مثال، با ترکیب استدلال پیشرفته و تولید دقیق محتوا، این مدل می‌تواند به کاربران کمک کند تا دقیقاً بفهمند کجای حل تمرین‌شان اشتباه بوده است.

درخواست کاربر (Prompt): «این عکس تلاش من برای حل تکلیف است. لطفاً مراحل مرا بررسی کن و بگو کجا اشتباه کردم. به جای توضیح متنی، روی تصویر خودم به صورت بصری نشان بده.» (نکته: کار دانش‌آموز با رنگ آبی و اصلاحات مدل با رنگ قرمز نشان داده شده است).

تصویربرداری پزشکی و زیستی

جمینای ۳ پرو [۱] به عنوان توانمندترین مدل عمومی ما برای درک تصاویر پزشکی و زیستی شناخته می‌شود و در بنچمارک‌های عمومی و مهم مانند MedXpertQA-MM (یک آزمون استدلال پزشکی دشوار در سطح متخصص)، VQA-RAD (پرسش و پاسخ تصاویر رادیولوژی) و MicroVQA (بنچمارک‌های استدلال چندوجهی برای تحقیقات بیولوژیکی میکروسکوپی) به عملکردی پیشرو دست یافته است.

حقوق و مالی

درک پیشرفته اسناد در جمینای ۳ پرو به متخصصان حوزه مالی و حقوقی کمک می‌کند تا با جریان‌های کاری بسیار پیچیده مقابله کنند. پلتفرم‌های مالی می‌توانند گزارش‌های فشرده پر از نمودار و جدول را به راحتی تحلیل کنند، و پلتفرم‌های حقوقی از استدلال پیشرفته مدل روی اسناد بهره‌مند می‌شوند.

«ما تحت تأثیر پیشرفت‌های جمینای ۳ در استدلال حقوقی پیشرفته قرار گرفتیم، به‌ویژه توانایی آن در درک و ویرایش قراردادهایی با خط‌خوردگی‌های (redlines) پیچیده. این ویژگی به دلیل حجم بالا و تنوع قراردادهای حقوقی مشتریان داخلی ما، بسیار ارزشمند بوده است.»

۶. کنترل رزولوشن مدیا (Media resolution control)

جمینای ۳ پرو روش پردازش ورودی‌های بصری را با حفظ نسبت ابعاد اصلی (Aspect Ratio) تصاویر بهبود می‌بخشد. این کار باعث افزایش کیفیت چشمگیر در تمامی زمینه‌ها می‌شود.

علاوه بر این، توسعه‌دهندگان از طریق پارامتر جدید media_resolution کنترل دقیقی بر عملکرد و هزینه خواهند داشت. این به شما اجازه می‌دهد تا میزان استفاده از توکن‌های بصری را برای ایجاد تعادل بین دقت و هزینه تنظیم کنید:

رزولوشن بالا (High resolution): حداکثر دقت برای کارهایی که نیاز به جزئیات دقیق دارند، مثل خواندن متون ریز (OCR متراکم) یا درک اسناد پیچیده.
رزولوشن پایین (Low resolution): بهینه‌سازی برای هزینه و سرعت در کارهای ساده‌تر، مثل تشخیص کلی صحنه یا کارهایی با محتوای طولانی.