یک قدم تا درک واقعی فضا؛ مدل DAP چگونه عمق جهان را دقیق می‌بیند؟

تحریریه هوش مصنوعی سیمرغ

5 ماه ago

هوش مصنوعی که فضا را می‌فهمد؛ مدل DAP و آینده درک سه‌بعدی جهان

دنیای ما سه‌بعدی است، اما دوربین‌ها آن را دو‌بعدی می‌بینند. این چالش زمانی پیچیده‌تر می‌شود که بخواهیم محیط را به‌صورت کامل و ۳۶۰ درجه (پانوراما) درک کنیم. ربات‌های پرنده، خودروهای خودران و هدست‌های واقعیت مجازی (VR) برای تعامل با محیط، تنها به دانستن اینکه “یک شیء دور است یا نزدیک” نیاز ندارند؛ آن‌ها باید بدانند آن شیء دقیقاً چند متر فاصله دارد.

پژوهشگران به‌تازگی با معرفی مدلی به نام DAP (Depth Any Panorama)، پاسخی قدرتمند به این نیاز داده‌اند. این مدل یک «مدل بنیادین» (Foundation Model) است که استانداردهای جدیدی را در تخمین عمق متریک تصاویر پانوراما تعریف کرده است.

در این مقاله، معماری، روش آموزش و نوآوری‌های این پژوهش را تحلیل می‌کنیم.

چالش اصلی: چرا داشتن دید ۳۶۰ درجه برای ماشین دشوار است؟

تا پیش از این، مدل‌های هوش مصنوعی (مانند Depth Anything) عملکرد خیره‌کننده‌ای در تصاویر معمولی (پرسپکتیو) داشتند. اما وقتی نوبت به تصاویر پانوراما می‌رسید، با دو مانع بزرگ روبرو می‌شدند:

اعوجاج هندسی: وقتی یک محیط کروی روی یک تصویر تخت پهن می‌شود (مثل نقشه جهان‌نما)، لبه‌ها کشیده و دفرمه می‌شوند.
کمبود داده: جمع‌آوری داده‌های پانوراما که برچسب دقیق فاصله (Depth Map) داشته باشند، بسیار پرهزینه و دشوار است.

مدل‌های قبلی یا فقط روی محیط بسته (Indoor) تمرکز داشتند یا نمی‌توانستند فاصله دقیق (متریک) را در محیط‌های باز (Outdoor) تشخیص دهند.

راهکار مدل DAP: موتور داده ۲ میلیونی

تیم سازنده DAP بجای تمرکز صرف روی معماری شبکه، پارادایم Data-in-the-Loop را پیش گرفتند. آن‌ها معتقد بودند که کلید حل معما، در ساخت داده‌های بهتر است. آن‌ها بزرگترین مجموعه داده جهان برای عمق پانوراما را با نام DAP-2M ساختند که شامل موارد زیر است:

داده‌های مصنوعی دقیق (Simulated): استفاده از موتور گرافیکی Unreal Engine 5 و شبیه‌ساز AirSim360 برای تولید ۹۰ هزار تصویر محیط باز با نورپردازی و جزئیات فوق‌واقع‌گرایانه.
داده‌های واقعی وب (Web-Crawled): جمع‌آوری ۱.۷ میلیون تصویر پانوراما از اینترنت.
تولید با هوش مصنوعی مولد: استفاده از مدل‌های تولید تصویر برای ساخت ۲۰۰ هزار تصویر محیط داخلی.

این ترکیب هوشمندانه، تنوع بی‌پایان دنیای واقعی را با دقت ریاضیاتی دنیای شبیه‌سازی‌شده ترکیب کرد.

پایپلاین آموزشی سه مرحله‌ای (The Three-Stage Pipeline)

نوآوری اصلی DAP در نحوه آموزش آن است. پژوهشگران برای اینکه مدل را از دنیای شبیه‌سازی‌شده (مصنوعی) به دنیای واقعی منتقل کنند، یک فرآیند سه مرحله‌ای طراحی کردند:

مرحله ۱: آموزش‌دهنده مستقل از صحنه (Scene-Invariant Labeler)

ابتدا مدل با داده‌های شبیه‌سازی‌شده (که فاصله دقیق هر پیکسل در آن‌ها مشخص است) آموزش می‌بیند. این مدل یاد می‌گیرد ساختار کلی فضا را درک کند، اما هنوز با بافت‌های پیچیده دنیای واقعی غریبه است.

مرحله ۲: آموزش‌دهنده مستقل از واقع‌گرایی (Realism-Invariant Labeler)

این مرحله شاهکار مهندسی است. مدل با ۱.۹ میلیون تصویر واقعی (بدون برچسب) روبرو می‌شود. یک سیستم «تمیزکننده» (Discriminator) وارد عمل شده و ۶۰۰ هزار تصویر را که مدل توانسته عمق آن‌ها را با اطمینان بالا حدس بزند، جدا می‌کند. این‌ها به‌عنوان «شبه‌برچسب» (Pseudo-labels) معتبر شناخته می‌شوند تا شکاف بین گرافیک کامپیوتری و عکس واقعی پر شود.

گالری عملکرد روی تصاویر(روی تصاویر کلیک کنید.)

مرحله ۳: آموزش نهایی DAP

در نهایت، مدل اصلی با ترکیبی از تمام داده‌های مصنوعی دقیق و داده‌های واقعیِ برچسب‌گذاری شده، آموزش می‌بیند.

معماری فنی مدل DAP: DINOv3 و کنترل هندسه

مغز متفکر این مدل، شبکه عصبی قدرتمند DINOv3-Large است. اما اضافه کردن چند ماژول تخصصی، DAP را متمایز کرده است:

ماژول Range Mask: یک سیستم هوشمند که فواصل مختلف (۱۰، ۲۰، ۵۰ و ۱۰۰ متر) را مدیریت می‌کند تا مدل در تشخیص آسمان یا اشیاء بسیار دور دچار خطا نشود.
بهینه‌سازی هندسی: توابع خطایی (Loss functions) که مدل را مجبور می‌کنند نه تنها فاصله، بلکه لبه‌های تیز اشیاء و ساختار هندسی محیط را هم حفظ کند.

نتایج: مدل DAP پادشاه جدید بنچمارک‌ها

در تست‌های انجام شده روی مجموعه داده‌های استاندارد (مانند Stanford2D3D و Matterport3D)، مدل DAP توانست رقبا را کنار بزند.

قابلیت Zero-Shot: این مدل بدون نیاز به آموزش مجدد روی محیط جدید، می‌تواند بلافاصله در محیط‌های ناشناخته کار کند.
دقت متریک: برخلاف مدل‌هایی که فقط می‌گویند «این میز جلوتر از آن دیوار است»، DAP می‌گوید «این میز دقیقاً ۳.۵ متر با دوربین فاصله دارد».
عملکرد در محیط باز: در تست‌های Deep360، این مدل توانست برتری قاطعی نسبت به رقبا (مانند UniK3D و DAC) نشان دهد، به‌ویژه در تشخیص فواصل دور و آسمان.

نتیجه‌گیری

پروژه DAP نشان داد که برای حل مسائل پیچیده هوش مصنوعی، همیشه نیاز به الگوریتم‌های پیچیده‌تر نیست؛ گاهی اوقات راه‌حل در مهندسی هوشمندانه داده‌ها و طراحی یک پروسه آموزشی مرحله‌به‌مرحله است. این مدل راه را برای نسل جدیدی از ربات‌های هوشمند و سیستم‌های ناوبری باز می‌کند که جهان را نه به‌صورت یک تصویر تخت، بلکه به‌صورت یک فضای سه‌بعدی واقعی و قابل اندازه‌گیری می‌بینند.

سوالات متداول (FAQ)

مدل DAP چیست و چه مسئله‌ای را حل می‌کند؟
DAP یک مدل هوش مصنوعی برای تخمین عمق متریک در تصاویر پانورامای ۳۶۰ درجه است که مشکل تشخیص دقیق فاصله در صحنه‌های متنوع و واقعی را برطرف می‌کند.

عمق متریک به چه معناست و چرا مهم است؟
عمق متریک یعنی تخمین فاصله واقعی اجسام بر حسب متر، نه صرفاً مقایسه نسبی نزدیک و دور. این موضوع برای کاربردهای عملی مثل ناوبری ربات‌ها حیاتی است.

چه چیزی DAP را از مدل‌های قبلی متمایز می‌کند؟
ترکیب یک مجموعه‌داده بسیار بزرگ، پایپ‌لاین سه‌مرحله‌ای شبه‌برچسب‌گذاری و معماری قدرتمند مبتنی بر DINOv3 باعث تعمیم‌پذیری بهتر این مدل شده است.

داده‌های مصنوعی چه نقشی در آموزش این مدل دارند؟
داده‌های شبیه‌سازی‌شده با UE5 به افزایش تنوع صحنه‌ها کمک کرده و کمبود داده‌های واقعی برچسب‌خورده را جبران می‌کنند.

این مدل در چه حوزه‌هایی کاربرد دارد؟
DAP می‌تواند در رباتیک، ناوبری هوشمند، سیستم‌های خودران و درک فضایی ۳۶۰ درجه استفاده شود.

آیا DAP در محیط‌های واقعی عملکرد قابل اعتمادی دارد؟
بله، نتایج آزمایش‌ها نشان می‌دهد این مدل در صحنه‌های واقعی و پیچیده، پیش‌بینی‌های عمق پایدار و دقیقی ارائه می‌دهد.