هوش مصنوعی که فضا را میفهمد؛ مدل DAP و آینده درک سهبعدی جهان
دنیای ما سهبعدی است، اما دوربینها آن را دوبعدی میبینند. این چالش زمانی پیچیدهتر میشود که بخواهیم محیط را بهصورت کامل و ۳۶۰ درجه (پانوراما) درک کنیم. رباتهای پرنده، خودروهای خودران و هدستهای واقعیت مجازی (VR) برای تعامل با محیط، تنها به دانستن اینکه “یک شیء دور است یا نزدیک” نیاز ندارند؛ آنها باید بدانند آن شیء دقیقاً چند متر فاصله دارد.
پژوهشگران بهتازگی با معرفی مدلی به نام DAP (Depth Any Panorama)، پاسخی قدرتمند به این نیاز دادهاند. این مدل یک «مدل بنیادین» (Foundation Model) است که استانداردهای جدیدی را در تخمین عمق متریک تصاویر پانوراما تعریف کرده است.
در این مقاله، معماری، روش آموزش و نوآوریهای این پژوهش را تحلیل میکنیم.
چالش اصلی: چرا داشتن دید ۳۶۰ درجه برای ماشین دشوار است؟
تا پیش از این، مدلهای هوش مصنوعی (مانند Depth Anything) عملکرد خیرهکنندهای در تصاویر معمولی (پرسپکتیو) داشتند. اما وقتی نوبت به تصاویر پانوراما میرسید، با دو مانع بزرگ روبرو میشدند:
- اعوجاج هندسی: وقتی یک محیط کروی روی یک تصویر تخت پهن میشود (مثل نقشه جهاننما)، لبهها کشیده و دفرمه میشوند.
- کمبود داده: جمعآوری دادههای پانوراما که برچسب دقیق فاصله (Depth Map) داشته باشند، بسیار پرهزینه و دشوار است.
مدلهای قبلی یا فقط روی محیط بسته (Indoor) تمرکز داشتند یا نمیتوانستند فاصله دقیق (متریک) را در محیطهای باز (Outdoor) تشخیص دهند.
راهکار مدل DAP: موتور داده ۲ میلیونی
تیم سازنده DAP بجای تمرکز صرف روی معماری شبکه، پارادایم Data-in-the-Loop را پیش گرفتند. آنها معتقد بودند که کلید حل معما، در ساخت دادههای بهتر است. آنها بزرگترین مجموعه داده جهان برای عمق پانوراما را با نام DAP-2M ساختند که شامل موارد زیر است:
- دادههای مصنوعی دقیق (Simulated): استفاده از موتور گرافیکی Unreal Engine 5 و شبیهساز AirSim360 برای تولید ۹۰ هزار تصویر محیط باز با نورپردازی و جزئیات فوقواقعگرایانه.
- دادههای واقعی وب (Web-Crawled): جمعآوری ۱.۷ میلیون تصویر پانوراما از اینترنت.
- تولید با هوش مصنوعی مولد: استفاده از مدلهای تولید تصویر برای ساخت ۲۰۰ هزار تصویر محیط داخلی.
این ترکیب هوشمندانه، تنوع بیپایان دنیای واقعی را با دقت ریاضیاتی دنیای شبیهسازیشده ترکیب کرد.
پایپلاین آموزشی سه مرحلهای (The Three-Stage Pipeline)
نوآوری اصلی DAP در نحوه آموزش آن است. پژوهشگران برای اینکه مدل را از دنیای شبیهسازیشده (مصنوعی) به دنیای واقعی منتقل کنند، یک فرآیند سه مرحلهای طراحی کردند:
مرحله ۱: آموزشدهنده مستقل از صحنه (Scene-Invariant Labeler)
ابتدا مدل با دادههای شبیهسازیشده (که فاصله دقیق هر پیکسل در آنها مشخص است) آموزش میبیند. این مدل یاد میگیرد ساختار کلی فضا را درک کند، اما هنوز با بافتهای پیچیده دنیای واقعی غریبه است.
مرحله ۲: آموزشدهنده مستقل از واقعگرایی (Realism-Invariant Labeler)
این مرحله شاهکار مهندسی است. مدل با ۱.۹ میلیون تصویر واقعی (بدون برچسب) روبرو میشود. یک سیستم «تمیزکننده» (Discriminator) وارد عمل شده و ۶۰۰ هزار تصویر را که مدل توانسته عمق آنها را با اطمینان بالا حدس بزند، جدا میکند. اینها بهعنوان «شبهبرچسب» (Pseudo-labels) معتبر شناخته میشوند تا شکاف بین گرافیک کامپیوتری و عکس واقعی پر شود.
گالری عملکرد روی تصاویر(روی تصاویر کلیک کنید.)






مرحله ۳: آموزش نهایی DAP
در نهایت، مدل اصلی با ترکیبی از تمام دادههای مصنوعی دقیق و دادههای واقعیِ برچسبگذاری شده، آموزش میبیند.
معماری فنی مدل DAP: DINOv3 و کنترل هندسه
مغز متفکر این مدل، شبکه عصبی قدرتمند DINOv3-Large است. اما اضافه کردن چند ماژول تخصصی، DAP را متمایز کرده است:
- ماژول Range Mask: یک سیستم هوشمند که فواصل مختلف (۱۰، ۲۰، ۵۰ و ۱۰۰ متر) را مدیریت میکند تا مدل در تشخیص آسمان یا اشیاء بسیار دور دچار خطا نشود.
- بهینهسازی هندسی: توابع خطایی (Loss functions) که مدل را مجبور میکنند نه تنها فاصله، بلکه لبههای تیز اشیاء و ساختار هندسی محیط را هم حفظ کند.
نتایج: مدل DAP پادشاه جدید بنچمارکها
در تستهای انجام شده روی مجموعه دادههای استاندارد (مانند Stanford2D3D و Matterport3D)، مدل DAP توانست رقبا را کنار بزند.
- قابلیت Zero-Shot: این مدل بدون نیاز به آموزش مجدد روی محیط جدید، میتواند بلافاصله در محیطهای ناشناخته کار کند.
- دقت متریک: برخلاف مدلهایی که فقط میگویند «این میز جلوتر از آن دیوار است»، DAP میگوید «این میز دقیقاً ۳.۵ متر با دوربین فاصله دارد».
- عملکرد در محیط باز: در تستهای Deep360، این مدل توانست برتری قاطعی نسبت به رقبا (مانند UniK3D و DAC) نشان دهد، بهویژه در تشخیص فواصل دور و آسمان.
نتیجهگیری
پروژه DAP نشان داد که برای حل مسائل پیچیده هوش مصنوعی، همیشه نیاز به الگوریتمهای پیچیدهتر نیست؛ گاهی اوقات راهحل در مهندسی هوشمندانه دادهها و طراحی یک پروسه آموزشی مرحلهبهمرحله است. این مدل راه را برای نسل جدیدی از رباتهای هوشمند و سیستمهای ناوبری باز میکند که جهان را نه بهصورت یک تصویر تخت، بلکه بهصورت یک فضای سهبعدی واقعی و قابل اندازهگیری میبینند.
سوالات متداول (FAQ)
مدل DAP چیست و چه مسئلهای را حل میکند؟
DAP یک مدل هوش مصنوعی برای تخمین عمق متریک در تصاویر پانورامای ۳۶۰ درجه است که مشکل تشخیص دقیق فاصله در صحنههای متنوع و واقعی را برطرف میکند.
عمق متریک به چه معناست و چرا مهم است؟
عمق متریک یعنی تخمین فاصله واقعی اجسام بر حسب متر، نه صرفاً مقایسه نسبی نزدیک و دور. این موضوع برای کاربردهای عملی مثل ناوبری رباتها حیاتی است.
چه چیزی DAP را از مدلهای قبلی متمایز میکند؟
ترکیب یک مجموعهداده بسیار بزرگ، پایپلاین سهمرحلهای شبهبرچسبگذاری و معماری قدرتمند مبتنی بر DINOv3 باعث تعمیمپذیری بهتر این مدل شده است.
دادههای مصنوعی چه نقشی در آموزش این مدل دارند؟
دادههای شبیهسازیشده با UE5 به افزایش تنوع صحنهها کمک کرده و کمبود دادههای واقعی برچسبخورده را جبران میکنند.
این مدل در چه حوزههایی کاربرد دارد؟
DAP میتواند در رباتیک، ناوبری هوشمند، سیستمهای خودران و درک فضایی ۳۶۰ درجه استفاده شود.
آیا DAP در محیطهای واقعی عملکرد قابل اعتمادی دارد؟
بله، نتایج آزمایشها نشان میدهد این مدل در صحنههای واقعی و پیچیده، پیشبینیهای عمق پایدار و دقیقی ارائه میدهد.

