V-JEPA 2 مدل جدید متا: هوش مصنوعی متا با تماشای یک میلیون ساعت ویدیو، دنیا را میآموزد
شرکت متا از یک مدل هوش مصنوعی جدید به نام V-JEPA 2 رونمایی کرده است که میتواند با مشاهده حجم عظیمی از دادههای ویدیویی، به درک عمیقی از دنیای فیزیکی دست یابد، آینده را پیشبینی کند و حتی برای رباتها برنامهریزی کند. این دستاورد گامی مهم در مسیر ساخت سیستمهای هوشمندی است که مانند انسانها، عمدتاً از طریق مشاهده یاد میگیرند و قادر به تعامل با محیطهای جدید و ناآشنا هستند.
این مقاله که در تاریخ ۱۰ ژوئن ۲۰۲۵ منتشر شده است ، نشان میدهد چگونه میتوان با ترکیب دادههای ویدیویی اینترنتی در مقیاس بزرگ و مقدار کمی دادههای تعاملی ربات، یک مدل سراسری(World Model) ساخت که پایهای برای نسل بعدی هوش مصنوعی خواهد بود.
V-JEPA 2 چیست و چگونه یاد میگیرد؟
یکی از چالشهای اصلی هوش مصنوعی مدرن، یادگیری درک جهان و نحوه عمل در آن از طریق مشاهده است. V-JEPA 2 بر اساس یک معماری یادگیری خودنظارتی به نام معماری پیشبینی-تعبیهسازی مشترک (JEPA) کار میکند. برخلاف مدلهای مولد که سعی در پیشبینی تکتک پیکسلهای یک ویدیو دارند (مثلاً جزئیات برگهای یک درخت)، رویکرد JEPA بر یادگیری بازنماییهای انتزاعی از جنبههای قابل پیشبینی یک صحنه تمرکز میکند.
به زبان ساده، این مدل با مشاهده بخشهایی از یک ویدیو، تلاش میکند تا بازنمایی (representation) بخشهای پنهانشده یا ماسکگذاریشده آن را پیشبینی کند. این فرآیند به مدل اجازه میدهد تا قوانین فیزیکی و پویایی جهان را بدون نیاز به برچسبگذاری دستی و به شکلی کارآمد بیاموزد.
این مدل در مرحله اول روی یک مجموعه داده عظیم شامل بیش از ۱ میلیون ساعت ویدیوی اینترنتی و ۱ میلیون تصویر پیشآموزش داده شده است.
دستورالعمل موفقیت: چهار عنصر کلیدی در مقیاسپذیری
محققان برای دستیابی به عملکرد چشمگیر V-JEPA 2، چهار عامل کلیدی را بهبود بخشیدند که تأثیر مستقیم بر افزایش دقت مدل داشته است.
- مقیاسپذیری داده (Data Scaling): افزایش حجم مجموعه داده از ۲ میلیون به ۲۲ میلیون ویدیو، بهبود قابل توجهی در عملکرد ایجاد کرد.
- مقیاسپذیری مدل (Model Scaling): معماری انکودر از ۳۰۰ میلیون پارامتر به بیش از ۱ میلیارد پارامتر افزایش یافت.
- آموزش طولانیتر (Longer Training): افزایش تعداد تکرارهای آموزش از ۹۰ هزار به ۲۵۲ هزار، به بهرهبرداری مؤثرتر از دادههای اضافی کمک کرد.
- رزولوشن بالاتر (Higher Resolution): استفاده از یک استراتژی آموزشی پیشرونده، امکان آموزش کارآمد با ویدیوهای طولانیتر و رزولوشن بالاتر را فراهم کرد.
تأثیر هر یک از این مداخلات در جدول زیر خلاصه شده است که میانگین دقت در شش وظیفه طبقهبندی را نشان میدهد.
مداخله (Intervention) | میانگین دقت (Average Accuracy) | بهبود نسبت به مرحله قبل |
---|---|---|
خط پایه VJEPA 1 | ۸۴.۲% | – |
+ مقیاسپذیری داده | ۸۵.۲% | ۱.۰+ امتیاز |
+ مقیاسپذیری مدل | ۸۶.۷% | ۱.۵+ امتیاز |
+ آموزش طولانیتر | ۸۷.۵% | ۰.۸+ امتیاز |
+ رزولوشن بالاتر | ۸۸.۲% | ۰.۷+ امتیاز |
V-JEPA 2 در عمل: یک تهدید سهگانه
این مدل در سه حوزه اصلی تواناییهای خود را به نمایش میگذارد: درک، پیشبینی و برنامهریزی.
۱. درک عمیق ویدیو (Understanding)
V-JEPA 2 توانایی فوقالعادهای در درک محتوای بصری دارد، به ویژه در وظایفی که نیازمند فهم حرکت هستند.
- طبقهبندی کنش: این مدل در مجموعه داده Something-Something v2 که نیازمند درک دقیق حرکت است، به دقت ۷۷.۳% در طبقهبندی top-1 دست یافت.
- پاسخ به سوالات ویدیویی (Video QA): پس از همراستاسازی با یک مدل زبان بزرگ (LLM)، V-JEPA 2 در چندین بنچمارک درک دنیای فیزیکی و استدلال زمانی به عملکردی پیشرفته در کلاس مدلهای ۸ میلیارد پارامتری دست یافت. برای مثال، در بنچمارک Perception Test به دقت ۸۴.۰% و در TempCompass به دقت ۷۶.۹% رسید. این نشان میدهد که یک انکودر ویدیویی که بدون نظارت زبان آموزش دیده، میتواند با موفقیت با یک LLM همراستا شود و به نتایج پیشرفتهای دست یابد.
۲. پیشبینی آینده (Prediction)
توانایی پیشبینی اقدامات آینده یکی از نقاط قوت کلیدی V-JEPA 2 است.
- پیشبینی کنش انسان: در بنچمارک چالشبرانگیز Epic-Kitchens-100، این مدل به رکورد ۳۹.۷% recall-at-5 دست یافت که یک بهبود نسبی ۴۴ درصدی نسبت به بهترین مدل قبلی محسوب میشود. این مدل میتواند با مشاهده چند ثانیه از فعالیت یک فرد در آشپزخانه، عمل بعدی او (مانند “برداشتن چاقو” یا “بستن در”) را با دقت بالایی پیشبینی کند.
۳. برنامهریزی برای دنیای واقعی (Planning)
شگفتانگیزترین قابلیت V-JEPA 2، استفاده از آن برای برنامهریزی رباتیک است. محققان یک نسخه شرطیشده بر عمل (Action-Conditioned) به نام V-JEPA 2-AC را توسعه دادند.
- آموزش کارآمد: این مدل تنها با استفاده از کمتر از ۶۲ ساعت ویدیوی ربات بدون برچسب از مجموعه داده Droid آموزش دیده است.
- استقرار صفر-شات (Zero-shot): V-JEPA 2-AC به صورت صفر-شات (بدون هیچگونه آموزش اضافی یا جمعآوری داده در محیط جدید) روی بازوهای رباتیک Franka در دو آزمایشگاه مختلف مستقر شد.
- انجام وظایف: رباتها تنها با دریافت یک تصویر از حالت نهایی (Goal Image)، توانستند وظایف برداشتن و جابجایی اشیاء (Pick-and-Place) را با موفقیت انجام دهند. این کار بدون هیچگونه آموزش خاص برای وظیفه یا سیگنال پاداش صورت گرفت.
V-JEPA 2-AC در مقابل رقبا: یک مقایسه عملی
عملکرد V-JEPA 2-AC در وظایف رباتیک با دو مدل دیگر مقایسه شد: یک مدل مبتنی بر کلونسازی رفتار (Octo) و یک مدل سراسری مبتنی بر تولید ویدیو (Cosmos). نتایج نشاندهنده برتری قابل توجه V-JEPA 2-AC است.
جدول مقایسه نرخ موفقیت در وظایف رباتیک (میانگین دو آزمایشگاه)
روش | رسیدن (Reach) | گرفتن فنجان (Grasp Cup) | گرفتن جعبه (Grasp Box) | جابجایی فنجان (P&P Cup) | جابجایی جعبه (P&P Box) |
---|---|---|---|---|---|
Octo | ۱۰۰% | ۱۵% | ۰% | ۱۵% | ۱۰% |
V-JEPA 2-AC (ما) | ۱۰۰% | ۶۵% | ۲۵% | ۸۰% | ۶۵% |
علاوه بر نرخ موفقیت بالاتر، V-JEPA 2-AC از نظر محاسباتی نیز بسیار کارآمدتر است. در حالی که برنامهریزی یک عمل با مدل Cosmos حدود ۴ دقیقه زمان میبرد، مدل V-JEPA 2-AC همین کار را تنها در ۱۶ ثانیه انجام میدهد و به عملکرد بهتری نیز دست مییابد.
چالشها و آینده پیش رو
با وجود نتایج امیدوارکننده، این تحقیق با محدودیتهایی نیز روبروست که مسیر تحقیقات آینده را مشخص میکند:
- حساسیت به موقعیت دوربین: عملکرد مدل تا حدی به زاویه دوربین وابسته است و باید به طور ضمنی محورهای مختصات را از ورودی دوربین استنتاج کند.
- برنامهریزی بلندمدت: برنامهریزی برای افقهای زمانی طولانی بدون نیاز به اهداف میانی (sub-goals) همچنان یک چالش است، زیرا خطاهای پیشبینی در طول زمان انباشته میشوند.
- وابستگی به اهداف تصویری: در حال حاضر، اهداف به صورت تصویر به مدل داده میشوند. گام بعدی، فعال کردن تعیین اهداف از طریق زبان طبیعی است.
نتیجهگیری
V-JEPA 2 یک گام مهم به سوی ساخت مدلهای سراسری پیشرفته است که میتوانند به طور مؤثری دنیای اطراف خود را درک کرده و در محیط واقعی عملکرد درست و دقیق از خود به نمایش بگذارند. این تحقیق نشان میدهد که یادگیری خودنظارتی در مقیاس وب، همراه با حجم کمی از دادههای تعاملی، میتواند پایهای قدرتمند برای ساخت سیستمهای هوش مصنوعی توانمند در درک، پیشبینی و برنامهریزی در دنیای فیزیکی فراهم کند. این رویکرد نه تنها در وظایف درک بصری به نتایج پیشرفتهای دست یافته ، بلکه پتانسیل خود را برای کنترل رباتهای دنیای واقعی به صورت صفر-شات نیز به اثبات رسانده است.