V-JEPA 2 مدل جدید متا

0

V-JEPA 2 مدل جدید متا: هوش مصنوعی متا با تماشای یک میلیون ساعت ویدیو، دنیا را می‌آموزد

شرکت متا از یک مدل هوش مصنوعی جدید به نام V-JEPA 2 رونمایی کرده است که می‌تواند با مشاهده حجم عظیمی از داده‌های ویدیویی، به درک عمیقی از دنیای فیزیکی دست یابد، آینده را پیش‌بینی کند و حتی برای ربات‌ها برنامه‌ریزی کند. این دستاورد گامی مهم در مسیر ساخت سیستم‌های هوشمندی است که مانند انسان‌ها، عمدتاً از طریق مشاهده یاد می‌گیرند و قادر به تعامل با محیط‌های جدید و ناآشنا هستند.

این مقاله که در تاریخ ۱۰ ژوئن ۲۰۲۵ منتشر شده است ، نشان می‌دهد چگونه می‌توان با ترکیب داده‌های ویدیویی اینترنتی در مقیاس بزرگ و مقدار کمی داده‌های تعاملی ربات، یک مدل سراسری(World Model) ساخت که پایه‌ای برای نسل بعدی هوش مصنوعی خواهد بود.

V-JEPA 2 چیست و چگونه یاد می‌گیرد؟

یکی از چالش‌های اصلی هوش مصنوعی مدرن، یادگیری درک جهان و نحوه عمل در آن از طریق مشاهده است. V-JEPA 2 بر اساس یک معماری یادگیری خودنظارتی به نام معماری پیش‌بینی-تعبیه‌سازی مشترک (JEPA) کار می‌کند. برخلاف مدل‌های مولد که سعی در پیش‌بینی تک‌تک پیکسل‌های یک ویدیو دارند (مثلاً جزئیات برگ‌های یک درخت)، رویکرد JEPA بر یادگیری بازنمایی‌های انتزاعی از جنبه‌های قابل پیش‌بینی یک صحنه تمرکز می‌کند.

به زبان ساده، این مدل با مشاهده بخش‌هایی از یک ویدیو، تلاش می‌کند تا بازنمایی (representation) بخش‌های پنهان‌شده یا ماسک‌گذاری‌شده آن را پیش‌بینی کند. این فرآیند به مدل اجازه می‌دهد تا قوانین فیزیکی و پویایی جهان را بدون نیاز به برچسب‌گذاری دستی و به شکلی کارآمد بیاموزد.

این مدل در مرحله اول روی یک مجموعه داده عظیم شامل بیش از ۱ میلیون ساعت ویدیوی اینترنتی و ۱ میلیون تصویر پیش‌آموزش داده شده است.

دستورالعمل موفقیت: چهار عنصر کلیدی در مقیاس‌پذیری

محققان برای دستیابی به عملکرد چشمگیر V-JEPA 2، چهار عامل کلیدی را بهبود بخشیدند که تأثیر مستقیم بر افزایش دقت مدل داشته است.

  1. مقیاس‌پذیری داده (Data Scaling): افزایش حجم مجموعه داده از ۲ میلیون به ۲۲ میلیون ویدیو، بهبود قابل توجهی در عملکرد ایجاد کرد.
  2. مقیاس‌پذیری مدل (Model Scaling): معماری انکودر از ۳۰۰ میلیون پارامتر به بیش از ۱ میلیارد پارامتر افزایش یافت.
  3. آموزش طولانی‌تر (Longer Training): افزایش تعداد تکرارهای آموزش از ۹۰ هزار به ۲۵۲ هزار، به بهره‌برداری مؤثرتر از داده‌های اضافی کمک کرد.
  4. رزولوشن بالاتر (Higher Resolution): استفاده از یک استراتژی آموزشی پیشرونده، امکان آموزش کارآمد با ویدیوهای طولانی‌تر و رزولوشن بالاتر را فراهم کرد.

تأثیر هر یک از این مداخلات در جدول زیر خلاصه شده است که میانگین دقت در شش وظیفه طبقه‌بندی را نشان می‌دهد.

مداخله (Intervention)میانگین دقت (Average Accuracy)بهبود نسبت به مرحله قبل
خط پایه VJEPA 1 ۸۴.۲%
+ مقیاس‌پذیری داده ۸۵.۲%۱.۰+ امتیاز
+ مقیاس‌پذیری مدل ۸۶.۷%۱.۵+ امتیاز
+ آموزش طولانی‌تر ۸۷.۵%۰.۸+ امتیاز
+ رزولوشن بالاتر ۸۸.۲%۰.۷+ امتیاز

V-JEPA 2 در عمل: یک تهدید سه‌گانه

این مدل در سه حوزه اصلی توانایی‌های خود را به نمایش می‌گذارد: درک، پیش‌بینی و برنامه‌ریزی.

V-JEPA 2 مدل جدید متا

۱. درک عمیق ویدیو (Understanding)

V-JEPA 2 توانایی فوق‌العاده‌ای در درک محتوای بصری دارد، به ویژه در وظایفی که نیازمند فهم حرکت هستند.

  • طبقه‌بندی کنش: این مدل در مجموعه داده Something-Something v2 که نیازمند درک دقیق حرکت است، به دقت ۷۷.۳% در طبقه‌بندی top-1 دست یافت.
  • پاسخ به سوالات ویدیویی (Video QA): پس از همراستاسازی با یک مدل زبان بزرگ (LLM)، V-JEPA 2 در چندین بنچمارک درک دنیای فیزیکی و استدلال زمانی به عملکردی پیشرفته در کلاس مدل‌های ۸ میلیارد پارامتری دست یافت. برای مثال، در بنچمارک Perception Test به دقت ۸۴.۰% و در TempCompass به دقت ۷۶.۹% رسید. این نشان می‌دهد که یک انکودر ویدیویی که بدون نظارت زبان آموزش دیده، می‌تواند با موفقیت با یک LLM همراستا شود و به نتایج پیشرفته‌ای دست یابد.

۲. پیش‌بینی آینده (Prediction)

توانایی پیش‌بینی اقدامات آینده یکی از نقاط قوت کلیدی V-JEPA 2 است.

  • پیش‌بینی کنش انسان: در بنچمارک چالش‌برانگیز Epic-Kitchens-100، این مدل به رکورد ۳۹.۷% recall-at-5 دست یافت که یک بهبود نسبی ۴۴ درصدی نسبت به بهترین مدل قبلی محسوب می‌شود. این مدل می‌تواند با مشاهده چند ثانیه از فعالیت یک فرد در آشپزخانه، عمل بعدی او (مانند “برداشتن چاقو” یا “بستن در”) را با دقت بالایی پیش‌بینی کند.

۳. برنامه‌ریزی برای دنیای واقعی (Planning)

شگفت‌انگیزترین قابلیت V-JEPA 2، استفاده از آن برای برنامه‌ریزی رباتیک است. محققان یک نسخه شرطی‌شده بر عمل (Action-Conditioned) به نام V-JEPA 2-AC را توسعه دادند.

  • آموزش کارآمد: این مدل تنها با استفاده از کمتر از ۶۲ ساعت ویدیوی ربات بدون برچسب از مجموعه داده Droid آموزش دیده است.
  • استقرار صفر-شات (Zero-shot): V-JEPA 2-AC به صورت صفر-شات (بدون هیچ‌گونه آموزش اضافی یا جمع‌آوری داده در محیط جدید) روی بازوهای رباتیک Franka در دو آزمایشگاه مختلف مستقر شد.
  • انجام وظایف: ربات‌ها تنها با دریافت یک تصویر از حالت نهایی (Goal Image)، توانستند وظایف برداشتن و جابجایی اشیاء (Pick-and-Place) را با موفقیت انجام دهند. این کار بدون هیچ‌گونه آموزش خاص برای وظیفه یا سیگنال پاداش صورت گرفت.

V-JEPA 2-AC در مقابل رقبا: یک مقایسه عملی

عملکرد V-JEPA 2-AC در وظایف رباتیک با دو مدل دیگر مقایسه شد: یک مدل مبتنی بر کلون‌سازی رفتار (Octo) و یک مدل سراسری مبتنی بر تولید ویدیو (Cosmos). نتایج نشان‌دهنده برتری قابل توجه V-JEPA 2-AC است.

جدول مقایسه نرخ موفقیت در وظایف رباتیک (میانگین دو آزمایشگاه)

روشرسیدن (Reach)گرفتن فنجان (Grasp Cup)گرفتن جعبه (Grasp Box)جابجایی فنجان (P&P Cup)جابجایی جعبه (P&P Box)
Octo۱۰۰%۱۵%۰%۱۵%۱۰%
V-JEPA 2-AC (ما)۱۰۰%۶۵%۲۵%۸۰%۶۵%

علاوه بر نرخ موفقیت بالاتر، V-JEPA 2-AC از نظر محاسباتی نیز بسیار کارآمدتر است. در حالی که برنامه‌ریزی یک عمل با مدل Cosmos حدود ۴ دقیقه زمان می‌برد، مدل V-JEPA 2-AC همین کار را تنها در ۱۶ ثانیه انجام می‌دهد و به عملکرد بهتری نیز دست می‌یابد.

چالش‌ها و آینده پیش رو

با وجود نتایج امیدوارکننده، این تحقیق با محدودیت‌هایی نیز روبروست که مسیر تحقیقات آینده را مشخص می‌کند:

  • حساسیت به موقعیت دوربین: عملکرد مدل تا حدی به زاویه دوربین وابسته است و باید به طور ضمنی محورهای مختصات را از ورودی دوربین استنتاج کند.
  • برنامه‌ریزی بلندمدت: برنامه‌ریزی برای افق‌های زمانی طولانی بدون نیاز به اهداف میانی (sub-goals) همچنان یک چالش است، زیرا خطاهای پیش‌بینی در طول زمان انباشته می‌شوند.
  • وابستگی به اهداف تصویری: در حال حاضر، اهداف به صورت تصویر به مدل داده می‌شوند. گام بعدی، فعال کردن تعیین اهداف از طریق زبان طبیعی است.

نتیجه‌گیری

V-JEPA 2 یک گام مهم به سوی ساخت مدل‌های سراسری پیشرفته است که می‌توانند به طور مؤثری دنیای اطراف خود را درک کرده و در محیط واقعی عملکرد درست و دقیق از خود به نمایش بگذارند. این تحقیق نشان می‌دهد که یادگیری خودنظارتی در مقیاس وب، همراه با حجم کمی از داده‌های تعاملی، می‌تواند پایه‌ای قدرتمند برای ساخت سیستم‌های هوش مصنوعی توانمند در درک، پیش‌بینی و برنامه‌ریزی در دنیای فیزیکی فراهم کند. این رویکرد نه تنها در وظایف درک بصری به نتایج پیشرفته‌ای دست یافته ، بلکه پتانسیل خود را برای کنترل ربات‌های دنیای واقعی به صورت صفر-شات نیز به اثبات رسانده است.

Share.
Leave A Reply Cancel Reply
Exit mobile version