V-JEPA 2 مدل جدید متا
شرکت متا از یک مدل هوش مصنوعی جدید به نام V-JEPA 2 رونمایی کرده است که میتواند با مشاهده حجم عظیمی از دادههای ویدیویی، به درک عمیقی از دنیای فیزیکی دست یابد، آینده را پیشبینی کند و حتی برای رباتها برنامهریزی کند. این دستاورد گامی مهم در مسیر ساخت سیستمهای هوشمندی است که مانند انسانها، عمدتاً از طریق مشاهده یاد میگیرند و قادر به تعامل با محیطهای جدید و ناآشنا هستند.
این مقاله که در تاریخ ۱۰ ژوئن ۲۰۲۵ منتشر شده است ، نشان میدهد چگونه میتوان با ترکیب دادههای ویدیویی اینترنتی در مقیاس بزرگ و مقدار کمی دادههای تعاملی ربات، یک مدل سراسری(World Model) ساخت که پایهای برای نسل بعدی هوش مصنوعی خواهد بود.
یکی از چالشهای اصلی هوش مصنوعی مدرن، یادگیری درک جهان و نحوه عمل در آن از طریق مشاهده است. V-JEPA 2 بر اساس یک معماری یادگیری خودنظارتی به نام معماری پیشبینی-تعبیهسازی مشترک (JEPA) کار میکند. برخلاف مدلهای مولد که سعی در پیشبینی تکتک پیکسلهای یک ویدیو دارند (مثلاً جزئیات برگهای یک درخت)، رویکرد JEPA بر یادگیری بازنماییهای انتزاعی از جنبههای قابل پیشبینی یک صحنه تمرکز میکند.
به زبان ساده، این مدل با مشاهده بخشهایی از یک ویدیو، تلاش میکند تا بازنمایی (representation) بخشهای پنهانشده یا ماسکگذاریشده آن را پیشبینی کند. این فرآیند به مدل اجازه میدهد تا قوانین فیزیکی و پویایی جهان را بدون نیاز به برچسبگذاری دستی و به شکلی کارآمد بیاموزد.
این مدل در مرحله اول روی یک مجموعه داده عظیم شامل بیش از ۱ میلیون ساعت ویدیوی اینترنتی و ۱ میلیون تصویر پیشآموزش داده شده است.
محققان برای دستیابی به عملکرد چشمگیر V-JEPA 2، چهار عامل کلیدی را بهبود بخشیدند که تأثیر مستقیم بر افزایش دقت مدل داشته است.
تأثیر هر یک از این مداخلات در جدول زیر خلاصه شده است که میانگین دقت در شش وظیفه طبقهبندی را نشان میدهد.
مداخله (Intervention) | میانگین دقت (Average Accuracy) | بهبود نسبت به مرحله قبل |
---|---|---|
خط پایه VJEPA 1 | ۸۴.۲% | – |
+ مقیاسپذیری داده | ۸۵.۲% | ۱.۰+ امتیاز |
+ مقیاسپذیری مدل | ۸۶.۷% | ۱.۵+ امتیاز |
+ آموزش طولانیتر | ۸۷.۵% | ۰.۸+ امتیاز |
+ رزولوشن بالاتر | ۸۸.۲% | ۰.۷+ امتیاز |
این مدل در سه حوزه اصلی تواناییهای خود را به نمایش میگذارد: درک، پیشبینی و برنامهریزی.
V-JEPA 2 توانایی فوقالعادهای در درک محتوای بصری دارد، به ویژه در وظایفی که نیازمند فهم حرکت هستند.
توانایی پیشبینی اقدامات آینده یکی از نقاط قوت کلیدی V-JEPA 2 است.
شگفتانگیزترین قابلیت V-JEPA 2، استفاده از آن برای برنامهریزی رباتیک است. محققان یک نسخه شرطیشده بر عمل (Action-Conditioned) به نام V-JEPA 2-AC را توسعه دادند.
عملکرد V-JEPA 2-AC در وظایف رباتیک با دو مدل دیگر مقایسه شد: یک مدل مبتنی بر کلونسازی رفتار (Octo) و یک مدل سراسری مبتنی بر تولید ویدیو (Cosmos). نتایج نشاندهنده برتری قابل توجه V-JEPA 2-AC است.
جدول مقایسه نرخ موفقیت در وظایف رباتیک (میانگین دو آزمایشگاه)
روش | رسیدن (Reach) | گرفتن فنجان (Grasp Cup) | گرفتن جعبه (Grasp Box) | جابجایی فنجان (P&P Cup) | جابجایی جعبه (P&P Box) |
---|---|---|---|---|---|
Octo | ۱۰۰% | ۱۵% | ۰% | ۱۵% | ۱۰% |
V-JEPA 2-AC (ما) | ۱۰۰% | ۶۵% | ۲۵% | ۸۰% | ۶۵% |
علاوه بر نرخ موفقیت بالاتر، V-JEPA 2-AC از نظر محاسباتی نیز بسیار کارآمدتر است. در حالی که برنامهریزی یک عمل با مدل Cosmos حدود ۴ دقیقه زمان میبرد، مدل V-JEPA 2-AC همین کار را تنها در ۱۶ ثانیه انجام میدهد و به عملکرد بهتری نیز دست مییابد.
با وجود نتایج امیدوارکننده، این تحقیق با محدودیتهایی نیز روبروست که مسیر تحقیقات آینده را مشخص میکند:
V-JEPA 2 یک گام مهم به سوی ساخت مدلهای سراسری پیشرفته است که میتوانند به طور مؤثری دنیای اطراف خود را درک کرده و در محیط واقعی عملکرد درست و دقیق از خود به نمایش بگذارند. این تحقیق نشان میدهد که یادگیری خودنظارتی در مقیاس وب، همراه با حجم کمی از دادههای تعاملی، میتواند پایهای قدرتمند برای ساخت سیستمهای هوش مصنوعی توانمند در درک، پیشبینی و برنامهریزی در دنیای فیزیکی فراهم کند. این رویکرد نه تنها در وظایف درک بصری به نتایج پیشرفتهای دست یافته ، بلکه پتانسیل خود را برای کنترل رباتهای دنیای واقعی به صورت صفر-شات نیز به اثبات رسانده است.
Sora 2: نسل جدید تولید ویدئو و صدا با هوش مصنوعی OpenAI تازهترین مدل خود…
۱۰۰ فرد تأثیرگذار حوزه هوش مصنوعی از دید رسانه هوش مصنوعی سیمرغ هوش مصنوعی در…
ChatGPT Pulse آغازگر نسلی تازه از دستیارهای هوش مصنوعی است؛ این مدل از پاسخ به…
نقشه راه فریلنسرها برای تامین امنیت آینده شغلی در عصر هوش مصنوعی فهرست دسترسی سریعنقشه…
راهنمای راهاندازی مدل Grok 4 در Cursor با استفاده از xAI API مدلهای هوش مصنوعی…
مرورگرها مدتهاست فقط وسیلهای برای باز کردن وبسایتها بودهاند، اما حالا با معرفی مرورگر Genspark…