Site icon رسانه تخصصی هوش مصنوعی سیمرغ

شبکه هوش مصنوعی OpenAI آینده آموزش AI را تغییر داد

شبکه هوش مصنوعی OpenAI آینده آموزش AI را تغییر داد

شبکه هوش مصنوعی OpenAI آینده آموزش AI را تغییر داد

پروتکل MRC؛ انقلاب OpenAI در زیرساخت‌های آموزش هوش مصنوعی

در دنیای امروز که رقابت بر سر دستیابی به هوش مصنوعی عمومی (AGI) به اوج خود رسیده است، پیروزی تنها در گرو داشتن مدل‌های زبانی باهوش‌تر نیست؛ بلکه پیروز نهایی کسی است که بتواند «زیرساخت» عظیم‌تری را مدیریت کند. شرکت OpenAI به‌تازگی با رونمایی از پروتکل MRC (Multipath Reliable Connection)، پرده از رازی برداشت که قرار است سرعت و پایداری آموزش هوش مصنوعی را در مقیاس‌های خیره‌کننده متحول کند. این پروتکل جدید که با همکاری غول‌هایی همچون NVIDIA، Microsoft، AMD، Intel و Broadcom توسعه یافته، پاسخی به یکی از بزرگ‌ترین کابوس‌های مهندسان کامپیوتر است: «ترافیک و قطعی شبکه در ابرکامپیوترها».

در این گزارش جامع از رسانه «هوش مصنوعی سیمرغ»، به بررسی عمیق این فناوری می‌پردازیم و تحلیل می‌کنیم که چرا انتشار این پروتکل به‌صورت متن‌باز (Open Source)، می‌تواند نقشه راه صنعت تکنولوژی را تغییر دهد.


چرا زیرساخت‌های فعلی برای آموزش هوش مصنوعی کافی نیستند؟

آموزش مدل‌های پیشرو (Frontier Models) مانند GPT-4 یا پروژه‌های آینده‌محور نظیر «استارگیت» (Stargate)، به خوشه‌های عظیمی از پردازنده‌های گرافیکی (GPU) نیاز دارد. وقتی درباره صدها هزار GPU صحبت می‌کنیم که به‌طور همزمان در حال پردازش یک مدل واحد هستند، شبکه ارتباطی میان آن‌ها حکم رگ‌های حیاتی سیستم را دارد.

چالش اصلی: تأخیر و توقف کل سیستم

در شبکه‌های سنتی، اگر تنها یک بسته داده (Packet) با تأخیر مواجه شود یا یکی از لینک‌های ارتباطی قطع شود، کل فرآیند آموزش دچار اختلال می‌شود. در آموزش‌های همگام (Synchronous Training)، تمام GPUها باید در هر مرحله با هم هماهنگ شوند. اگر یک GPU منتظر داده بماند، هزاران پردازنده دیگر نیز بیکار (Idle) می‌شوند. این بیکاری یعنی هدر رفتن میلیون‌ها دلار سرمایه و ماه‌ها زمان.

ناتوانی پروتکل‌های قدیمی در مقیاس بزرگ

پروتکل‌های فعلی مانند BGP برای مدیریت این حجم از داده در مقیاس ابرکامپیوترها طراحی نشده‌اند. با افزایش ابعاد کلاسترها، احتمال خرابی سخت‌افزاری به یک امر روزمره تبدیل می‌شود. در سیستم‌های قدیمی، یک خرابی کوچک می‌توانست کل پروژه آموزش را کرش (Crash) دهد و تیم مهندسی را مجبور کند تا همه‌چیز را از آخرین «چک‌پوینت» (Checkpoint) دوباره شروع کنند.


پروتکل MRC چیست؟ اتحاد غول‌ها برای شکستن مرزها

پروتکل MRC یا Multipath Reliable Connection، یک پروتکل شبکه نوین است که مستقیماً در رابط‌های شبکه ۸۰۰ گیگابیتی تعبیه می‌شود. OpenAI با درک این موضوع که برای رسیدن به AGI باید پیچیدگی‌های لایه‌های شبکه را به حداقل رساند، طی دو سال گذشته با همکاری رهبران صنعت تراشه‌سازی، این استاندارد را خلق کرده است.

اهداف اصلی پروتکل MRC:

  1. پایداری بی‌نظیر: عبور از خرابی‌های شبکه در مقیاس میکروثانیه.
  2. حذف ازدحام: پخش هوشمند بسته‌ها داده در تمام مسیرهای موجود.
  3. سادگی در کنترل: جایگزینی پروتکل‌های پیچیده قدیمی با مسیریابی مستقیم.

OpenAI این پروتکل را از طریق پروژه محاسبات باز (OCP) در اختیار عموم قرار داده است تا استانداردی واحد برای کل صنعت هوش مصنوعی ایجاد شود.


کالبدشکافی فنی؛ پروتکل MRC چگونه کار می‌کند؟

برای درک اهمیت پروتکل MRC، باید به سه رکن اصلی آن نگاهی بیندازیم که هر کدام یک گره کور در مهندسی شبکه را باز می‌کنند.

۱. تکنولوژی Multi-plane؛ مهندسی معکوس ترافیک شبکه

در طراحی‌های سنتی، یک رابط شبکه ۸۰۰ گیگابیتی به عنوان یک مسیر واحد در نظر گرفته می‌شد. اما MRC این مسیر را به چندین “صفحه” (Plane) موازی تقسیم می‌کند. به عنوان مثال، یک اتصال ۸۰۰ گیگابایتی به ۸ مسیر ۱۰۰ گیگابایتی تقسیم می‌شود که هر کدام به سوئیچ‌های متفاوتی متصل هستند.

مزایای این روش:

۲. اسپری کردن بسته‌ها (Packet Spraying)؛ پایانی بر ترافیک شبکه

یکی از بزرگ‌ترین نوآوری‌های پروتکل MRC، تغییر نحوه ارسال داده‌هاست. در پروتکل‌های معمولی، تمام بسته‌های یک پیام باید از یک مسیر واحد عبور کنند تا به ترتیب برسند. اما MRC بسته‌ها را در صدها مسیر مختلف “اسپری” می‌کند.

حتی اگر بسته‌ها با ترتیب نامنظم به مقصد برسند، سیستم در مقصد آن‌ها را بر اساس آدرس حافظه نهایی مرتب می‌کند. این کار باعث می‌شود که هیچ “نقطه داغ” یا ترافیک سنگینی در مرکز شبکه ایجاد نشود. اگر مسیری شلوغ شود، MRC در لحظه مسیر را عوض می‌کند.

۳. مسیریابی منبع (SRv6)؛ هوش مصنوعی آدرس را خودش بلد است

OpenAI در اقدامی جسورانه، پروتکل‌های مسیریابی داینامیک مانند BGP را کنار گذاشته و از SRv6 (مسیریابی بخش مبتنی بر IPv6) استفاده کرده است. در این حالت، فرستنده (GPU) دقیقاً مشخص می‌کند که هر بسته از کدام سوئیچ‌ها عبور کند.

این رویکرد باعث می‌شود سوئیچ‌ها دیگر نیازی به محاسبات پیچیده برای پیدا کردن مسیر نداشته باشند. آن‌ها فقط طبق دستورالعمل درج شده روی بسته، آن را هدایت می‌کنند. اگر مسیری قطع باشد، فرستنده بلافاصله متوجه شده و آدرس جدید را روی بسته‌های بعدی می‌نویسد؛ همه‌چیز در مقیاس میکروثانیه و بدون دخالت انسان!


نتایج خیره‌کننده در دنیای واقعی: از تگزاس تا مایکروسافت

طبق گزارش‌های منتشر شده، پروتکل MRC هم‌اکنون در بزرگ‌ترین کلاسترهای NVIDIA GB200 شرکت OpenAI در حال اجراست. تجربیات عملی نشان داده است که این پروتکل توانسته چالش‌های عملیاتی بزرگی را حل کند:


چرا OpenAI این پروتکل را متن‌باز کرد؟

ممکن است بپرسید چرا OpenAI رازی به این مهمی را با رقبای خود به اشتراک می‌گذارد؟ پاسخ در استراتژی کلان این شرکت نهفته است. «هوش مصنوعی سیمرغ» معتقد است که OpenAI با این کار قصد دارد “استانداردسازی” را به نفع خود تمام کند.

وقتی تمام تولیدکنندگان سخت‌افزار (انویدیا، ای‌ام‌دی، اینتل) از پروتکل MRC پشتیبانی کنند، OpenAI می‌تواند بدون نگرانی از ناهماهنگی سخت‌افزاری، ابرکامپیوترهای خود را با قطعات شرکت‌های مختلف بسازد. این حرکت، انحصارطلبی در لایه زیرساخت را می‌شکند و سرعت کلی پیشرفت هوش مصنوعی در جهان را افزایش می‌دهد.


خلاصه مزایای کلیدی پروتکل MRC برای صنعت AI

ویژگیپروتکل‌های سنتی (RoCE/InfiniBand)پروتکل نوین MRC
تعداد لایه‌های شبکه۳ تا ۴ لایه برای ۱۰۰ هزار GPUفقط ۲ لایه برای ۱۳۰ هزار GPU
زمان بازیابی از خطاثانیه تا دقیقه (باعث توقف آموزش)میکروثانیه (بدون وقفه محسوس)
مدیریت ترافیکمسیر واحد (ایجاد گلوگاه)اسپری کردن در صدها مسیر موازی
پیچیدگی نرم‌افزاریبسیار بالا (نیاز به کنترل داینامیک)ساده و استاتیک (مسیریابی از مبدأ)
مصرف انرژیبالا به دلیل تجهیزات اضافیبهینه‌سازی شده و کاهش‌یافته

نگاهی به آینده؛ به سوی استارگیت و فراتر از آن

پروژه Stargate، ابرکامپیوتر ۱۰۰ میلیارد دلاری مایکروسافت و OpenAI، بدون وجود تکنولوژی‌هایی مانند پروتکل MRC عملاً غیرممکن بود. این پروتکل نشان می‌دهد که ما از عصر “بهینه‌سازی نرم‌افزاری” وارد عصر “نوآوری زیرساختی” شده‌ایم.

برای اینکه مدل‌هایی مانند GPT-5 و نسخه‌های بعدی بتوانند به هوشی در سطح انسان نزدیک شوند، نیاز به محاسباتی دارند که در شبکه‌های فعلی قفل می‌شوند. MRC کلید این قفل است. این پروتکل به مهندسان اجازه می‌دهد تا به جای تمرکز بر رفع باگ‌های شبکه، تمام توان خود را صرف ارتقای معماری مدل‌های هوش مصنوعی کنند.


پرسش‌های متداول (FAQ)

۱. آیا پروتکل MRC جایگزین اینفینی‌بند (InfiniBand) می‌شود؟

MRC لزوماً جایگزین نیست، بلکه تکاملی بر بستر Ethernet است (RDMA over Converged Ethernet). این پروتکل مزایای سرعت اینفینی‌بند را با انعطاف‌پذیری و هزینه کمتر اترنت ترکیب می‌کند.

۲. چه شرکت‌هایی از این پروتکل پشتیبانی می‌کنند؟

تقریباً تمام بزرگان صنعت از جمله NVIDIA، AMD، Broadcom، Intel و Microsoft به عنوان شرکای اصلی در توسعه و پشتیبانی از این پروتکل حضور دارند.

۳. تأثیر MRC بر سرعت ChatGPT چیست؟

این پروتکل مستقیماً روی سرعت پاسخگویی (Inference) تأثیر ندارد، بلکه سرعت “آموزش” مدل‌های جدید را بالا می‌برد. این یعنی OpenAI می‌تواند مدل‌های قدرتمندتر را در بازه‌های زمانی کوتاه‌تر و با هزینه کمتر تولید کند.


سخن پایانی

رونمایی از پروتکل MRC نقطه عطفی در تاریخ محاسبات سنگین است. OpenAI ثابت کرد که برای رهبری در حوزه AI، باید در تمام لایه‌ها، از سیلیکون تراشه تا پروتکل‌های شبکه، نوآوری داشت. این اقدام نه تنها جایگاه OpenAI را به عنوان پیشرو در زیرساخت مستحکم می‌کند، بلکه با متن‌باز کردن آن، هدیه‌ای بزرگ به اکوسیستم تکنولوژی جهان داده است.

ما در رسانه «هوش مصنوعی سیمرغ» بر این باوریم که در ماه‌های آینده، خبرهای بیشتری از پیاده‌سازی این پروتکل در مراکز داده بزرگ جهان خواهیم شنید. رقابت برای AGI اکنون سریع‌تر، پایدارتر و هوشمندانه‌تر از همیشه شده است.

منبع : https://openai.com/index/mrc-supercomputer-networking

Exit mobile version