تحول در زیرساخت آموزش هوش مصنوعی؛ رونمایی OpenAI از پروتکل شبکه MRC
در دنیای مدلهای پیشرو (Frontier Models)، سرعت آموزش به همان اندازه اهمیت دارد که قدرت پردازشی GPUها. شرکت OpenAI بهتازگی با انتشار جزئیاتی از شبکه ابررایانه Stargate و معرفی پروتکل جدید خود تحت عنوان MRC (Multipath Reliable Connection)، گام بلندی برای رفع بزرگترین گلوگاه آموزش هوش مصنوعی یعنی «تأخیر در شبکه» برداشته است.
این فناوری که با همکاری غولهایی نظیر AMD، انویدیا، اینتل و مایکروسافت توسعه یافته، قرار است پایداری و کارایی آموزش مدلهای غولپیکر را در مقیاسی بیسابقه تضمین کند. طبق تحلیل متخصصان در هوش مصنوعی سیمرغ، این حرکت OpenAI نشاندهنده تغییر استراتژی از تمرکز صرف بر سختافزار، به سمت بهینهسازی لایههای زیرساختی و ارتباطی است.
چرا شبکههای سنتی برای هوش مصنوعی کافی نیستند؟
آموزش مدلهای هوش مصنوعی بزرگ به انتقال میلیونها داده در هر لحظه وابسته است. در یک شبکه سنتی، اگر حتی یک بسته داده (Packet) با تأخیر برسد، هزاران پردازنده گرافیکی (GPU) معطل میمانند تا آن داده دریافت شود. این پدیده که باعث هدررفت توان پردازشی و انرژی میشود، در مقیاسهای بزرگی مانند ابرپروژه Stargate میتواند فاجعهبار باشد.
مشکلات اصلی شبکههای قدیمی عبارتند از:
- تراکم شبکه: برخورد جریانهای داده و ایجاد ترافیک در مسیرهای اصلی.
- حساسیت به خطا: خرابی یک سوئیچ یا کابل معمولاً باعث توقف کل فرآیند آموزش میشد.
- پیچیدگی مسیریابی: استفاده از پروتکلهای قدیمی مانند BGP که برای مقیاس آموزش هوش مصنوعی بسیار کند عمل میکنند.
پروتکل MRC؛ معجزه “پاشش بستهها” در شبکه
راهکار OpenAI برای این چالشها، پروتکل MRC است. این پروتکل به جای ارسال دادهها از یک مسیر واحد، آنها را به صدها مسیر مختلف در شبکه “میپاشد” (Packet Spraying).
ویژگیهای کلیدی این فناوری عبارتند از:
- مسیریابی منبع (Source Routing): استفاده از SRv6 که به فرستنده اجازه میدهد مسیر دقیق هر بسته را تعیین کند و از خرابیها در کسری از میکروثانیه عبور کند.
- شبکههای چندلایه (Multi-plane): تبدیل یک لینک ۸۰۰ گیگابیتی به هشت لینک ۱۰۰ گیگابیتی برای ایجاد مسیرهای موازی و پشتیبان.
- کاهش لایههای فیزیکی: امکان اتصال بیش از ۱۳۰,۰۰۰ پردازنده گرافیکی تنها با دو ردیف سوئیچ، که باعث کاهش مصرف برق و هزینهها میشود.
پایداری بینظیر: آموزش بدون توقف
یکی از شگفتانگیزترین بخشهای گزارش OpenAI این است که با استفاده از MRC، حتی خرابی فیزیکی لینکها یا ریبوت شدن سوئیچها در حین کار، تأثیر محسوسی بر روند آموزش مدلهایی مثل ChatGPT نخواهد داشت. در گذشته، چنین اتفاقاتی منجر به کرش کردن سیستم و نیاز به بازنشانی (Restart) از آخرین چکپوینت میشد، اما اکنون سیستم بهطور هوشمند مسیرهای جایگزین را در لحظه پیدا میکند.
همکاری با بزرگان صنعت و متنباز کردن استانداردها
OpenAI اعلام کرده است که مشخصات فنی MRC را از طریق Open Compute Project (OCP) در اختیار عموم قرار داده تا کل صنعت بتواند از این استاندارد استفاده کند. این پروتکل هماکنون در ابررایانههای مجهز به تراشههای GB200 انویدیا در اوراکل و مایکروسافت عملیاتی شده است.
در نهایت، شبکه ابررایانه Stargate و پروتکل MRC نشان میدهند که مسیر رسیدن به هوش مصنوعی عمومی (AGI)، تنها از جاده تراشههای قویتر نمیگذرد، بلکه نیازمند شبکههای هوشمندتر و منعطفتر است که بتوانند هزاران میلیارد پارامتر را بدون حتی یک لحظه درنگ، جابهجا کنند.

