پروتکل MRC؛ انقلاب OpenAI در زیرساختهای آموزش هوش مصنوعی
در دنیای امروز که رقابت بر سر دستیابی به هوش مصنوعی عمومی (AGI) به اوج خود رسیده است، پیروزی تنها در گرو داشتن مدلهای زبانی باهوشتر نیست؛ بلکه پیروز نهایی کسی است که بتواند «زیرساخت» عظیمتری را مدیریت کند. شرکت OpenAI بهتازگی با رونمایی از پروتکل MRC (Multipath Reliable Connection)، پرده از رازی برداشت که قرار است سرعت و پایداری آموزش هوش مصنوعی را در مقیاسهای خیرهکننده متحول کند. این پروتکل جدید که با همکاری غولهایی همچون NVIDIA، Microsoft، AMD، Intel و Broadcom توسعه یافته، پاسخی به یکی از بزرگترین کابوسهای مهندسان کامپیوتر است: «ترافیک و قطعی شبکه در ابرکامپیوترها».
در این گزارش جامع از رسانه «هوش مصنوعی سیمرغ»، به بررسی عمیق این فناوری میپردازیم و تحلیل میکنیم که چرا انتشار این پروتکل بهصورت متنباز (Open Source)، میتواند نقشه راه صنعت تکنولوژی را تغییر دهد.
چرا زیرساختهای فعلی برای آموزش هوش مصنوعی کافی نیستند؟
آموزش مدلهای پیشرو (Frontier Models) مانند GPT-4 یا پروژههای آیندهمحور نظیر «استارگیت» (Stargate)، به خوشههای عظیمی از پردازندههای گرافیکی (GPU) نیاز دارد. وقتی درباره صدها هزار GPU صحبت میکنیم که بهطور همزمان در حال پردازش یک مدل واحد هستند، شبکه ارتباطی میان آنها حکم رگهای حیاتی سیستم را دارد.
چالش اصلی: تأخیر و توقف کل سیستم
در شبکههای سنتی، اگر تنها یک بسته داده (Packet) با تأخیر مواجه شود یا یکی از لینکهای ارتباطی قطع شود، کل فرآیند آموزش دچار اختلال میشود. در آموزشهای همگام (Synchronous Training)، تمام GPUها باید در هر مرحله با هم هماهنگ شوند. اگر یک GPU منتظر داده بماند، هزاران پردازنده دیگر نیز بیکار (Idle) میشوند. این بیکاری یعنی هدر رفتن میلیونها دلار سرمایه و ماهها زمان.
ناتوانی پروتکلهای قدیمی در مقیاس بزرگ
پروتکلهای فعلی مانند BGP برای مدیریت این حجم از داده در مقیاس ابرکامپیوترها طراحی نشدهاند. با افزایش ابعاد کلاسترها، احتمال خرابی سختافزاری به یک امر روزمره تبدیل میشود. در سیستمهای قدیمی، یک خرابی کوچک میتوانست کل پروژه آموزش را کرش (Crash) دهد و تیم مهندسی را مجبور کند تا همهچیز را از آخرین «چکپوینت» (Checkpoint) دوباره شروع کنند.
پروتکل MRC چیست؟ اتحاد غولها برای شکستن مرزها
پروتکل MRC یا Multipath Reliable Connection، یک پروتکل شبکه نوین است که مستقیماً در رابطهای شبکه ۸۰۰ گیگابیتی تعبیه میشود. OpenAI با درک این موضوع که برای رسیدن به AGI باید پیچیدگیهای لایههای شبکه را به حداقل رساند، طی دو سال گذشته با همکاری رهبران صنعت تراشهسازی، این استاندارد را خلق کرده است.
اهداف اصلی پروتکل MRC:
- پایداری بینظیر: عبور از خرابیهای شبکه در مقیاس میکروثانیه.
- حذف ازدحام: پخش هوشمند بستهها داده در تمام مسیرهای موجود.
- سادگی در کنترل: جایگزینی پروتکلهای پیچیده قدیمی با مسیریابی مستقیم.
OpenAI این پروتکل را از طریق پروژه محاسبات باز (OCP) در اختیار عموم قرار داده است تا استانداردی واحد برای کل صنعت هوش مصنوعی ایجاد شود.
کالبدشکافی فنی؛ پروتکل MRC چگونه کار میکند؟
برای درک اهمیت پروتکل MRC، باید به سه رکن اصلی آن نگاهی بیندازیم که هر کدام یک گره کور در مهندسی شبکه را باز میکنند.
۱. تکنولوژی Multi-plane؛ مهندسی معکوس ترافیک شبکه
در طراحیهای سنتی، یک رابط شبکه ۸۰۰ گیگابیتی به عنوان یک مسیر واحد در نظر گرفته میشد. اما MRC این مسیر را به چندین “صفحه” (Plane) موازی تقسیم میکند. به عنوان مثال، یک اتصال ۸۰۰ گیگابایتی به ۸ مسیر ۱۰۰ گیگابایتی تقسیم میشود که هر کدام به سوئیچهای متفاوتی متصل هستند.
مزایای این روش:
- کاهش لایههای شبکه: با این روش میتوان بیش از ۱۳۱,۰۰۰ پردازنده گرافیکی را تنها با دو لایه سوئیچ به هم متصل کرد (در حالی که در روشهای قدیمی به ۳ یا ۴ لایه نیاز بود).
- کاهش مصرف انرژی: قطعات کمتر یعنی گرمای کمتر و مصرف برق بهینهتر در دیتاسنترها.
- تنوع مسیر: اگر یک سوئیچ یا لینک قطع شود، دادهها بلافاصله از مسیرهای موازی دیگر عبور میکنند.
۲. اسپری کردن بستهها (Packet Spraying)؛ پایانی بر ترافیک شبکه
یکی از بزرگترین نوآوریهای پروتکل MRC، تغییر نحوه ارسال دادههاست. در پروتکلهای معمولی، تمام بستههای یک پیام باید از یک مسیر واحد عبور کنند تا به ترتیب برسند. اما MRC بستهها را در صدها مسیر مختلف “اسپری” میکند.
حتی اگر بستهها با ترتیب نامنظم به مقصد برسند، سیستم در مقصد آنها را بر اساس آدرس حافظه نهایی مرتب میکند. این کار باعث میشود که هیچ “نقطه داغ” یا ترافیک سنگینی در مرکز شبکه ایجاد نشود. اگر مسیری شلوغ شود، MRC در لحظه مسیر را عوض میکند.
۳. مسیریابی منبع (SRv6)؛ هوش مصنوعی آدرس را خودش بلد است
OpenAI در اقدامی جسورانه، پروتکلهای مسیریابی داینامیک مانند BGP را کنار گذاشته و از SRv6 (مسیریابی بخش مبتنی بر IPv6) استفاده کرده است. در این حالت، فرستنده (GPU) دقیقاً مشخص میکند که هر بسته از کدام سوئیچها عبور کند.
این رویکرد باعث میشود سوئیچها دیگر نیازی به محاسبات پیچیده برای پیدا کردن مسیر نداشته باشند. آنها فقط طبق دستورالعمل درج شده روی بسته، آن را هدایت میکنند. اگر مسیری قطع باشد، فرستنده بلافاصله متوجه شده و آدرس جدید را روی بستههای بعدی مینویسد؛ همهچیز در مقیاس میکروثانیه و بدون دخالت انسان!
نتایج خیرهکننده در دنیای واقعی: از تگزاس تا مایکروسافت
طبق گزارشهای منتشر شده، پروتکل MRC هماکنون در بزرگترین کلاسترهای NVIDIA GB200 شرکت OpenAI در حال اجراست. تجربیات عملی نشان داده است که این پروتکل توانسته چالشهای عملیاتی بزرگی را حل کند:
- تست در ابرکامپیوتر آبلین (Abilene): در دیتاسنترهای اوراکل در تگزاس، سیستم MRC با موفقیت پیادهسازی شده و پایداری شبکه را به شدت افزایش داده است.
- مقاومت در برابر ریبوت سوئیچها: در جریان آموزش یکی از مدلهای پیشرفته ChatGPT، تیم فنی مجبور شد ۴ سوئیچ اصلی را ریبوت کند. در حالت عادی، این کار به معنای توقف کامل آموزش بود، اما با MRC، سیستم بدون نیاز به هماهنگی با تیمهای دیگر، مسیرها را دور زد و آموزش بدون وقفه ادامه یافت.
- مدیریت خرابی لینکها: در شبکههایی با میلیونها لینک، قطعیهای لحظهای اجتنابناپذیرند. دادههای واقعی نشان میدهند که MRC این قطعیها را به گونهای مدیریت میکند که تأثیر آنها بر سرعت آموزش عملاً صفر است.
چرا OpenAI این پروتکل را متنباز کرد؟
ممکن است بپرسید چرا OpenAI رازی به این مهمی را با رقبای خود به اشتراک میگذارد؟ پاسخ در استراتژی کلان این شرکت نهفته است. «هوش مصنوعی سیمرغ» معتقد است که OpenAI با این کار قصد دارد “استانداردسازی” را به نفع خود تمام کند.
وقتی تمام تولیدکنندگان سختافزار (انویدیا، ایامدی، اینتل) از پروتکل MRC پشتیبانی کنند، OpenAI میتواند بدون نگرانی از ناهماهنگی سختافزاری، ابرکامپیوترهای خود را با قطعات شرکتهای مختلف بسازد. این حرکت، انحصارطلبی در لایه زیرساخت را میشکند و سرعت کلی پیشرفت هوش مصنوعی در جهان را افزایش میدهد.
خلاصه مزایای کلیدی پروتکل MRC برای صنعت AI
| ویژگی | پروتکلهای سنتی (RoCE/InfiniBand) | پروتکل نوین MRC |
| تعداد لایههای شبکه | ۳ تا ۴ لایه برای ۱۰۰ هزار GPU | فقط ۲ لایه برای ۱۳۰ هزار GPU |
| زمان بازیابی از خطا | ثانیه تا دقیقه (باعث توقف آموزش) | میکروثانیه (بدون وقفه محسوس) |
| مدیریت ترافیک | مسیر واحد (ایجاد گلوگاه) | اسپری کردن در صدها مسیر موازی |
| پیچیدگی نرمافزاری | بسیار بالا (نیاز به کنترل داینامیک) | ساده و استاتیک (مسیریابی از مبدأ) |
| مصرف انرژی | بالا به دلیل تجهیزات اضافی | بهینهسازی شده و کاهشیافته |
نگاهی به آینده؛ به سوی استارگیت و فراتر از آن
پروژه Stargate، ابرکامپیوتر ۱۰۰ میلیارد دلاری مایکروسافت و OpenAI، بدون وجود تکنولوژیهایی مانند پروتکل MRC عملاً غیرممکن بود. این پروتکل نشان میدهد که ما از عصر “بهینهسازی نرمافزاری” وارد عصر “نوآوری زیرساختی” شدهایم.
برای اینکه مدلهایی مانند GPT-5 و نسخههای بعدی بتوانند به هوشی در سطح انسان نزدیک شوند، نیاز به محاسباتی دارند که در شبکههای فعلی قفل میشوند. MRC کلید این قفل است. این پروتکل به مهندسان اجازه میدهد تا به جای تمرکز بر رفع باگهای شبکه، تمام توان خود را صرف ارتقای معماری مدلهای هوش مصنوعی کنند.
پرسشهای متداول (FAQ)
۱. آیا پروتکل MRC جایگزین اینفینیبند (InfiniBand) میشود؟
MRC لزوماً جایگزین نیست، بلکه تکاملی بر بستر Ethernet است (RDMA over Converged Ethernet). این پروتکل مزایای سرعت اینفینیبند را با انعطافپذیری و هزینه کمتر اترنت ترکیب میکند.
۲. چه شرکتهایی از این پروتکل پشتیبانی میکنند؟
تقریباً تمام بزرگان صنعت از جمله NVIDIA، AMD، Broadcom، Intel و Microsoft به عنوان شرکای اصلی در توسعه و پشتیبانی از این پروتکل حضور دارند.
۳. تأثیر MRC بر سرعت ChatGPT چیست؟
این پروتکل مستقیماً روی سرعت پاسخگویی (Inference) تأثیر ندارد، بلکه سرعت “آموزش” مدلهای جدید را بالا میبرد. این یعنی OpenAI میتواند مدلهای قدرتمندتر را در بازههای زمانی کوتاهتر و با هزینه کمتر تولید کند.
سخن پایانی
رونمایی از پروتکل MRC نقطه عطفی در تاریخ محاسبات سنگین است. OpenAI ثابت کرد که برای رهبری در حوزه AI، باید در تمام لایهها، از سیلیکون تراشه تا پروتکلهای شبکه، نوآوری داشت. این اقدام نه تنها جایگاه OpenAI را به عنوان پیشرو در زیرساخت مستحکم میکند، بلکه با متنباز کردن آن، هدیهای بزرگ به اکوسیستم تکنولوژی جهان داده است.
ما در رسانه «هوش مصنوعی سیمرغ» بر این باوریم که در ماههای آینده، خبرهای بیشتری از پیادهسازی این پروتکل در مراکز داده بزرگ جهان خواهیم شنید. رقابت برای AGI اکنون سریعتر، پایدارتر و هوشمندانهتر از همیشه شده است.
منبع : https://openai.com/index/mrc-supercomputer-networking

