هوش مصنوعی Gemma ۳n گوگل

تحریریه هوش مصنوعی سیمرغ

11 ماه ago

معرفی Gemma 3n: راهنمای جامع توسعه‌دهندگان

به گزارش مجله هوش مصنوعی سیمرغ، نخستین نسخه از مدل Gemma در اوایل سال گذشته میلادی معرفی شد و در مدت زمانی کوتاه، به اکوسیستمی پویـا و پررونق با بیش از ۱۶۰ میلیون بار دانلود دست یافت. این زیست‌بوم هوش مصنوعی شامل مجموعه‌ای از مدل‌های تخصصی است که در حوزه‌هایی چون ایمنی، سلامت و پزشکی به‌کار گرفته شده‌اند. با این حال، آنچه در این میان برجسته‌تر جلوه می‌کند، خلاقیت و نوآوری‌های چشمگیر جامعه توسعه‌دهندگان است — از نمونه‌هایی چون Roboflow در بینایی ماشین سازمانی گرفته تا نسخه‌های قدرتمند ژاپنی که توسط مؤسسه علوم توکیو طراحی و توسعه یافته‌اند. این تلاش‌های جمعی، مسیر پیش روی ما را در تکامل این فناوری هموار کرده‌اند.

اکنون و در ادامه‌ی این دستاوردها، نسخه‌ی کامل Gemma 3n به‌طور رسمی منتشر شده است. اگرچه پیش‌نمایش ماه گذشته تنها نگاهی مقدماتی به توانمندی‌های آن ارائه می‌داد، امروز تمامی ظرفیت‌های این معماری مبتنی بر موبایل در دسترس قرار گرفته است. Gemma 3n با تمرکز ویژه بر نیازهای جامعه توسعه‌دهندگان طراحی شده و با ابزارهایی محبوب مانند Hugging Face Transformers، llama.cpp، Google AI Edge، Ollama، MLX و بسیاری دیگر سازگار است. این مدل امکان آن را فراهم می‌سازد تا به‌آسانی برای کاربردهای خاص و در سطح دستگاه‌های محلی (on-device) سفارشی‌سازی و استقرار یابد.

در ادامه این نوشتار، به بررسی دقیق نوآوری‌های فنی مدل Gemma 3n خواهیم پرداخت، نتایج بنچ‌مارک‌های جدید آن را مرور می‌کنیم، و مسیر آغازین ساخت و توسعه بر بستر این مدل را به‌طور گام‌به‌گام ترسیم خواهیم کرد.

نوآوری‌های برجسته در Gemma 3n

Gemma 3n یک پیشرفت بزرگ در هوش مصنوعی لبه (on-device AI) محسوب می‌شود و قابلیت‌های قدرتمند چندوجهی (multimodal) را با عملکردی که پیش از این تنها در مدل‌های پیشرو مبتنی بر ابر سال گذشته مشاهده می‌شد، به دستگاه‌های لبه می‌آورد.

طراحی چندوجهی بومی: Gemma 3n به‌طور بومی از ورودی‌های تصویر، صوت، ویدئو و متن، و همچنین خروجی‌های متنی پشتیبانی می‌کند.
بهینه‌سازی برای دستگاه‌های لبه: مدل‌های Gemma 3n با تمرکز بر بهره‌وری طراحی شده‌اند و در دو اندازه بر اساس پارامترهای مؤثر موجود هستند: E2B و E4B. در حالی که تعداد پارامترهای خام آن‌ها به‌ترتیب ۵ میلیارد و ۸ میلیارد است، نوآوری‌های معماری به آن‌ها اجازه می‌دهد با مصرف حافظه‌ای مشابه مدل‌های سنتی ۲ میلیارد و ۴ میلیارد پارامتری عمل کنند و تنها به ۲ گیگابایت (برای E2B) و ۳ گیگابایت (برای E4B) حافظه نیاز داشته باشند.
معماری پیشگامانه: در قلب Gemma 3n، مؤلفه‌های نوینی نظیر معماری MatFormer برای انعطاف‌پذیری محاسباتی، تعبیه‌سازی‌های هر لایه (Per Layer Embeddings – PLE) برای بهره‌وری حافظه، LAuReL و AltUp برای بهره‌وری معماری، و کدگذارهای جدید صوتی و بینایی مبتنی بر MobileNet-v5 بهینه‌سازی شده برای موارد استفاده روی دستگاه، قرار دارند.
کیفیت بهبودیافته: Gemma 3n بهبودهای کیفیتی چشمگیری را در چندزبانی بودن (پشتیبانی از ۱۴۰ زبان برای فهم متن و ۳۵ زبان برای فهم چندوجهی)، ریاضیات، کدنویسی و استدلال ارائه می‌دهد. نسخه E4B امتیاز LMArena بیش از ۱۳۰۰ را کسب کرده و بدین ترتیب اولین مدلی با کمتر از ۱۰ میلیارد پارامتر است که به این بنچمارک دست یافته است. نمودار LM Arena Elo Score، عملکرد Gemma 3n E4B را با امتیاز ۱۳۰۳ نشان می‌دهد، که آن را در رتبه‌ای بالاتر از Llama 4 Maverick (1292) و GPT 4.1-nano (1288) و Phi-4 (1223) قرار می‌دهد، و تنها Gemini 1.5 Pro با ۱۳۲۰ امتیاز بالاتر از آن است.

MatFormer: یک مدل، اندازه‌های متنوع

هسته اصلی Gemma 3n، معماری MatFormer (Matryoshka Transformer) است؛ یک ترنسفورمر تو در تو و نوین که برای استنتاج الاستیک طراحی شده است. این مفهوم را می‌توان مانند عروسک‌های ماتروشکا تصور کرد: یک مدل بزرگ‌تر حاوی نسخه‌های کوچک‌تر و کاملاً کاربردی از خود است. این رویکرد، ایده یادگیری بازنمایی ماتروشکا را از صرفاً تعبیه‌سازی‌ها به تمامی مؤلفه‌های ترنسفورمر گسترش می‌دهد.

در طول آموزش مدل E4B با پارامترهای مؤثر ۴ میلیارد، یک زیرمدل E2B با پارامترهای مؤثر ۲ میلیارد به‌طور همزمان در آن بهینه‌سازی می‌شود. این قابلیت‌ها دو ویژگی قدرتمند و مورد استفاده را برای توسعه‌دهندگان فراهم می‌آورد:

مدل‌های از پیش استخراج شده: توسعه‌دهندگان می‌توانند به‌طور مستقیم مدل اصلی E4B را برای دستیابی به بالاترین قابلیت‌ها یا زیرمدل مستقل E2B را که از پیش استخراج شده و تا ۲ برابر سرعت استنتاج سریع‌تر ارائه می‌دهد، دانلود و استفاده کنند.
اندازه‌های سفارشی با Mix-n-Match: برای کنترل دقیق‌تر متناسب با محدودیت‌های سخت‌افزاری خاص، می‌توان طیفی از مدل‌های با اندازه‌های سفارشی بین E2B و E4B را با استفاده از روشی به نام Mix-n-Match ایجاد کرد. این تکنیک به شما امکان می‌دهد پارامترهای مدل E4B را به‌طور دقیق برش دهید، عمدتاً با تنظیم ابعاد پنهان شبکه پیش‌خور در هر لایه (از ۸۱۹۲ به ۱۶۳۸۴) و به‌طور انتخابی از برخی لایه‌ها صرف‌نظر کنید. ابزار MatFormer Lab نیز منتشر شده است که نشان می‌دهد چگونه می‌توان این مدل‌های بهینه را که با ارزیابی تنظیمات مختلف بر روی بنچمارک‌هایی مانند MMLU شناسایی شده‌اند، بازیابی کرد.

تعبیه‌سازی‌های هر لایه (PLE): افزایش بهره‌وری حافظه

مدل‌های Gemma 3n شامل تعبیه‌سازی‌های هر لایه (PLE) هستند. این نوآوری برای استقرار روی دستگاه مناسب است، زیرا کیفیت مدل را به‌طور چشمگیری بهبود می‌بخشد بدون آنکه میزان حافظه پرسرعت مورد نیاز بر روی شتاب‌دهنده دستگاه (GPU/TPU) افزایش یابد. در حالی که مدل‌های Gemma 3n E2B و E4B به‌ترتیب دارای ۵ میلیارد و ۸ میلیارد پارامتر هستند ، PLE امکان بارگذاری و محاسبه کارآمد بخش قابل توجهی از این پارامترها (تعبیه‌سازی‌های مرتبط با هر لایه) را بر روی CPU فراهم می‌آورد. این بدین معنی است که تنها وزن‌های اصلی ترنسفورمر (حدود ۲ میلیارد برای E2B و ۴ میلیارد برای E4B) نیاز به قرار گرفتن در حافظه شتاب‌دهنده (VRAM) که معمولاً محدودتر است، دارند. با استفاده از تعبیه‌سازی‌های هر لایه، می‌توانید از Gemma 3n E2B با تنها حدود ۲ میلیارد پارامتر بارگذاری شده در شتاب‌دهنده خود استفاده کنید.

اشتراک‌گذاری KV Cache: پردازش سریع‌تر متون طولانی

پردازش ورودی‌های طولانی، مانند دنباله‌های حاصل از جریان‌های صوتی و تصویری، برای بسیاری از کاربردهای پیشرفته چندوجهی روی دستگاه ضروری است. Gemma 3n قابلیت اشتراک‌گذاری KV Cache را معرفی می‌کند، که برای تسریع قابل توجه زمان تا اولین توکن در کاربردهای پاسخ‌گویی جریانی طراحی شده است. اشتراک‌گذاری KV Cache نحوه مدیریت مدل در مرحله اولیه پردازش ورودی (که اغلب فاز “prefill” نامیده می‌شود) را بهینه‌سازی می‌کند. کلیدها و مقادیر لایه‌های میانی از توجه محلی و جهانی مستقیماً با تمامی لایه‌های بالایی به اشتراک گذاشته می‌شوند و عملکرد prefill را در مقایسه با Gemma 3 4B دو برابر بهبود می‌بخشند. این بدان معنی است که مدل می‌تواند دنباله‌های پرامت طولانی را بسیار سریع‌تر از قبل دریافت و درک کند.

درک صوتی: معرفی تبدیل گفتار به متن و ترجمه

Gemma 3n از یک کدگذار صوتی پیشرفته مبتنی بر مدل گفتار جهانی (Universal Speech Model – USM) استفاده می‌کند. این کدگذار برای هر ۱۶۰ میلی‌ثانیه از صدا یک توکن تولید می‌کند (تقریباً ۶ توکن در ثانیه)، که سپس به‌عنوان ورودی به مدل زبان ادغام می‌شود و بازنمایی دقیقی از زمینه صوتی ارائه می‌دهد. این قابلیت صوتی یکپارچه، ویژگی‌های کلیدی را برای توسعه روی دستگاه فراهم می‌آورد، از جمله:

تشخیص خودکار گفتار (ASR): امکان تبدیل با کیفیت گفتار به متن را مستقیماً روی دستگاه فراهم می‌سازد.
ترجمه خودکار گفتار (AST): زبان گفتاری را به متن در زبان دیگر ترجمه می‌کند.نتایج AST به‌ویژه برای ترجمه بین انگلیسی و اسپانیایی، فرانسوی، ایتالیایی و پرتغالی بسیار قوی است، که پتانسیل بالایی را برای توسعه‌دهندگانی که کاربردهایی را در این زبان‌ها هدف قرار می‌دهند، ارائه می‌دهد. برای کارهایی مانند ترجمه گفتار، استفاده از روش Chain-of-Thought می‌تواند نتایج را به‌طور قابل توجهی بهبود بخشد.

MobileNet-V5: کدگذار بینایی پیشرفته و با قابلیت‌های هنری

در کنار قابلیت‌های صوتی یکپارچه، Gemma 3n از یک کدگذار بینایی جدید و بسیار کارآمد، MobileNet-V5-300M، بهره می‌برد که عملکردی در سطح هنری برای کارهای چندوجهی روی دستگاه‌های لبه ارائه می‌دهد. MobileNet-V5 که برای انعطاف‌پذیری و قدرت در سخت‌افزارهای محدود طراحی شده است، ویژگی‌های زیر را در اختیار توسعه‌دهندگان قرار می‌دهد:

رزولوشن‌های ورودی چندگانه: به‌طور بومی از رزولوشن‌های ۲۵۶×۲۵۶، ۵۱۲×۵۱۲، و ۷۶۸×۷۶۸ پیکسل پشتیبانی می‌کند، که به شما امکان می‌دهد بین عملکرد و جزئیات برای کاربردهای خاص خود تعادل برقرار کنید.
درک بصری گسترده: با آموزش بر روی مجموعه داده‌های چندوجهی گسترده، در طیف وسیعی از وظایف درک تصویر و ویدئو عالی عمل می‌کند.
توان عملیاتی بالا: تا ۶۰ فریم در ثانیه را بر روی یک Google Pixel پردازش می‌کند، که امکان تحلیل ویدئوی بلادرنگ روی دستگاه و تجربیات تعاملی را فراهم می‌آورد.

این سطح از عملکرد با نوآوری‌های معماری متعدد، از جمله مبنای پیشرفته‌ای از بلوک‌های MobileNet-V4، معماری به‌طور قابل توجهی مقیاس‌بندی شده، و یک آداپتور Multi-Scale Fusion VLM نوین، حاصل شده است. MobileNet-V5-300M به‌طور قابل ملاحظه‌ای از SoVIT پایه در Gemma 3 پیشی می‌گیرد و بر روی یک Google Pixel Edge TPU، با کوانتیزاسیون ۱۳ برابر و بدون کوانتیزاسیون ۶.۵ برابر سرعت بیشتری را ارائه می‌دهد، به ۴۶ درصد پارامتر کمتر نیاز دارد و دارای ردپای حافظه ۴ برابر کوچک‌تر است، در حالی که دقت بسیار بالاتری را در وظایف بینایی-زبان فراهم می‌آورد.

ساخت با جامعه توسعه‌دهندگان

در دسترس قرار دادن Gemma 3n از روز اول یک اولویت بوده است. همکاری با بسیاری از توسعه‌دهندگان برجسته متن‌باز برای اطمینان از پشتیبانی گسترده در ابزارها و پلتفرم‌های محبوب، از جمله مشارکت تیم‌های AMD، Axolotl، Docker، Hugging Face، llama.cpp، LMStudio، MLX، NVIDIA، Ollama، RedHat، SGLang، Unsloth و vLLM، مایه افتخار است. با این حال، این اکوسیستم تنها آغاز راه است؛ قدرت واقعی این فناوری در چیزی است که توسعه‌دهندگان با آن خواهند ساخت. به همین دلیل، “چالش تأثیر Gemma 3n” راه‌اندازی شده است. مأموریت این چالش، استفاده از قابلیت‌های منحصر به فرد روی دستگاه، آفلاین و چندوجهی Gemma 3n برای ساخت محصولی جهت بهبود جهان است. با ۱۵۰,۰۰۰ دلار جایزه، به دنبال یک داستان ویدئویی جذاب و یک دمو “شگفت‌انگیز” هستیم که تأثیر واقعی در جهان را نشان دهد.

شروع به کار با Gemma 3n

برای کاوش در پتانسیل Gemma 3n، می‌توانید:

مستقیماً آزمایش کنید: از Google AI Studio برای امتحان Gemma 3n با چند کلیک ساده استفاده کنید. مدل‌های Gemma را می‌توان مستقیماً از AI Studio به Cloud Run نیز استقرار داد.
با ابزارهای محبوب AI روی دستگاه بسازید: Google AI Edge Gallery/LiteRT-LLM، Ollama، MLX، llama.cpp، Docker، transformers.js و موارد دیگر.
از ابزارهای توسعه مورد علاقه خود استفاده کنید: از ابزارها و چارچوب‌های مورد علاقه خود از جمله Hugging Face Transformers و TRL، NVIDIA NeMo Framework، Unsloth و LMStudio بهره ببرید.
به روش خود استقرار دهید: Gemma 3n گزینه‌های استقرار متعددی از جمله Google GenAI API، Vertex AI، SGLang، vLLM و NVIDIA API Catalog را ارائه می‌دهد.

منبع