رسانه تخصصی هوش مصنوعی سیمرغ

هوش مصنوعی Gemma ۳n گوگل

هوش مصنوعی Gemma 3n گوگل

معرفی Gemma 3n: راهنمای جامع توسعه‌دهندگان

به گزارش مجله هوش مصنوعی سیمرغ، نخستین نسخه از مدل Gemma در اوایل سال گذشته میلادی معرفی شد و در مدت زمانی کوتاه، به اکوسیستمی پویـا و پررونق با بیش از ۱۶۰ میلیون بار دانلود دست یافت. این زیست‌بوم هوش مصنوعی شامل مجموعه‌ای از مدل‌های تخصصی است که در حوزه‌هایی چون ایمنی، سلامت و پزشکی به‌کار گرفته شده‌اند. با این حال، آنچه در این میان برجسته‌تر جلوه می‌کند، خلاقیت و نوآوری‌های چشمگیر جامعه توسعه‌دهندگان است — از نمونه‌هایی چون Roboflow در بینایی ماشین سازمانی گرفته تا نسخه‌های قدرتمند ژاپنی که توسط مؤسسه علوم توکیو طراحی و توسعه یافته‌اند. این تلاش‌های جمعی، مسیر پیش روی ما را در تکامل این فناوری هموار کرده‌اند.

اکنون و در ادامه‌ی این دستاوردها، نسخه‌ی کامل Gemma 3n به‌طور رسمی منتشر شده است. اگرچه پیش‌نمایش ماه گذشته تنها نگاهی مقدماتی به توانمندی‌های آن ارائه می‌داد، امروز تمامی ظرفیت‌های این معماری مبتنی بر موبایل در دسترس قرار گرفته است. Gemma 3n با تمرکز ویژه بر نیازهای جامعه توسعه‌دهندگان طراحی شده و با ابزارهایی محبوب مانند Hugging Face Transformers، llama.cpp، Google AI Edge، Ollama، MLX و بسیاری دیگر سازگار است. این مدل امکان آن را فراهم می‌سازد تا به‌آسانی برای کاربردهای خاص و در سطح دستگاه‌های محلی (on-device) سفارشی‌سازی و استقرار یابد.

در ادامه این نوشتار، به بررسی دقیق نوآوری‌های فنی مدل Gemma 3n خواهیم پرداخت، نتایج بنچ‌مارک‌های جدید آن را مرور می‌کنیم، و مسیر آغازین ساخت و توسعه بر بستر این مدل را به‌طور گام‌به‌گام ترسیم خواهیم کرد.

نوآوری‌های برجسته در Gemma 3n

Gemma 3n یک پیشرفت بزرگ در هوش مصنوعی لبه (on-device AI) محسوب می‌شود و قابلیت‌های قدرتمند چندوجهی (multimodal) را با عملکردی که پیش از این تنها در مدل‌های پیشرو مبتنی بر ابر سال گذشته مشاهده می‌شد، به دستگاه‌های لبه می‌آورد.

هوش مصنوعی Gemma 3n گوگل

MatFormer: یک مدل، اندازه‌های متنوع

هسته اصلی Gemma 3n، معماری MatFormer (Matryoshka Transformer) است؛ یک ترنسفورمر تو در تو و نوین که برای استنتاج الاستیک طراحی شده است. این مفهوم را می‌توان مانند عروسک‌های ماتروشکا تصور کرد: یک مدل بزرگ‌تر حاوی نسخه‌های کوچک‌تر و کاملاً کاربردی از خود است. این رویکرد، ایده یادگیری بازنمایی ماتروشکا را از صرفاً تعبیه‌سازی‌ها به تمامی مؤلفه‌های ترنسفورمر گسترش می‌دهد.

در طول آموزش مدل E4B با پارامترهای مؤثر ۴ میلیارد، یک زیرمدل E2B با پارامترهای مؤثر ۲ میلیارد به‌طور همزمان در آن بهینه‌سازی می‌شود. این قابلیت‌ها دو ویژگی قدرتمند و مورد استفاده را برای توسعه‌دهندگان فراهم می‌آورد:

  1. مدل‌های از پیش استخراج شده: توسعه‌دهندگان می‌توانند به‌طور مستقیم مدل اصلی E4B را برای دستیابی به بالاترین قابلیت‌ها یا زیرمدل مستقل E2B را که از پیش استخراج شده و تا ۲ برابر سرعت استنتاج سریع‌تر ارائه می‌دهد، دانلود و استفاده کنند.
  2. اندازه‌های سفارشی با Mix-n-Match: برای کنترل دقیق‌تر متناسب با محدودیت‌های سخت‌افزاری خاص، می‌توان طیفی از مدل‌های با اندازه‌های سفارشی بین E2B و E4B را با استفاده از روشی به نام Mix-n-Match ایجاد کرد. این تکنیک به شما امکان می‌دهد پارامترهای مدل E4B را به‌طور دقیق برش دهید، عمدتاً با تنظیم ابعاد پنهان شبکه پیش‌خور در هر لایه (از ۸۱۹۲ به ۱۶۳۸۴) و به‌طور انتخابی از برخی لایه‌ها صرف‌نظر کنید. ابزار MatFormer Lab نیز منتشر شده است که نشان می‌دهد چگونه می‌توان این مدل‌های بهینه را که با ارزیابی تنظیمات مختلف بر روی بنچمارک‌هایی مانند MMLU شناسایی شده‌اند، بازیابی کرد.

تعبیه‌سازی‌های هر لایه (PLE): افزایش بهره‌وری حافظه

مدل‌های Gemma 3n شامل تعبیه‌سازی‌های هر لایه (PLE) هستند. این نوآوری برای استقرار روی دستگاه مناسب است، زیرا کیفیت مدل را به‌طور چشمگیری بهبود می‌بخشد بدون آنکه میزان حافظه پرسرعت مورد نیاز بر روی شتاب‌دهنده دستگاه (GPU/TPU) افزایش یابد. در حالی که مدل‌های Gemma 3n E2B و E4B به‌ترتیب دارای ۵ میلیارد و ۸ میلیارد پارامتر هستند ، PLE امکان بارگذاری و محاسبه کارآمد بخش قابل توجهی از این پارامترها (تعبیه‌سازی‌های مرتبط با هر لایه) را بر روی CPU فراهم می‌آورد. این بدین معنی است که تنها وزن‌های اصلی ترنسفورمر (حدود ۲ میلیارد برای E2B و ۴ میلیارد برای E4B) نیاز به قرار گرفتن در حافظه شتاب‌دهنده (VRAM) که معمولاً محدودتر است، دارند. با استفاده از تعبیه‌سازی‌های هر لایه، می‌توانید از Gemma 3n E2B با تنها حدود ۲ میلیارد پارامتر بارگذاری شده در شتاب‌دهنده خود استفاده کنید.

اشتراک‌گذاری KV Cache: پردازش سریع‌تر متون طولانی

پردازش ورودی‌های طولانی، مانند دنباله‌های حاصل از جریان‌های صوتی و تصویری، برای بسیاری از کاربردهای پیشرفته چندوجهی روی دستگاه ضروری است. Gemma 3n قابلیت اشتراک‌گذاری KV Cache را معرفی می‌کند، که برای تسریع قابل توجه زمان تا اولین توکن در کاربردهای پاسخ‌گویی جریانی طراحی شده است. اشتراک‌گذاری KV Cache نحوه مدیریت مدل در مرحله اولیه پردازش ورودی (که اغلب فاز “prefill” نامیده می‌شود) را بهینه‌سازی می‌کند. کلیدها و مقادیر لایه‌های میانی از توجه محلی و جهانی مستقیماً با تمامی لایه‌های بالایی به اشتراک گذاشته می‌شوند و عملکرد prefill را در مقایسه با Gemma 3 4B دو برابر بهبود می‌بخشند. این بدان معنی است که مدل می‌تواند دنباله‌های پرامت طولانی را بسیار سریع‌تر از قبل دریافت و درک کند.

درک صوتی: معرفی تبدیل گفتار به متن و ترجمه

Gemma 3n از یک کدگذار صوتی پیشرفته مبتنی بر مدل گفتار جهانی (Universal Speech Model – USM) استفاده می‌کند. این کدگذار برای هر ۱۶۰ میلی‌ثانیه از صدا یک توکن تولید می‌کند (تقریباً ۶ توکن در ثانیه)، که سپس به‌عنوان ورودی به مدل زبان ادغام می‌شود و بازنمایی دقیقی از زمینه صوتی ارائه می‌دهد. این قابلیت صوتی یکپارچه، ویژگی‌های کلیدی را برای توسعه روی دستگاه فراهم می‌آورد، از جمله:

MobileNet-V5: کدگذار بینایی پیشرفته و با قابلیت‌های هنری

در کنار قابلیت‌های صوتی یکپارچه، Gemma 3n از یک کدگذار بینایی جدید و بسیار کارآمد، MobileNet-V5-300M، بهره می‌برد که عملکردی در سطح هنری برای کارهای چندوجهی روی دستگاه‌های لبه ارائه می‌دهد. MobileNet-V5 که برای انعطاف‌پذیری و قدرت در سخت‌افزارهای محدود طراحی شده است، ویژگی‌های زیر را در اختیار توسعه‌دهندگان قرار می‌دهد:

این سطح از عملکرد با نوآوری‌های معماری متعدد، از جمله مبنای پیشرفته‌ای از بلوک‌های MobileNet-V4، معماری به‌طور قابل توجهی مقیاس‌بندی شده، و یک آداپتور Multi-Scale Fusion VLM نوین، حاصل شده است. MobileNet-V5-300M به‌طور قابل ملاحظه‌ای از SoVIT پایه در Gemma 3 پیشی می‌گیرد و بر روی یک Google Pixel Edge TPU، با کوانتیزاسیون ۱۳ برابر و بدون کوانتیزاسیون ۶.۵ برابر سرعت بیشتری را ارائه می‌دهد، به ۴۶ درصد پارامتر کمتر نیاز دارد و دارای ردپای حافظه ۴ برابر کوچک‌تر است، در حالی که دقت بسیار بالاتری را در وظایف بینایی-زبان فراهم می‌آورد.

ساخت با جامعه توسعه‌دهندگان

در دسترس قرار دادن Gemma 3n از روز اول یک اولویت بوده است. همکاری با بسیاری از توسعه‌دهندگان برجسته متن‌باز برای اطمینان از پشتیبانی گسترده در ابزارها و پلتفرم‌های محبوب، از جمله مشارکت تیم‌های AMD، Axolotl، Docker، Hugging Face، llama.cpp، LMStudio، MLX، NVIDIA، Ollama، RedHat، SGLang، Unsloth و vLLM، مایه افتخار است. با این حال، این اکوسیستم تنها آغاز راه است؛ قدرت واقعی این فناوری در چیزی است که توسعه‌دهندگان با آن خواهند ساخت. به همین دلیل، “چالش تأثیر Gemma 3n” راه‌اندازی شده است. مأموریت این چالش، استفاده از قابلیت‌های منحصر به فرد روی دستگاه، آفلاین و چندوجهی Gemma 3n برای ساخت محصولی جهت بهبود جهان است. با ۱۵۰,۰۰۰ دلار جایزه، به دنبال یک داستان ویدئویی جذاب و یک دمو “شگفت‌انگیز” هستیم که تأثیر واقعی در جهان را نشان دهد.

شروع به کار با Gemma 3n

برای کاوش در پتانسیل Gemma 3n، می‌توانید:

Exit mobile version