سیمرغ — ۱۶ خرداد ۱۴۰۵ | گوگل دیپمایند در ادامهی توسعهی سریع خانواده مدلهای هوش مصنوعی Gemma 4، از نسخههای جدیدی رونمایی کرد که با استفاده از تکنیک «آموزش آگاه از کوانتیزاسیون» (Quantization-Aware Training یا QAT) بهینهسازی شدهاند. این بهروزرسانی انقلابی، نیاز به حافظه (VRAM) را بهشدت کاهش داده و بازدهی محلی مدلها را روی دستگاههای لبه (Edge)، لپتاپها و پردازندههای گرافیکی معمولی به حداکثر میرساند.
این معرفی تنها دو ماه پس از رونمایی اولیه Gemma 4 و چند روز پس از عرضه مدل 12B و قابلیت پیشبینی چند توکنی (MTP) صورت میگیرد تا زنجیره ابزارهای کاربردی گوگل برای توسعهدهندگان کاملتر شود.
فناوری QAT چیست و چرا یک برگ برنده است؟
کوانتیزاسیون (Quantization) روشی کلیدی برای کاهش حجم مدلها و افزایش سرعت پردازش است تا بتوان آنها را روی سختافزارهای تجاری و خانگی اجرا کرد. با این حال، روشهای سنتیِ پس از آموزش (PTQ)، معمولاً باعث افت کیفیت و دقت خروجی مدل میشوند.
گوگل دیپمایند با بهکارگیری تکنیک QAT، فرآیند فشردهسازی را مستقیماً وارد مرحلهی آموزش کرده است؛ به این معنی که مدل در زمان یادگیری، فشردهشدن را شبیهسازی میکند. خروجی این روش، حفظ خیرهکنندهی کیفیت و دقت مدل در مقایسه با روشهای استاندارد قبلی است.
دیپمایند این ساختار را روی فرمت محبوب Q4_0 پیادهسازی کرده و برای مدلهای سبکتر (E2B و E4B)، یک معماری کوانتیزاسیون کاملاً اختصاصی برای موبایل طراحی کرده است.
بهینهسازی اختصاصی برای سختافزارهای موبایل
فرمتهای فشردهسازی معمولی اغلب برای پردازندههای موبایل سنگین هستند. گوگل برای حل این چالش، یک طرح کوانتیزاسیون سفارشی را مهندسی کرده که پایداری و سرعت فوقالعادهای به همراه دارد:
- اکتیویشنهای استاتیک (Static Activations): به جای محاسبه آنی و بلادرنگ مقیاس دادهها در زمان پاسخگویی، این تنظیمات در طول آموزش پیشمحاسبه میشوند. این کار بار پردازشی چیپست موبایل را به شدت کاهش میدهد.
- کوانتیزاسیون کانالمحور (Channel-wise Quantization): ساختار دادههای فشردهشده به گونهای چیده شده است که با شتابدهندههای سختافزاری موبایل همخوانی کامل داشته باشد و نیاز به میانبرهای نرمافزاری کند را از بین ببرد.
- کوانتیزاسیون ۲ بیتی هدفمند (Targeted 2-bit Quantization): بخشهایی از مدل که مسئول تولید توکنها هستند تا حد فوقالعادهی ۲ بیت فشرده شدهاند، در حالی که لایههای اصلی استدلال برای حفظ هوشمندی مدل، در دقت بالاتری باقی ماندهاند.
- بهینهسازی لایههای Embedding و KV Cache: تمرکز فشردهسازی بر روی لیست واژگان و حافظه کوتاهمدت مدل، فضای اشغالشده در رم را کاهش داده و امکان چتهای طولانی را بدون پر شدن حافظه فراهم میکند.
یک دستاورد بزرگ: توسعهدهندگان میتوانند انکودرهای صوتی و تصویری را در صورت عدم نیاز حذف کنند. برای مثال، نسخه متنی خالص مدل Gemma 4 E2B اکنون برای اجرا تنها به کمتر از ۱ گیگابایت حافظه نیاز دارد!
دسترسی گسترده و پشتیبانی در اکوسیستم هوش مصنوعی
گوگل برای تسهیل کار توسعهدهندگان، از همین امروز پارتنرشیپهای گستردهای را برای پشتیبانی از نسخههای Gemma 4 QAT آغاز کرده است:
- دریافت مستقیم وزنها: وزنهای مدل Q4_0 و نسخههای موبایل هماکنون در پلتفرم Hugging Face در دسترس است. فرمتهای GGUF برای استفاده در llama.cpp و تنسورهای فشرده برای vLLM آماده شدهاند.
- اجرای آسان روی دسکتاپ: کاربران میتوانند این مدلها را به صورت محلی و با رابطهای کاربری سادهای مانند Ollama، LM Studio و llama.cpp اجرا کنند.
- استقرار روی موبایل و وب: استفاده از رانتایم سبک LiteRT-LM گوگل برای دستگاههای همراه و ابزار Transformers.js برای اجرای مستقیم مدل در مرورگر وب فراهم شده است.
- پشتیبانی از ابزارهای حرفهای: سازگاری کامل با SGLang، ابزار MLX (بهینهشده برای اپل سیلیکون) و پلتفرم Unsloth جهت فاینتون (Fine-tune) سریع مدلها.

