مدل‌های Gemma ۴ QAT : فشرده‌سازی مدل‌ها برای موبایل و لپ‌تاپ

تحریریه هوش مصنوعی سیمرغ

4 ساعت ago

مدل‌های Gemma 4 QAT : فشرده‌سازی مدل‌ها برای موبایل و لپ‌تاپ

سیمرغ — ۱۶ خرداد ۱۴۰۵ | گوگل دیپ‌مایند در ادامه‌ی توسعه‌ی سریع خانواده مدل‌های هوش مصنوعی Gemma 4، از نسخه‌های جدیدی رونمایی کرد که با استفاده از تکنیک «آموزش آگاه از کوانتیزاسیون» (Quantization-Aware Training یا QAT) بهینه‌سازی شده‌اند. این به‌روزرسانی انقلابی، نیاز به حافظه (VRAM) را به‌شدت کاهش داده و بازدهی محلی مدل‌ها را روی دستگاه‌های لبه (Edge)، لپ‌تاپ‌ها و پردازنده‌های گرافیکی معمولی به حداکثر می‌رساند.

این معرفی تنها دو ماه پس از رونمایی اولیه Gemma 4 و چند روز پس از عرضه مدل 12B و قابلیت پیش‌بینی چند توکنی (MTP) صورت می‌گیرد تا زنجیره ابزارهای کاربردی گوگل برای توسعه‌دهندگان کامل‌تر شود.

فناوری QAT چیست و چرا یک برگ برنده است؟

کوانتیزاسیون (Quantization) روشی کلیدی برای کاهش حجم مدل‌ها و افزایش سرعت پردازش است تا بتوان آن‌ها را روی سخت‌افزارهای تجاری و خانگی اجرا کرد. با این حال، روش‌های سنتیِ پس از آموزش (PTQ)، معمولاً باعث افت کیفیت و دقت خروجی مدل می‌شوند.

گوگل دیپ‌مایند با به‌کارگیری تکنیک QAT، فرآیند فشرده‌سازی را مستقیماً وارد مرحله‌ی آموزش کرده است؛ به این معنی که مدل در زمان یادگیری، فشرده‌شدن را شبیه‌سازی می‌کند. خروجی این روش، حفظ خیره‌کننده‌ی کیفیت و دقت مدل در مقایسه با روش‌های استاندارد قبلی است.

دیپ‌مایند این ساختار را روی فرمت محبوب Q4_0 پیاده‌سازی کرده و برای مدل‌های سبک‌تر (E2B و E4B)، یک معماری کوانتیزاسیون کاملاً اختصاصی برای موبایل طراحی کرده است.

بهینه‌سازی اختصاصی برای سخت‌افزارهای موبایل

فرمت‌های فشرده‌سازی معمولی اغلب برای پردازنده‌های موبایل سنگین هستند. گوگل برای حل این چالش، یک طرح کوانتیزاسیون سفارشی را مهندسی کرده که پایداری و سرعت فوق‌العاده‌ای به همراه دارد:

اکتیویشن‌های استاتیک (Static Activations): به جای محاسبه آنی و بلادرنگ مقیاس داده‌ها در زمان پاسخ‌گویی، این تنظیمات در طول آموزش پیش‌محاسبه می‌شوند. این کار بار پردازشی چیپست موبایل را به شدت کاهش می‌دهد.
کوانتیزاسیون کانال‌محور (Channel-wise Quantization): ساختار داده‌های فشرده‌شده به گونه‌ای چیده شده است که با شتاب‌دهنده‌های سخت‌افزاری موبایل همخوانی کامل داشته باشد و نیاز به میان‌برهای نرم‌افزاری کند را از بین ببرد.
کوانتیزاسیون ۲ بیتی هدفمند (Targeted 2-bit Quantization): بخش‌هایی از مدل که مسئول تولید توکن‌ها هستند تا حد فوق‌العاده‌ی ۲ بیت فشرده شده‌اند، در حالی که لایه‌های اصلی استدلال برای حفظ هوشمندی مدل، در دقت بالاتری باقی مانده‌اند.
بهینه‌سازی لایه‌های Embedding و KV Cache: تمرکز فشرده‌سازی بر روی لیست واژگان و حافظه کوتاه‌مدت مدل، فضای اشغال‌شده در رم را کاهش داده و امکان چت‌های طولانی را بدون پر شدن حافظه فراهم می‌کند.

یک دستاورد بزرگ: توسعه‌دهندگان می‌توانند انکودرهای صوتی و تصویری را در صورت عدم نیاز حذف کنند. برای مثال، نسخه متنی خالص مدل Gemma 4 E2B اکنون برای اجرا تنها به کمتر از ۱ گیگابایت حافظه نیاز دارد!

دسترسی گسترده و پشتیبانی در اکوسیستم هوش مصنوعی

گوگل برای تسهیل کار توسعه‌دهندگان، از همین امروز پارتنرشیپ‌های گسترده‌ای را برای پشتیبانی از نسخه‌های Gemma 4 QAT آغاز کرده است:

دریافت مستقیم وزن‌ها: وزن‌های مدل Q4_0 و نسخه‌های موبایل هم‌اکنون در پلتفرم Hugging Face در دسترس است. فرمت‌های GGUF برای استفاده در llama.cpp و تنسورهای فشرده برای vLLM آماده شده‌اند.
اجرای آسان روی دسکتاپ: کاربران می‌توانند این مدل‌ها را به صورت محلی و با رابط‌های کاربری ساده‌ای مانند Ollama، LM Studio و llama.cpp اجرا کنند.
استقرار روی موبایل و وب: استفاده از ران‌تایم سبک LiteRT-LM گوگل برای دستگاه‌های همراه و ابزار Transformers.js برای اجرای مستقیم مدل در مرورگر وب فراهم شده است.
پشتیبانی از ابزارهای حرفه‌ای: سازگاری کامل با SGLang، ابزار MLX (بهینه‌شده برای اپل سیلیکون) و پلتفرم Unsloth جهت فاینتون (Fine-tune) سریع مدل‌ها.

منبع: https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4