باختصار
الـ Quantization تقنية بتقلل حجم النموذج وتسرّع تشغيله عن طريق تبسيط الأرقام التي يخزّنها — مع خسارة بسيطة في الدقة.
بالتفصيل
النماذج الضخمة بتخزّن معاملاتها بدقة عالية (32-bit أو 16-bit). Quantization بتقلل الدقة دي (لـ 8-bit أو 4-bit) — زي ما لو حوّلت صورة من TIFF لـ JPEG. الصورة أصغر وتقدر تفتحها أسرع، مع فقدان طفيف في الجودة.
عند تقليل النموذج من 16-bit لـ 4-bit، حجمه بيقل 4 مرات. يعني نموذج كان محتاج 80GB RAM ممكن يشتغل على 20GB — على GPU عادي.
مثال عملي
Llama 3 70B في نسخته الأصلية محتاج حوالي 140GB VRAM. بعد Quantization لـ 4-bit، ينزل لـ 35GB ويشتغل على 2 RTX 4090 عادية. الجودة تنقص بشكل طفيف غير محسوس في أغلب المهام.
مصطلحات مرتبطة
LoRA، Model Pruning، Knowledge Distillation، GPTQ
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي