إيه هو الـ Quantization؟ | التكميم

باختصار

الـ Quantization تقنية بتقلل حجم النموذج وتسرّع تشغيله عن طريق تبسيط الأرقام التي يخزّنها — مع خسارة بسيطة في الدقة.

بالتفصيل

النماذج الضخمة بتخزّن معاملاتها بدقة عالية (32-bit أو 16-bit). Quantization بتقلل الدقة دي (لـ 8-bit أو 4-bit) — زي ما لو حوّلت صورة من TIFF لـ JPEG. الصورة أصغر وتقدر تفتحها أسرع، مع فقدان طفيف في الجودة.

عند تقليل النموذج من 16-bit لـ 4-bit، حجمه بيقل 4 مرات. يعني نموذج كان محتاج 80GB RAM ممكن يشتغل على 20GB — على GPU عادي.

مثال عملي

Llama 3 70B في نسخته الأصلية محتاج حوالي 140GB VRAM. بعد Quantization لـ 4-bit، ينزل لـ 35GB ويشتغل على 2 RTX 4090 عادية. الجودة تنقص بشكل طفيف غير محسوس في أغلب المهام.

مصطلحات مرتبطة

LoRA، Model Pruning، Knowledge Distillation، GPTQ

شاهد أيضاً

إيه هو الـ Mixture of Experts (MoE)؟ | مزيج الخبراء

باختصار الـ Mixture of Experts (MoE) (مزيج الخبراء) — بنية نموذج فيها عدة شبكات “خبيرة” …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *