إيه هو الـ Quantization؟ | التكميم

باختصار

الـ Quantization تقنية بتقلل حجم النموذج وتسرّع تشغيله عن طريق تبسيط الأرقام التي يخزّنها — مع خسارة بسيطة في الدقة.

بالتفصيل

النماذج الضخمة بتخزّن معاملاتها بدقة عالية (32-bit أو 16-bit). Quantization بتقلل الدقة دي (لـ 8-bit أو 4-bit) — زي ما لو حوّلت صورة من TIFF لـ JPEG. الصورة أصغر وتقدر تفتحها أسرع، مع فقدان طفيف في الجودة.

عند تقليل النموذج من 16-bit لـ 4-bit، حجمه بيقل 4 مرات. يعني نموذج كان محتاج 80GB RAM ممكن يشتغل على 20GB — على GPU عادي.

مثال عملي

Llama 3 70B في نسخته الأصلية محتاج حوالي 140GB VRAM. بعد Quantization لـ 4-bit، ينزل لـ 35GB ويشتغل على 2 RTX 4090 عادية. الجودة تنقص بشكل طفيف غير محسوس في أغلب المهام.

مصطلحات مرتبطة

LoRA، Model Pruning، Knowledge Distillation، GPTQ

شاهد أيضاً

Anthropic تطلق Claude Sonnet 4.6 — أداء Opus بخُمس التكلفة

🔴 خبر عاجل Anthropic أعلنت عن إطلاق نموذجها الجديد Claude Sonnet 4.6، واللي بيقدّم أداء …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *