إيه هو الـ Distillation؟ | تقطير المعرفة

باختصار

الـ Knowledge Distillation طريقة لتحويل نموذج ضخم وغالي التشغيل لنموذج أصغر وأسرع مع الاحتفاظ بمعظم ذكائه.

بالتفصيل

Knowledge Distillation أو «تقطير المعرفة» هو عملية بيكون فيها «نموذج مُعلّم» كبير يدرّب «نموذج طالب» أصغر.

الفكرة مش بس إن الطالب يتقلّد إجابات المعلم الصح/غلط، لكن يتعلم كيفية تفكير المعلم — احتمالات كل إجابة وليس مجرد الإجابة النهائية. ده بيعطي الطالب معرفة أغنى من مجرد البيانات الأصلية.

مثال حديث: GPT-4 دريّب نماذج أصغر زي GPT-4o Mini — اللي بيكون أسرع وأرخص مع أداء قريب جداً للنموذج الكبير.

مثال عملي

Phi-3 من Microsoft نموذج صغير (3.8 مليار معامل) تدرّب بتقطير المعرفة من نماذج أكبر. النتيجة: يشتغل على الموبايل وبيؤدي أداء قريب من GPT-3.5 في كتير من المهام.

مصطلحات مرتبطة

Fine-tuning، Model Pruning، Quantization، Teacher-Student Models

شاهد أيضاً

Anthropic تطلق Claude Sonnet 4.6 — أداء Opus بخُمس التكلفة

🔴 خبر عاجل Anthropic أعلنت عن إطلاق نموذجها الجديد Claude Sonnet 4.6، واللي بيقدّم أداء …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *