باختصار
التقطير أو الـ Distillation هو عملية نقل معرفة نموذج ذكاء اصطناعي كبير (اسمه “المعلم”) لنموذج أصغر (اسمه “التلميذ”). الهدف إنك تحصل على نموذج خفيف وسريع بأداء قريب جدًا من النموذج الكبير.
بالتفصيل
تخيّل إن عندك أستاذ جامعة عبقري بيفهم في كل حاجة، بس مش هتقدر تاخده معاك في كل مكان. فبتقعد معاه فترة طويلة وبتتعلّم منه أهم الحاجات اللي يعرفها، وبعدين بتقدر تطبّق اللي اتعلمته لوحدك. أنت مش هتبقى في مستواه بالظبط، بس هتبقى كويس كفاية لمعظم المواقف — وأسرع وأخف منه بكتير. ده بالظبط اللي الـ Knowledge Distillation بيعمله.
في عملية التقطير، النموذج الكبير (Teacher Model) بيكون اتدرّب على بيانات ضخمة وعنده قدرات عالية. النموذج الصغير (Student Model) بيتعلم مش بس الإجابات الصح، لكن كمان بيتعلم طريقة تفكير المعلم — يعني بيتعلم توزيع الاحتمالات الكامل (soft labels) مش بس الإجابة النهائية.
مثلًا لو النموذج المعلم بيصنّف صورة وقال “90% قطة، 8% نمر، 2% كلب”، التلميذ بيتعلم التوزيع ده كله — إن القطة والنمر شبه بعض أكتر من القطة والكلب. المعلومة الإضافية دي بتخلّي التلميذ يتعلم أحسن بكتير من لو كان بس بيتعلم “دي قطة”.
ليه التقطير مهم دلوقتي؟
- النماذج الكبيرة بتكلّف كتير في التشغيل — كل سؤال بيكلّف فلوس حقيقية
- التطبيقات على الموبايل محتاجة نماذج صغيرة وسريعة
- مش كل الشركات تقدر تتحمّل تكلفة تشغيل نماذج عملاقة
- النموذج المقطّر ممكن يكون أسرع 10 مرات مع فقدان 5% بس من الجودة
شركات كتير بتستخدم التقطير عشان توفّر نسخ خفيفة من نماذجها. DeepSeek مثلًا عملوا نسخ مقطّرة من نموذجهم R1 بأحجام مختلفة عشان تناسب أجهزة مختلفة.
مثال عملي
نموذج DeepSeek-R1 الكبير (671 مليار معامل) اتعمله تقطير في نماذج أصغر بكتير زي DeepSeek-R1-Distill-Llama-8B (8 مليار معامل بس). النموذج الصغير ده بيقدر يشتغل على لابتوب عادي وبيدّي نتائج مبهرة في الرياضيات والمنطق — مش بنفس مستوى الكبير بالظبط، بس أحسن بكتير من نماذج تانية في نفس حجمه.
مصطلحات مرتبطة
- التكميم (Quantization)
- التكيّف منخفض الرتبة (LoRA)
- النموذج المُدرَّب مسبقًا (Pre-trained Model)
- نقل التعلّم (Transfer Learning)
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي