باختصار
الـ GRPO هو تقنية تدريب طوّرها فريق DeepSeek، بتقيّم مجموعة إجابات مع بعض وتختار الأفضل نسبيًا من غير ما تحتاج نموذج مكافأة منفصل. الطريقة دي أكفأ وأوفر من الـ RLHF التقليدي.
بالتفصيل
تخيّل إنك مدرّس وعندك فصل طلاب وكل واحد حل نفس السؤال بطريقة مختلفة. بدل ما تجيب مصحح خارجي (نموذج المكافأة) يقيّم كل إجابة لوحدها، أنت بتقارن إجابات الطلاب ببعض وبتختار أحسن واحدة نسبيًا. ده بالظبط اللي الـ GRPO بيعمله مع نماذج الذكاء الاصطناعي.
الـ GRPO اختصار لـ Group Relative Policy Optimization، وهو طريقة ابتكرها فريق DeepSeek الصيني. الفكرة إن النموذج بيولّد مجموعة إجابات (group) لنفس السؤال، وبعدين بيقارنهم ببعض ويحدد مين الأحسن نسبيًا (relative) — يعني مش محتاج معيار خارجي ثابت، المقارنة بتكون بين الإجابات نفسها.
الفرق الأساسي بين الـ GRPO والطرق التانية زي الـ RLHF والـ DPO:
- الـ RLHF محتاج نموذج مكافأة منفصل + خوارزمية PPO معقّدة
- الـ DPO محتاج أزواج إجابات (كويسة ووحشة) جاهزة
- الـ GRPO بيولّد الإجابات لوحده ويقارنهم ببعض — أبسط وأكفأ
التقنية دي كانت جزء أساسي من نجاح نموذج DeepSeek-R1 اللي عمل ضجة كبيرة أول 2025. النموذج قدر يوصل لأداء منافس لأكبر النماذج العالمية بموارد أقل بكتير، وجزء كبير من السبب كان استخدام GRPO بدل الطرق التقليدية الأغلى.
الـ GRPO كمان بيتميّز إنه بيشتغل كويس جدًا مع المهام اللي ليها إجابات واضحة صح أو غلط، زي الرياضيات والبرمجة، لأن المقارنة بين الإجابات بتكون أسهل وأدق.
مثال عملي
لما DeepSeek كانوا بيدرّبوا نموذجهم على حل مسائل رياضيات، النموذج كان بيولّد مثلًا 10 حلول لنفس المسألة. الحلول اللي وصلت للإجابة الصح كانت بتاخد تقييم أعلى نسبيًا من اللي غلطت. بالطريقة دي النموذج اتعلّم يحل مسائل أصعب وأصعب من غير ما يحتاجوا يبنوا نموذج مكافأة خاص بالرياضيات.
مصطلحات مرتبطة
- التعلم المعزز من التغذية الراجعة البشرية (RLHF)
- تحسين التفضيلات المباشر (DPO)
- التعلم المعزز (Reinforcement Learning)
- الضبط الدقيق (Fine-tuning)
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي