إيه هو الـ RLHF؟ | التعلّم المعزّز من التغذية الراجعة البشرية

باختصار

الـ RLHF (اختصار Reinforcement Learning from Human Feedback) هو تقنية تدريب بيتعلّم فيها النموذج من تقييمات بشرية بدل مكافآت آلية. التقنية دي هي اللي خلّت نماذج زي ChatGPT تقدر تولّد إجابات مفيدة وآمنة وطبيعية.

بالتفصيل

تخيّل إنك بتدرّب كلب صغير. مش بتقعد تشرحله النظرية — إنت بتخلّيه يعمل حاجة، ولو عملها صح بتديله مكافأة، ولو عملها غلط بتقوله “لأ” وبتوجّهه. مع الوقت الكلب بيتعلّم إيه اللي بيسعدك. الـ RLHF بيعمل نفس الحاجة بس مع نماذج الذكاء الاصطناعي — بيخلّي بشر حقيقيين يقيّموا إجابات النموذج عشان يتعلّم إيه الكويس وإيه الوحش.

العملية بتمشي على تلات خطوات أساسية:

  • الخطوة الأولى: بتدرّب النموذج الأساسي على كمية ضخمة من النصوص عشان يتعلّم اللغة (ده الـ Pre-training)
  • الخطوة التانية: بتجيب مقيّمين بشريين يشوفوا إجابات مختلفة من النموذج ويرتّبوها من الأحسن للأسوأ. البيانات دي بتتستخدم عشان تبني Reward Model أو نموذج المكافأة — وده نموذج تاني بيتعلّم يقيّم الإجابات زي ما البشر بيقيّموها
  • الخطوة التالتة: بتستخدم الـ Reinforcement Learning (وتحديدًا خوارزمية PPO) عشان تدرّب النموذج الأصلي إنه يولّد إجابات بتاخد مكافآت عالية من نموذج المكافأة

الـ RLHF هو السبب إن نماذج اللغة الحديثة بقت بتتكلم بشكل طبيعي وبتتجنّب المحتوى الضار وبتعترف لما مش عارفة حاجة. من غيره، النموذج كان هيبقى زي موسوعة بتقرا منها بدون إحساس — بيعرف حاجات كتير بس مش عارف يقدّمها بشكل مفيد. في الفترة الأخيرة، ظهرت بدائل زي الـ DPO والـ GRPO اللي بتحاول توصل لنفس النتيجة بطرق أبسط.

مثال عملي

لما بتسأل ChatGPT سؤال طبي، بدل ما يديك تشخيص مباشر (اللي ممكن يكون خطير)، بيقولك “أنا مش طبيب ومحتاج تستشير متخصص” وبعدين بيديك معلومات عامة مفيدة. السلوك الحذر والمفيد ده مش جه من البيانات — جه من الـ RLHF اللي المقيّمين البشريين علّموا النموذج إن الإجابة الآمنة أحسن من الإجابة المباشرة في المواضيع الحساسة.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ Mixture of Experts (MoE)؟ | مزيج الخبراء

باختصار الـ Mixture of Experts (MoE) (مزيج الخبراء) — بنية نموذج فيها عدة شبكات “خبيرة” …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *