إيه هو الـ DPO؟ | تحسين التفضيلات المباشر

باختصار

الـ DPO أو تحسين التفضيلات المباشر هو طريقة أبسط من الـ RLHF عشان تعلّم نموذج الذكاء الاصطناعي يرد بشكل أحسن. الفكرة إنك بتديله أزواج من الإجابات — واحدة كويسة وواحدة مش كويسة — وهو بيتعلم مباشرة يفضّل الكويسة، من غير ما تحتاج تبني نموذج مكافأة منفصل.

بالتفصيل

تخيّل إنك بتعلّم حد يطبخ. الطريقة القديمة (RLHF) كانت إنك تجيب شيف متخصص (نموذج المكافأة) يقعد يقيّم كل طبخة ويديك درجة، وبعدين أنت بتستخدم الدرجة دي عشان تتحسن. الموضوع كان شغّال بس معقّد ومكلّف. الـ DPO بقى زي إنك بتقول للمتعلّم: “شوف الطبختين دول — دي أحسن من دي” وخلاص، هو بيفهم لوحده إيه اللي بيخلّي طبخة أحسن من التانية.

تقنيًا، الـ DPO بيشتغل إنه بياخد أزواج من الإجابات: إجابة مفضّلة (preferred) وإجابة مرفوضة (rejected). وبدل ما يدرّب نموذج مكافأة منفصل زي ما بيحصل في الـ RLHF، بيعدّل على النموذج الأصلي مباشرة عشان يزوّد احتمالية الإجابة الكويسة ويقلّل احتمالية الإجابة الوحشة. الميزة الكبيرة هنا إن العملية أبسط بكتير وأسرع في التنفيذ.

الورقة البحثية بتاعة DPO نزلت في 2023 وغيّرت الطريقة اللي الشركات بتحسّن بيها النماذج. بدل ما كان لازم تعمل:

  • تدريب نموذج مكافأة منفصل
  • استخدام خوارزمية PPO المعقّدة
  • موازنة بين أكتر من نموذج في نفس الوقت

بقى عندك خطوة واحدة بس: ديله أمثلة على الكويس والوحش وهو يتعلم. وده وفّر وقت وموارد حاسوبية كتير، وخلّى حتى الفرق الصغيرة تقدر تحسّن نماذجها بسهولة.

النتائج بتاعة DPO في أغلب الحالات بتكون قريبة جدًا من الـ RLHF، وساعات أحسن، خصوصًا لما البيانات تكون نضيفة وواضحة. عشان كده شركات كتير زي Meta وMistral بدأوا يستخدموه في تدريب نماذجهم.

مثال عملي

لما شركة Meta كانت بتطوّر Llama 2 Chat، استخدمت تقنيات شبه الـ DPO عشان تعلّم النموذج يرد بطريقة مفيدة وآمنة. مثلًا لو حد سأل “إزاي أعمل كلمة سر قوية؟”، النموذج بيتعلم إن الإجابة اللي فيها خطوات واضحة ونصائح عملية أفضل من الإجابة المبهمة أو القصيرة. وده من غير ما يحتاجوا يبنوا نموذج مكافأة مستقل يقيّم كل رد.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ TruthfulQA؟ | اختبار صدق الإجابات

باختصار الـ TruthfulQA (اختبار صدق الإجابات) — اختبار بيقيس مدى صدق إجابات النموذج — بيسأل …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *