إيه هو الـ RLHF؟ | التعلّم المعزّز من التغذية البشرية

باختصار

الـ RLHF طريقة تدريب بتستخدم تقييمات بشرية لتعليم النموذج يطلع إجابات أحسن وأأمن وأكثر توافقاً مع تفضيلات الإنسان.

بالتفصيل

RLHF اختصار لـ Reinforcement Learning from Human Feedback. الفكرة إن النموذج بيولّد ردود متعددة، وبشر حقيقيين بيختاروا الأحسن، والنموذج بيتعلم منهم.

العملية لها ثلاث مراحل: أولاً السؤال والإجابة العادية، ثانياً تدريب «نموذج المكافأة» على اختيارات البشر، وأخيراً استخدام Reinforcement Learning عشان النموذج يحاول يكسب أعلى مكافأة.

ChatGPT وClaude وGemini كلهم استخدموا RLHF — وده اللي خلاهم أكثر أدباً وأمان مقارنة بالنماذج الخام.

مثال عملي

لما OpenAI دربت GPT-3.5، كانوا بيعرضوا على موظفين ردودين لنفس السؤال ويطلبوا منهم يختاروا الأفضل. من الاختيارات دي، بنوا نموذج مكافأة علّم GPT يولّد ردود أحسن.

مصطلحات مرتبطة

Reinforcement Learning، Fine-tuning، Constitutional AI، PPO

شاهد أيضاً

Anthropic تطلق Claude Sonnet 4.6 — أداء Opus بخُمس التكلفة

🔴 خبر عاجل Anthropic أعلنت عن إطلاق نموذجها الجديد Claude Sonnet 4.6، واللي بيقدّم أداء …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *