إيه هو الـ RLHF؟ | التعلّم المعزّز من التغذية البشرية

‏3 ساعات مضت أخبار AI, مصطلحات اضف تعليق 2 زيارة

باختصار

الـ RLHF طريقة تدريب بتستخدم تقييمات بشرية لتعليم النموذج يطلع إجابات أحسن وأأمن وأكثر توافقاً مع تفضيلات الإنسان.

بالتفصيل

RLHF اختصار لـ Reinforcement Learning from Human Feedback. الفكرة إن النموذج بيولّد ردود متعددة، وبشر حقيقيين بيختاروا الأحسن، والنموذج بيتعلم منهم.

العملية لها ثلاث مراحل: أولاً السؤال والإجابة العادية، ثانياً تدريب «نموذج المكافأة» على اختيارات البشر، وأخيراً استخدام Reinforcement Learning عشان النموذج يحاول يكسب أعلى مكافأة.

ChatGPT وClaude وGemini كلهم استخدموا RLHF — وده اللي خلاهم أكثر أدباً وأمان مقارنة بالنماذج الخام.

مثال عملي

لما OpenAI دربت GPT-3.5، كانوا بيعرضوا على موظفين ردودين لنفس السؤال ويطلبوا منهم يختاروا الأفضل. من الاختيارات دي، بنوا نموذج مكافأة علّم GPT يولّد ردود أحسن.

مصطلحات مرتبطة

Reinforcement Learning، Fine-tuning، Constitutional AI، PPO

إيه هو الـ RLHF؟ | التعلّم المعزّز من التغذية البشرية

باختصار

بالتفصيل

مثال عملي

مصطلحات مرتبطة

شاهد أيضاً

اترك تعليقاً إلغاء الرد