🔴 خبر عاجل Anthropic أعلنت عن إطلاق نموذجها الجديد Claude Sonnet 4.6، واللي بيقدّم أداء …
أكمل القراءة »إيه هو الـ GRPO؟ | تحسين السياسة النسبية الجماعية
باختصار الـ GRPO هو تقنية تدريب طوّرها فريق DeepSeek، بتقيّم مجموعة إجابات مع بعض وتختار الأفضل نسبيًا من غير ما تحتاج نموذج مكافأة منفصل. الطريقة دي أكفأ وأوفر من الـ RLHF التقليدي. بالتفصيل تخيّل إنك مدرّس وعندك فصل طلاب وكل واحد حل نفس السؤال بطريقة مختلفة. بدل ما تجيب مصحح خارجي (نموذج المكافأة) يقيّم كل إجابة لوحدها، أنت بتقارن إجابات …
أكمل القراءة »
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي













