آخر المقالات

إيه هي الـ HumanEval؟ | اختبار تقييم البرمجة

باختصار الـ HumanEval (اختبار تقييم البرمجة) — مجموعة مسائل برمجية بتختبر قدرة النموذج على كتابة كود صحيح — بيديله وصف الدالة والنموذج لازم يكتب الكود وينجح في حالات الاختبار. بالتفصيل إزاي نعرف إن نموذج AI كويس ولا لأ؟ لازم نختبره — وهنا بييجي دور التقييم والمعايير. من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ HumanEval بيساعد …

أكمل القراءة »

إيه هو الـ MMLU؟ | اختبار الفهم اللغوي متعدّد المهام

باختصار الـ MMLU (اختبار الفهم اللغوي متعدّد المهام) — اختبار ضخم بيقيس معرفة النموذج في 57 موضوع مختلف من الرياضيات للتاريخ للقانون — من أشهر المعايير اللي بتتقارن بيها النماذج اللغوية. بالتفصيل إزاي نعرف إن نموذج AI كويس ولا لأ؟ لازم نختبره — وهنا بييجي دور التقييم والمعايير. من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ …

أكمل القراءة »

إيه هو الـ Gradient؟ | المُشتقّة / التدرّج

باختصار الـ Gradient (المُشتقّة / التدرّج) — الاتجاه والمقدار اللي لازم تعدّل فيه أوزان النموذج عشان الخسارة تقل — زي بوصلة بتقولك “روح في الاتجاه ده عشان تحسّن”. كل التدريب مبني على حساب التدرّجات. بالتفصيل ممكن تستخدم الـ AI من غير ما تفهم الرياضيات — بس لو فهمتها، هتبقى أقوى بكتير. مش لازم تكون عالم رياضيات عشان تستخدم الـ AI …

أكمل القراءة »