آخر المقالات

إيه هي الـ Chatbot Arena؟ | ساحة مقارنة روبوتات المحادثة

باختصار الـ Chatbot Arena (ساحة مقارنة روبوتات المحادثة) — منصة بتخلّي الناس تقارن بين نموذجين في محادثة عمياء (من غير ما يعرفوا مين مين) وتختار الأفضل — من أعدل طرق تقييم النماذج اللغوية. بالتفصيل من غير تقييم ومقارنة، مش هنعرف إذا كان النموذج الجديد أحسن فعلاً من القديم. من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ …

أكمل القراءة »

إيه هو الـ ARC (AI2 Reasoning Challenge)؟ | تحدّي الاستدلال من AI2

باختصار الـ ARC (AI2 Reasoning Challenge) (تحدّي الاستدلال من AI2) — اختبار أسئلة علوم من مستوى المدرسة — لكنه صعب على النماذج لأنه محتاج تفكير واستنتاج مش مجرد حفظ معلومات. بالتفصيل من غير تقييم ومقارنة، مش هنعرف إذا كان النموذج الجديد أحسن فعلاً من القديم. من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ ARC بيساعد المجتمع …

أكمل القراءة »

إيه هي الـ GSM8K؟ | اختبار مسائل الرياضيات المدرسية

باختصار الـ GSM8K (اختبار مسائل الرياضيات المدرسية) — مجموعة 8500 مسألة حسابية من مستوى المدرسة الابتدائية والإعدادية — بيختبر قدرة النموذج على التفكير الرياضي خطوة بخطوة. بالتفصيل زي ما الطالب بياخد امتحان عشان نعرف مستواه — نماذج الـ AI كمان بتتختبر. من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ GSM8K بيساعد المجتمع يقارن بين النماذج بشكل …

أكمل القراءة »