باختصار
الـ ARC (AI2 Reasoning Challenge) (تحدّي الاستدلال من AI2) — اختبار أسئلة علوم من مستوى المدرسة — لكنه صعب على النماذج لأنه محتاج تفكير واستنتاج مش مجرد حفظ معلومات.
بالتفصيل
من غير تقييم ومقارنة، مش هنعرف إذا كان النموذج الجديد أحسن فعلاً من القديم.
من غير معايير تقييم موضوعية، كل شركة هتقول إن نموذجها الأحسن. الـ ARC بيساعد المجتمع يقارن بين النماذج بشكل عادل ومبني على بيانات حقيقية. ده مهم للمطوّرين والشركات والباحثين على حد سواء — لأن اختيار النموذج الصح ممكن يفرق كتير في النتايج.
مثال عملي
لما OpenAI أو Google بتطلق نموذج جديد، أول حاجة الباحثين والمطوّرين بيبصوا عليها هي نتايجه على المعايير القياسية. الـ ARC بيساعد كل الناس — من الشركات الكبيرة للمطوّرين المستقلين — إنهم يقرروا أي نموذج يستخدموا لمهمة معينة. من غير أدوات تقييم موضوعية، كان هيبقى كله كلام تسويقي.
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي