باختصار
الـ Training Data هي البيانات اللي بيتدرّب عليها النموذج (Model) عشان يتعلّم الأنماط والعلاقات اللي هيستخدمها بعد كده في الاستدلال (Inference). يعني هي الأساس اللي بيتبني عليه ذكاء أي نظام AI.
بالتفصيل
تخيّل إنك بتعلّم طفل صغير يفرّق بين القطط والكلاب. هتعمل إيه؟ هتوريه صور كتير لقطط وتقوله “دي قطة”، وصور كتير لكلاب وتقوله “ده كلب”. بعد ما يشوف مئات الصور، الطفل هيبدأ يفرّق لوحده حتى لو شاف صورة جديدة ما شافهاش قبل كده. الـ Training Data هي بالظبط “الصور” دي بالنسبة لنموذج الـ AI.
الـ Training Data ممكن تكون أي نوع من البيانات: نصوص، صور، أصوات، أرقام، فيديوهات — حسب المهمة اللي عايز النموذج يتعلمها. لو بتبني نموذج يترجم من عربي لإنجليزي، الـ Training Data هتكون آلاف الجمل بالعربي وترجمتها بالإنجليزي. لو بتبني نموذج يتعرّف على الوشوش، هتكون ملايين الصور لوشوش ناس مختلفة.
الجودة هنا مهمة جدًا. لو البيانات اللي درّبت عليها النموذج فيها أخطاء أو تحيّز (Bias)، النموذج هيتعلّم الأخطاء دي ويكررها. زي ما بيقولوا بالإنجليزي: Garbage In, Garbage Out — لو دخّلت زبالة، هيطلع زبالة. عشان كده الشركات الكبيرة زي Google وOpenAI بتصرف وقت ومجهود ضخم في تنظيف وتجهيز الـ Training Data قبل ما تبدأ تدرّب النماذج بتاعتها.
كمان حجم البيانات بيفرق. النماذج الكبيرة زي GPT-4 اتدرّبت على مليارات الصفحات من الإنترنت والكتب والمقالات. كل ما البيانات كانت أكتر وأنوع، كل ما النموذج بيكون أذكى وأدق في استجاباته.
مثال عملي
لما Netflix بيقترح عليك فيلم تتفرّج عليه، النظام ده اتدرّب على بيانات ملايين المستخدمين — إيه الأفلام اللي اتفرّجوا عليها، إيه اللي حبوه، إيه اللي سابوه في النص. كل ده كان Training Data. النظام اتعلّم من البيانات دي إن اللي بيحب أفلام الأكشن العربي غالبًا بيحب أفلام الإثارة كمان، فبيقترحهاله. من غير الـ Training Data دي، Netflix ما كانش هيعرف يقترح حاجة مناسبة.
مصطلحات مرتبطة
- مجموعة بيانات (Dataset)
- نموذج ذكاء اصطناعي (AI Model)
- التعلّم بإشراف (Supervised Learning)
- التعلّم بدون إشراف (Unsupervised Learning)
- التحيّز (Bias)
قرمصيص للأخبار أخبار الذكاء الاصطناعي بالعربي