إيه هو الـ Dataset؟ | مجموعة البيانات

باختصار

الـ Dataset هو مجموعة منظّمة من البيانات (نصوص أو صور أو أرقام) بتُستخدم لتدريب أو تقييم نماذج الذكاء الاصطناعي (AI Models).

بالتفصيل

لو الـ AI Model هو الطالب، فالـ Dataset هو الكتب اللي بيذاكر منها. من غير بيانات كويسة ومنظمة، أي نموذج ذكاء اصطناعي مش هيقدر يتعلّم حاجة مفيدة. ببساطة: جودة الـ Dataset بتحدد جودة الـ Model. لو علّمت النموذج على بيانات غلط أو ناقصة، هيطلّع نتائج غلط — زي ما بيقولوا بالإنجليزي: Garbage In, Garbage Out.

الـ Dataset ممكن يبقى أي نوع من البيانات. لو بتدرّب نموذج على فهم اللغة العربية، الـ Dataset هيبقى ملايين الجمل والنصوص بالعربي. لو بتدرّب نموذج على التعرف على القطط في الصور، الـ Dataset هيبقى آلاف الصور لقطط ولحاجات تانية مش قطط (عشان النموذج يتعلّم الفرق). لو بتدرّب نموذج على التنبؤ بأسعار الأسهم، الـ Dataset هيبقى بيانات تاريخية لأسعار الأسهم.

فيه Datasets مشهورة ومفتوحة المصدر بيستخدمها الباحثين في كل العالم. مثلًا ImageNet فيه أكتر من 14 مليون صورة متصنّفة، وCommon Crawl فيه مليارات صفحات الويب اللي نماذج زي GPT اتدرّبت عليها. وفيه Datasets خاصة بتبنيها الشركات لنفسها — زي بيانات محادثات المستخدمين اللي OpenAI بتستخدمها عشان تحسّن ChatGPT.

من أكبر التحديات في مجال الـ AI هو التحيّز (Bias) في البيانات. لو الـ Dataset فيه تمثيل أكتر لثقافة معيّنة أو لغة معيّنة، النموذج هيبقى شاطر في الثقافة دي بس وضعيف في غيرها. عشان كده بناء Datasets متنوعة وعادلة بقى من أهم المواضيع في أخلاقيات الـ AI.

مثال عملي

لما Google عايزة تحسّن خدمة Google Translate للعربي، بتجمع Dataset ضخم فيه ملايين الجمل بالعربي مع ترجمتها بالإنجليزي (والعكس). الجمل دي جاية من كتب مترجمة، مواقع إنترنت، وثائق رسمية، وغيره. النموذج بيتدرّب على الجمل دي عشان يتعلّم العلاقة بين اللغتين. كل ما الـ Dataset كان أكبر وأدق، كل ما الترجمة طلعت أحسن.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ TruthfulQA؟ | اختبار صدق الإجابات

باختصار الـ TruthfulQA (اختبار صدق الإجابات) — اختبار بيقيس مدى صدق إجابات النموذج — بيسأل …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *