إيه هو الـ Dropout؟ | الإسقاط العشوائي

باختصار

الـ Dropout هو تقنية تنظيم بتطفي خلايا عصبية عشوائية أثناء التدريب. الفكرة إنها بتجبر النموذج إنه ما يعتمدش على خلايا محددة، وبالتالي يتعلم بشكل أقوى وأكتر تعميماً.

بالتفصيل

تخيل فريق شغل فيه 10 أشخاص، بس كل يوم بتختار 3 منهم عشوائياً يقعدوا في البيت. الباقي لازم يغطّوا شغل زمايلهم. بعد فترة، كل واحد في الفريق هيبقى عارف يعمل حاجات كتير مش بس وظيفته. الفريق ككل هيبقى أقوى وأكتر مرونة. ده بالظبط اللي بيعمله الـ Dropout مع الخلايا العصبية في الشبكة.

في الشبكات العصبية (Neural Networks)، كل طبقة فيها عدد من الخلايا العصبية (Neurons) اللي بتشتغل مع بعض. المشكلة إن بعض الخلايا ممكن تبقى معتمدة على خلايا تانية بشكل زيادة عن اللزوم — يعني لو خلية معينة اتشالت، كل الشبكة بتتأثر. ده نوع من الـ Overfitting.

الـ Dropout بيحل المشكلة دي بإنه في كل خطوة تدريب، بيطفي نسبة من الخلايا العصبية عشوائياً. مثلاً لو حطيت Dropout Rate = 0.3، كل خطوة تدريب 30% من الخلايا هيتم تجاهلها — كأنها مش موجودة. الخلايا اللي بيتم اختيارها بتتغير كل خطوة، فالنموذج مش بيعرف مين هيروح.

النتيجة إن كل خلية بتتعلم تشتغل بشكل مستقل وما تعتمدش على خلايا تانية محددة. وده بيخلي النموذج يتعلم تمثيلات (Representations) أقوى وأكتر تنوعاً. المهم إن الـ Dropout بيتطبق بس أثناء التدريب — لما النموذج بيشتغل فعلاً على بيانات حقيقية (في مرحلة الـ Inference)، كل الخلايا بتكون شغالة.

الـ Dropout بيتحط عادةً بعد الطبقات المتصلة بالكامل (Fully Connected Layers) ونسبته بتتراوح من 0.2 لـ 0.5 حسب حجم الشبكة ونوع المشكلة.

مثال عملي

لو بتدرّب شبكة عصبية تتعرف على المشاعر في النصوص العربية، ومن غير Dropout النموذج بيجيب 99% على بيانات التدريب بس 70% على بيانات الاختبار. لما تضيف Dropout بنسبة 0.3، أداء التدريب بينزل شوية لـ 90% بس أداء الاختبار بيطلع لـ 85%. يعني النموذج بقى يفهم فعلاً مش بيحفظ.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ Mixture of Experts (MoE)؟ | مزيج الخبراء

باختصار الـ Mixture of Experts (MoE) (مزيج الخبراء) — بنية نموذج فيها عدة شبكات “خبيرة” …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *