إيه هو الـ Gradient Descent؟ | الانحدار التدريجي

باختصار

الـ Gradient Descent هو خوارزمية التحسين الأساسية في Machine Learning — بتعدّل معاملات النموذج خطوة بخطوة عشان تقلّل الخطأ في التنبّؤات. زي ما تكون بتنزل من جبل في الضلمة وبتحسّ بقدمك عشان تلاقي أقل نقطة.

بالتفصيل

تخيّل إنك واقف على جبل في ضلمة حالكة ومش شايف حاجة، وعايز توصل لأقل نقطة في الوادي. الطريقة الوحيدة إنك تحسّ بالأرض تحت رجلك وتمشي في الاتجاه اللي الأرض فيه بتنزل. كل خطوة بتقرّبك من الوادي أكتر. ده بالظبط اللي بيعمله الـ Gradient Descent.

في Machine Learning، “الجبل” ده هو الـ Loss Function أو دالة الخسارة — وهي مقياس بيقولك النموذج غلطان قد إيه. والـ “الوادي” هو النقطة اللي الخطأ فيها أقل ما يمكن. الخوارزمية بتحسب الـ Gradient أو الميل — يعني في أي اتجاه الخطأ بيقل — وبتاخد خطوة في الاتجاه ده.

حجم الخطوة اسمه الـ Learning Rate أو معدّل التعلّم، وده من أهم الإعدادات. لو الخطوة كبيرة أوي، ممكن تقفز فوق الوادي وما توصلش أبدًا. لو صغيرة أوي، هتاخد وقت طويل جدًا وممكن تتعلّق في وادي صغير (حل محلي) بدل ما توصل للوادي الكبير (الحل الأمثل).

في أنواع مختلفة من الـ Gradient Descent:

  • Batch Gradient Descent: بيحسب الميل على كل البيانات مرة واحدة — دقيق بس بطيء
  • Stochastic Gradient Descent (SGD): بيحسب الميل على نقطة بيانات واحدة — سريع بس مش مستقر
  • Mini-batch Gradient Descent: حل وسط بيحسب الميل على مجموعة صغيرة من البيانات — وده الأكتر استخدامًا عمليًا

الخوارزمية دي هي القلب النابض لتدريب أي نموذج Deep Learning، وبتشتغل مع الـ Backpropagation عشان تحدّد إزاي كل وزن في الشبكة محتاج يتغيّر.

مثال عملي

لو بتدرّب نموذج يتنبّأ بأسعار الشقق، في الأول النموذج بيطلّع تنبّؤات غلط جدًا — يعني الخطأ (الخسارة) عالي. الـ Gradient Descent بيبص على الخطأ ده وبيعدّل الأوزان في اتجاه تقليله. بعد مئات أو آلاف الخطوات، التنبّؤات بتقرّب من الأسعار الحقيقية تدريجيًا لحد ما النموذج يوصل لأقل خطأ ممكن.

مصطلحات مرتبطة

شاهد أيضاً

إيه هو الـ Mixture of Experts (MoE)؟ | مزيج الخبراء

باختصار الـ Mixture of Experts (MoE) (مزيج الخبراء) — بنية نموذج فيها عدة شبكات “خبيرة” …

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *