معدل التعلم

هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
يرجى مراجعة هذه المقالة وإزالة وسم المقالات غير المراجعة، ووسمها بوسوم الصيانة المناسبة.
من ويكيبيديا، الموسوعة الحرة

معدل التعلم[1] (بالإنجليزية: learning rate)‏ في التعلم والإحصاء الآلي، معلمة ضبط في خوارزمية التحسين التي تحدد حجم الخطوة في كل تكرار أثناء التحرك نحو الحد الأدنى من دالة الخسارة .[2] نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتعلم بها «نموذج التعلم الآلي».[3] غالبًا ما يشار إلى معدل التعلم بالحرف η أو α.

في تحديد معدل التعلم، هناك مفاضلة بين معدل التقارب وتجاوز الحد. في حين أن الاتجاه نحو الحد الأدنى يتم تحديده عادة من خلال التدرج اللوني لوظيفة الخسارة، فإن معدل التعلم يحدد حجم الخطوة التي يتم اتخاذها في هذا الاتجاه.[4] سيجعل معدل التعلم المرتفع جدًا قفزة التعلم أعلى من الحد الأدنى، لكن معدل التعلم المنخفض جدًا سيستغرق وقتًا طويلاً للغاية للالتقاء أو التعثر في الحد الأدنى المحلي غير المرغوب فيه.

من أجل تحقيق تقارب أسرع، ومنع التذبذبات والتوقف في الحد الأدنى المحلي غير المرغوب فيه، غالبًا ما يتغير معدل التعلم أثناء التدريب إما وفقًا لجدول معدل التعلم أو باستخدام معدل تعليمي قابل للتكيف.[5] في طريقة نيوتن، يتم تحديد معدل التعلم بشكل أساسي من الانحناء المحلي لوظيفة الخسارة، وذلك باستخدام معكوس المصفوفة الهيسية كحجم الخطوة.

جدول معدل التعلم[عدل]

يغير جدول معدل التعلم معدل التعلم أثناء التعلم وغالبًا ما يتم تغييره بين الحلقات / التكرارات. ويتم ذلك أساسا مع اثنين من المعلمات: الاضمحلال والزخم . هناك العديد من الجداول الزمنية لمعدلات التعلم المختلفة، لكن الأكثر شيوعًا هي تلك التي تستند إلى الوقت والخطوات الأسية .[5]

الاضمحلال : يعمل الاضمحلال على تسوية التعلم وتجنب التذبذبات الناتجة، وهو الموقف الناتج عن ثبوت معدل التعلم ويتم التحكم به بواسطة المعاملات المتطورة لمقياس تشعبي (hyperparameter).

الزخم هو ايجاد تسوية القيمة عند اقل نقطة لأقل خطأ، يعمل الزخم على تسريع عملية التعلم عندما يتدرج تدرج تكلفة الخطأ في نفس الاتجاه لفترة طويلة وتجنب الحد الادنى المحلي عن طريق تجاوز العثرات الصغيره. يتم التحكم في الزخم بواسطة المعاملات المتطورة أو مقاييس تشعبية.

تعمل جداول التعلم القائمة على الوقت على تغيير معدل التعلم اعتمادًا على معدل التعلم في التكرار الزمني السابق. معاملات الانحلال في الصيغة الرياضية لمعدل التعلم هي:

أين هو معدل التعلم، هو معامل الاضمحلال و هي خطوة التكرار.

تعمل جداول التعلم القائمة على الخطوة على تغيير معدل التعلم وفقًا لبعض الخطوات المحددة مسبقًا. يتم تعريف صيغة تطبيق الاضمحلال على النحو التالي:

أين هو معدل التعلم في التكرار ، هو معدل التعلم الأولي، هو مقدار معدل التعلم الذي يجب أن يتغير عند كل قطرة (0.5 يتوافق مع النصف) و يتوافق مع droprate ، أو عدد المرات التي ينبغي أن ينخفض معدل . تقوم دالة floor هنا بإسقاط قيمة مدخلاتها إلى 0 لجميع القيم الأصغر من 1.

تتشابه جداول التعلم الأسي مع الخطوات المستندة إلى الخطوة، ولكن بدلاً من الخطوات، يتم استخدام دالة الأس المتناقص. الصيغة الرياضية في الاضمحلال هي:

هو معامل الانحلال.

معدل التعلم التكيفي[عدل]

تتمثل المشكلة في جداول معدلات التعلم في أنها تعتمد جميعها على معلمات كبيرة يجب اختيارها يدويًا لكل جلسة تعليمية معيّنة وقد تختلف اختلافًا كبيرًا تبعًا للمشكلة المطروحة أو النموذج المستخدم. لمكافحة هذا هناك العديد من أنواع مختلفة من خوارزميات النسب التدرج التكيفي مثل Adagrad ، Adadelta ، RMSprop ، آدم والتي بنيت بشكل عام في مكتبات التعلم العميق مثل Keras .

انظر أيضا[عدل]

قراءة متعمقة[عدل]

  • Géron، Aurélien (2017). "Gradient Descent". Hands-On Machine Learning with Scikit-Learn and TensorFlow. O'Reilly. ص. 113–124. ISBN:978-1-4919-6229-9.
  • Plagianakos، V. P.؛ Magoulas، G. D.؛ Vrahatis، M. N. (2001). "Learning Rate Adaptation in Stochastic Gradient Descent". Advances in Convex Analysis and Global Optimization. Kluwer. ص. 433–444. ISBN:0-7923-6942-4.

روابط خارجية[عدل]

  • de Freitas، Nando (12 فبراير 2015). "Optimization". Deep Learning Lecture 6. مؤرشف من الأصل في 2020-02-23.

مراجع[عدل]

  1. ^ معجم البيانات والذكاء الاصطناعي (PDF) (بالعربية والإنجليزية)، الهيئة السعودية للبيانات والذكاء الاصطناعي، 2022، ص. 81، QID:Q111421033
  2. ^ Murphy، Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. ص. 247. ISBN:978-0-262-01802-9. مؤرشف من الأصل في 2020-01-05.
  3. ^ Hafidz Zulkifli (21 يناير 2018). "Understanding Learning Rates and How It Improves Performance in Deep Learning". Towards Data Science. مؤرشف من الأصل في 2018-01-24. اطلع عليه بتاريخ 2019-02-15. Learning rate is a hyper-parameter that controls how much we are adjusting the weights of our network with respect the loss gradient.
  4. ^ Nesterov، Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. ص. 25. ISBN:1-4020-7553-7. مؤرشف من الأصل في 2017-07-09.
  5. ^ أ ب Suki Lau (29 يوليو 2017). "Learning Rate Schedules and Adaptive Learning Rate Methods for Deep Learning". Towards Data Science. مؤرشف من الأصل في 2020-01-04. اطلع عليه بتاريخ 2019-03-12. In order to achieve faster convergence, prevent oscillations and getting stuck in local minima the learning rate is often varied during training either in accordance to a learning rate schedule or by using an adaptive learning rate.