مستخدم:Gaith120/تعزيز التدرج

من ويكيبيديا، الموسوعة الحرة

التدرج تعزيز هو آلة التعلم أسلوب الانحدار و تصنيف المشاكل التي تنتج نموذج التنبو ء في شكل الفرقة ضعف نماذج التنبؤ عادة أشجار القرار. فإنه يبني النموذج في المرحلة الحكيم أزياء أخرى مثل تعزيزة أساليب هل يعمم من خلال السماح لهم الأمثل التعسفي للاختلاف فقدان وظيفة.

نشأت فكرة زيادة التدرج اللوني في ملاحظة ليو بريمان أن التعزيز يمكن تفسيره على أنه خوارزمية تحسين على دالة تكلفة مناسبة. [1] تم تطوير خوارزميات تدرج الانحدار الصريح لاحقًا بواسطة Jerome H. Friedman ، [2] [3] وقت واحد مع منظور تدرج وظيفي أكثر عمومية من Llew Mason و Jonathan Baxter و Peter Bartlett و Marcus Frean. [4] قدمت ورقتان في وقت لاحق وجهة نظر لتعزيز الخوارزميات باعتبارها خوارزميات النسب التدرج الوظيفية التكرارية. بمعنى ، الخوارزميات التي تعمل على تحسين دالة التكلفة على مساحة الوظيفة من خلال اختيار دالة (فرضية ضعيفة) تشير في اتجاه التدرج السلبي. لقد أدت وجهة النظر التدرج الوظيفية هذه إلى تطوير خوارزميات معززة في العديد من مجالات التعلم الآلي والإحصاءات إلى ما بعد الانحدار والتصنيف.

مقدمة غير رسمية[عدل]

(يتبع هذا القسم عرض التدرج المعزز بواسطة لي. [5] )

مثل أساليب التعزيز الأخرى ، فإن التدرج التدريجي يجمع بين "المتعلمين" الضعفاء في متعلم واحد قوي بطريقة تكرارية. من الأسهل شرحه في إعداد انحدار المربعات الصغرى ، حيث يكون الهدف هو "تعليم" نموذجًا للتنبؤ قيم النموذج عن طريق تقليل الخطأ التربيعي يعني ، أين فهارس على بعض مجموعة التدريب من الحجم القيم الفعلية للمتغير الناتج .

في كل مرحلة ، ، لتعزيز التدرج ، قد يكون من المفترض أن هناك بعض النماذج غير الكاملة (في البداية ، يمكن استخدام نموذج ضعيف للغاية يتوقع متوسط y في مجموعة التدريب). خوارزمية تعزيز التدرج تتحسن من خلال بناء نموذج جديد يضيف مقدّر h لتوفير نموذج أفضل: . لايجاد يبدأ حل زيادة التدرج بالملاحظة التي تشير إلى أن h الكمال يعني

.

لذلك ، فإن التدرج اللوني سوف يلائم h للباقي . كما هو الحال في متغيرات التعزيز الأخرى ، كل يحاول تصحيح أخطاء سلفه . تعميم هذه الفكرة على وظائف الخسارة بخلاف الخطأ التربيعي ، ومشكلات التصنيف والتصنيف ، يتبع من الملاحظة أن البقايا لنموذج معين هي التدرجات السلبية (فيما يتعلق ) وظيفة تربيع الخطأ المفقودة . لذا ، فإن زيادة التدرج اللوني هي خوارزمية نزول التدرج ، وتعميمها يستلزم "توصيل" خسارة مختلفة وتدرجها.

خوارزمية[عدل]

في العديد من مشكلات التعلم الخاضعة للإشراف ، يكون لدى أحد المتغيرات الناتجة y ومتجه لمتغيرات الإدخال x الموصوفة عبر توزيع الاحتمالات المشتركة {\ displaystyle P (x، y)}

. باستخدام مجموعة تدريب {\ displaystyle \ {(x_ {1} ، y_ {1}) ، \ dots ، (x_ {n} ، y_ {n}) \}}

  من القيم المعروفة لـ x والقيم المقابلة لـ y ، الهدف هو إيجاد تقريب {\ displaystyle {\ hat {F}} (x)}

  إلى دالة {\ displaystyle F (x)}

  الذي يقلل من القيمة المتوقعة لبعض وظيفة الخسارة المحددة

{\ displaystyle L (y، F (x))}

.

تفترض طريقة التدرج اللوني قيمة y حقيقية وتسعى إلى تقدير تقريبي في شكل مجموع مرجح للوظائف من بعض الصف ، يسمى المتعلمين الأساسي (أو الضعيف ):

.

وفقًا لمبدأ تقليل المخاطر التجريبية ، تحاول الطريقة إيجاد تقريب الذي يقلل من متوسط قيمة وظيفة الخسارة في مجموعة التدريب ، أي يقلل من المخاطر التجريبية. تقوم بذلك عن طريق البدء بنموذج يتكون من وظيفة ثابتة وتوسيعه تدريجياً بطريقة جشعة :

،
،

لسوء الحظ ، يعد اختيار أفضل دالة h في كل خطوة لوظيفة فقدان تعسفي L مشكلة تحسين غير قابلة للحساب بشكل عام. لذلك ، نحن نقتصر نهجنا على إصدار مبسط للمشكلة.

والفكرة هي تطبيق خطوة النسب الأكثر حدة على مشكلة التقليل هذه (انخفاض التدرج الوظيفي). إذا نظرنا في حالة مستمرة ، أي أين هي مجموعة من الوظائف التفاضلية التعسفية على ، سنقوم بتحديث النموذج وفقًا للمعادلات التالية

حيث تؤخذ المشتقات فيما يتعلق بالوظائف إلى عن على و هو طول الخطوة. في حالة منفصلة ومع ذلك ، أي عندما مجموعة غير محدود، نختار المرشح وظيفة h الأقرب إلى التدرج من L التي يمكن بعد ذلك حساب γ معامل بمساعدة بحث خط على المعادلات أعلاه. لاحظ أن هذه الطريقة هي طريقة ارشادية وبالتالي لا تسفر عن حل دقيق للمشكلة المحددة ، ولكنها تقريبًا. في الكود الكاذب ، طريقة تعزيز التدرج العام هي: [2] [6]

Input: training set a differentiable loss function number of iterations M.

Algorithm:

  1. Initialize model with a constant value:
  2. For m = 1 to M:
    1. Compute so-called pseudo-residuals:
    2. Fit a base learner (or weak learner, e.g. tree) to pseudo-residuals, i.e. train it using the training set .
    3. Compute multiplier by solving the following one-dimensional optimization problem:
    4. Update the model:
  3. Output

عادةً ما يتم استخدام تدرج التدرج مع أشجار القرار (وخاصة أشجار CART ) ذات حجم ثابت كمتعلمين أساسيين. في هذه الحالة الخاصة ، يقترح فريدمان تعديلًا لطريقة تعزيز التدرج الذي يحسن جودة ملاءمة كل متعلم أساسي.

إن التدرج العام الذي يدعم الخطوة m سوف يناسب شجرة القرار لالبقايا الزائفة. سمح يكون عدد اوراقها. أقسام الشجرة مساحة الإدخال إلى مناطق مفككة ويتوقع قيمة ثابتة في كل منطقة. باستخدام تدوين المؤشر ، خرج للإدخال x يمكن كتابة كمجموع:

ثم المعاملات تتضاعف بعض القيمة ، تم اختياره باستخدام البحث الخطي لتقليل وظيفة الخسارة ، ويتم تحديث النموذج على النحو التالي:

يقترح فريدمان تعديل هذه الخوارزمية بحيث تختار قيمة مثالية منفصلة لكل من مناطق الشجرة ، بدلا من واحدة للشجرة كلها. يسميه الخوارزمية المعدلة "TreeBoost". المعاملات من إجراء تركيب الأشجار ، يمكن بعد ذلك تجاهلها ببساطة وتصبح قاعدة تحديث النموذج:

حجم الأشجار[عدل]

، رقم العقد الطرفية في الأشجار ، هو معلمة الطريقة التي يمكن ضبطها لمجموعة بيانات في متناول اليد. يتحكم في الحد الأقصى المسموح به للتفاعل بين المتغيرات في النموذج. مع ( جذوع القرار ) ، لا يسمح بالتفاعل بين المتغيرات. مع قد يشتمل النموذج على تأثيرات التفاعل بين ما يصل إلى متغيرين ، وهكذا.

هاستي وآخرون. [6] علق ذلك بشكل طبيعي تعمل بشكل جيد لتعزيز والنتائج ليست حساسة إلى حد ما لاختيار في هذا النطاق ، غير كافية للعديد من التطبيقات ، و من غير المرجح أن تكون مطلوبة.

تسوية[عدل]

يمكن أن يؤدي تركيب مجموعة التدريب عن كثب إلى تدهور قدرة تعميم النموذج. عدة ما يسمى تنظيم تقنيات الحد من هذه overfitting التأثير من خلال تقييد الإجراء المناسب.

إحدى معلمات التنظيم الطبيعي هي عدد التدرجات التي تعزز التدرج M (أي عدد الأشجار في النموذج عندما يكون المتعلم الأساسي عبارة عن شجرة قرار). تؤدي زيادة M إلى تقليل الخطأ في مجموعة التدريب ، ولكن تعيينها مرتفعًا جدًا قد يؤدي إلى زيادة الاحتواء. غالبًا ما يتم تحديد القيمة المثالية لـ M عن طريق مراقبة خطأ التنبؤ في مجموعة بيانات تحقق منفصلة. إلى جانب السيطرة على M ، يتم استخدام العديد من تقنيات التنظيم الأخرى.

معلمة تنظيم أخرى هي عمق الأشجار. كلما زادت القيمة ، كلما زاد احتمال احتواء النموذج على بيانات التدريب.

انكماش[عدل]

يتمثل جزء مهم من طريقة تعزيز التدرج اللوني في التقلص الذي يتكون من تعديل قاعدة التحديث كما يلي:

من الناحية العملية ، وجد أن استخدام معدلات التعلم الصغيرة (مثل ) يعطي تحسينات هائلة في قدرة تعميم النماذج على زيادة التدرج دون تقلص ( ). [6] ومع ذلك ، فإنه يأتي بثمن زيادة الوقت الحسابي أثناء التدريب والاستعلام : يتطلب معدل التعلم الأقل المزيد من التكرار.

مؤشر ستوكاستيك يعزز التدرج[عدل]

بعد فترة وجيزة من تقديم التدرج التدريجي ، اقترح فريدمان تعديلًا بسيطًا على الخوارزمية ، مدفوعًا بطريقة برايستم لتجميع الحذاء ("التعبئة"). [3] على وجه التحديد ، اقترح أنه في كل تكرار للخوارزمية ، يجب أن يكون المتعلم الأساسي مناسبًا لعينة فرعية من مجموعة التدريب التي تم رسمها عشوائيًا دون استبدال. [7] لاحظ فريدمان تحسنا كبيرا في دقة تعزيز التدرج مع هذا التعديل.

حجم العينة الفرعي هو جزء ثابت من حجم مجموعة التدريب. متى ، الخوارزمية حتمية ومماثلة للخريطة الموضحة أعلاه. قيم أصغر من إدخال العشوائية في الخوارزمية والمساعدة في منع التحليق ، كنوع من التنظيم . تصبح الخوارزمية أسرع أيضًا ، لأن أشجار الانحدار يجب أن تكون مناسبة لمجموعات البيانات الأصغر في كل تكرار. حصل فريدمان [3] على ذلك يؤدي إلى نتائج جيدة لمجموعات التدريب الصغيرة والمتوسطة الحجم. وبالتالي، يتم ضبطه عادة على 0.5 ، مما يعني أن نصف مجموعة التدريب يستخدم لبناء كل متعلم أساسي.

كما هو الحال في التعبئة ، يسمح أخذ العينات الفرعية بتحديد خطأ خارج عن طريق تحسين أداء التنبؤ من خلال تقييم التنبؤات على تلك الملاحظات التي لم يتم استخدامها في بناء المتعلم الأساسي التالي. تساعد التقديرات الخارجة عن الحقيبة في تجنب الحاجة إلى مجموعة بيانات مستقلة للتحقق من الصحة ، ولكنها كثيراً ما تقلل من شأن تحسين الأداء الفعلي والعدد الأمثل للتكرارات. [8] [9]

عدد الملاحظات في الأوراق[عدل]

غالبًا ما تستخدم تطبيقات تدعيم شجرة التدرج أيضًا التنظيم عن طريق تحديد الحد الأدنى لعدد الملاحظات في العقد الطرفية للأشجار (تسمى هذه المعلمة n.minobsinnode في حزمة R gbm [8] ). يتم استخدامه في عملية بناء الأشجار من خلال تجاهل أي انشقاقات تؤدي إلى عقد تحتوي على أقل من هذا العدد من حالات مجموعة التدريب.

فرض هذا الحد يساعد على تقليل التباين في التنبؤات في الأوراق.

يعاقب على تعقيد شجرة[عدل]

تقنيات أخرى مفيدة لتنظيم الأشجار المعززة التدرج هي معاقبة نموذج التعقيد للنموذج المكتسب. [10] يمكن تعريف تعقيد النموذج على أنه العدد النسبي للأوراق في الأشجار المستفادة. يقابل التحسين المشترك للخسارة وتعقيد النموذج خوارزمية ما بعد التقليم لإزالة الفروع التي تخفق في تقليل الفاقد بمقدار عتبة. أنواع أخرى من التنظيم مثل ويمكن أيضا أن تضاف عقوبة على القيم ورقة لتجنب overfitting .

استعمال[عدل]

تعزيز التدرج يمكن استخدامها في مجال التعلم لتصنيف . يستخدم محركا البحث التجاري على الويب Yahoo [11] و Yandex [12] أشكالًا مختلفة من التدرج التدريجي في محركات التصنيف التي تعلمتها الآلة.

أسماء[عدل]

طريقة يمر بها مجموعة متنوعة من الأسماء. قدم فريدمان أسلوبه في الانحدار باعتباره "آلة تعزيز التدرج" (GBM). [2] ميسون ، باكستر وآخرون. وصف الفئة التجريدية المعممة للخوارزميات بأنها "تعزيز التدرج الوظيفي". [4] فريدمان وآخرون. وصف تقدم نماذج التدرج المعزز كأشجار انحدار مضافة متعددة (MART) ؛ [13] Elith et al. وصف هذا النهج بأنه "أشجار الانحدار المعزز" (BRT). [14]

هناك تطبيق مفتوح المصدر شائع لـ R يطلق عليه "نموذج التعميم العام" ، [8] ومع ذلك تستخدم الحزم التي توسع هذا العمل BRT. [15] تستخدم التطبيقات التجارية من Salford Systems أسماء "أشجار الانحدار المضافة المتعددة" (MART) و TreeNet ، وكلاهما علامة تجارية.   [ بحاجة لمصدر ]

أنظر أيضا[عدل]

المراجع[عدل]

  1. ^ Breiman، L. (يونيو 1997). "Arcing The Edge" (PDF). Statistics Department, University of California, Berkeley.
  2. ^ أ ب ت Friedman، J. H. (فبراير 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF). {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  3. ^ أ ب ت Friedman، J. H. (مارس 1999). "Stochastic Gradient Boosting" (PDF). {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  4. ^ أ ب Mason، L.؛ Baxter، J.؛ Bartlett، P. L.؛ Frean، Marcus (مايو 1999). "Boosting Algorithms as Gradient Descent in Function Space" (PDF). {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  5. ^ Cheng Li. "A Gentle Introduction to Gradient Boosting" (PDF).
  6. ^ أ ب ت Hastie، T.؛ Tibshirani، R.؛ Friedman، J. H. (2009). "10. Boosting and Additive Trees". The Elements of Statistical Learning (ط. 2nd). New York: Springer. ص. 337–384. ISBN:978-0-387-84857-0. {{استشهاد بكتاب}}: الوسيط |archiveurl= بحاجة لـ |مسار= (مساعدةالوسيط غير المعروف |chapterurl= تم تجاهله يقترح استخدام |مسار الفصل= (مساعدة)، وروابط خارجية في |chapterurl= (مساعدة)
  7. ^ Note that this is different from bagging, which samples with replacement because it uses samples of the same size as the training set.
  8. ^ أ ب ت Ridgeway, Greg (2007). Generalized Boosted Models: A guide to the gbm package.
  9. ^ Learn Gradient Boosting Algorithm for better predictions (with codes in R)
  10. ^ Tianqi Chen. Introduction to Boosted Trees
  11. ^ Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking نسخة محفوظة 2010-08-07 على موقع واي باك مشين., page 14.
  12. ^ Yandex corporate blog entry about new ranking model "Snezhinsk" (in Russian)
  13. ^ Friedman، Jerome (2003). "Multiple Additive Regression Trees with Application in Epidemiology". Statistics in Medicine. ج. 22 ع. 9: 1365–1381. DOI:10.1002/sim.1501. PMID:12704603.
  14. ^ Elith، Jane (2008). "A working guide to boosted regression trees". Journal of Animal Ecology. ج. 77 ع. 4: 802–813. DOI:10.1111/j.1365-2656.2008.01390.x. PMID:18397250.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: ref duplicates default (link)
  15. ^ Elith، Jane. "Boosted Regression Trees for ecological modeling" (PDF). CRAN. CRAN. اطلع عليه بتاريخ 2018-08-31.

روابط خارجية[عدل]

[[تصنيف:خوارزميات تصنيف]] [[تصنيف:صفحات بترجمات غير مراجعة]]