تعلم الفرق الزمني

من ويكيبيديا، الموسوعة الحرة

تعلم الفرق الزمني أو التعلم من الفارق الزمني (بالإنجليزية: Temporal difference learning)‏ هو قسمٌ من طرق التعلم بالتعزيز حرة النموذج، تتعلم بواسطة الانطلاق (en) من التقدير الحالي لدالة القيمة [الإنجليزية]. تأخذ هذه الطرق عينات من المحيط، مثل طرق مونت كارلو وتقوم بتحديثات مبنية على التقديرات الحالية، مثل طرق البرمجة الديناميكية.[1]

في حين أن طرق مونت كارلو لا تعدل قيمها سوى عند معرفة النتيجة النهائية، تعدل طرق تعلم الفرق الزمني التوقعات لتطابق توقعات لاحقة، أكثر دقة حول المستقبل وذلك قبل معرفة النتيجة النهائية.[2] هذه الهيئة من البدء [الإنجليزية] موضحة في المثال التالي:

افترض أنك تريد توقع الجو ليوم السبت، وتملك نموذجا ما يقوم بتوقع الجو يوم السبت، بالأخذ في الحسبان الجو في كل يوم من أيام الأسبوع. في الحالة القياسية، ستنتظر حتى يوم السبت ثم تعدل جميع نماذجك. لكن -على سبيل المثال- حين يحل يوم الجمعة يُفترض أن تكون لديك فكرة جيدة كيف سيكون الجو يوم السبت، ومنه تكون قادرا على تغيير نموذج يوم السبت قبل حلوله.[2]

طرق التعلم بالفارق الزمني لها علاقة بنموذج الفارق الزمني الذي تتعلم به الحيوانات.[3][4][5][6][7]

مراجع[عدل]

  1. ^ Richard Sutton؛ Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN:978-0-585-02445-5. مؤرشف من الأصل في 2017-03-30. {{استشهاد بكتاب}}: الوسيط غير المعروف |lastauthoramp= تم تجاهله يقترح استخدام |name-list-style= (مساعدة)
  2. ^ أ ب Richard Sutton (1988). "Learning to predict by the methods of temporal differences". Machine Learning. ج. 3 ع. 1: 9–44. DOI:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page نسخة محفوظة 2017-03-30 على موقع واي باك مشين.)
  3. ^ Schultz, W, Dayan, P & Montague, PR. (1997). "A neural substrate of prediction and reward". Science. ج. 275 ع. 5306: 1593–1599. CiteSeerX:10.1.1.133.6176. DOI:10.1126/science.275.5306.1593. PMID:9054347.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link)
  4. ^ Montague، P. R.؛ Dayan، P.؛ Sejnowski، T. J. (1 مارس 1996). "A framework for mesencephalic dopamine systems based on predictive Hebbian learning" (PDF). The Journal of Neuroscience. ج. 16 ع. 5: 1936–1947. DOI:10.1523/JNEUROSCI.16-05-01936.1996. ISSN:0270-6474. PMID:8774460. مؤرشف من الأصل (PDF) في 2018-07-21.
  5. ^ Montague، P.R.؛ Dayan، P.؛ Nowlan، S.J.؛ Pouget، A.؛ Sejnowski، T.J. (1993). "Using aperiodic reinforcement for directed self-organization" (PDF). Advances in Neural Information Processing Systems. ج. 5: 969–976. مؤرشف من الأصل (PDF) في 2006-03-12.
  6. ^ Montague، P. R.؛ Sejnowski، T. J. (1994). "The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms". Learning & Memory. ج. 1 ع. 1: 1–33. ISSN:1072-0502. PMID:10467583.
  7. ^ Sejnowski، T.J.؛ Dayan، P.؛ Montague، P.R. (1995). "Predictive hebbian learning". Proceedings of Eighth ACM Conference on Computational Learning Theory: 15–18. DOI:10.1145/230000/225300/p15-sejnowski (غير نشط 20 أغسطس 2019). مؤرشف من الأصل (PDF) في 2020-04-13.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: وصلة دوي غير نشطة منذ 2019 (link)