تقدير السمات المستمرة

في الإحصاء والتعلم الآلي ، يشير التقدير إلى عملية تحويل أو تقسيم السمات أو الميزات أو المتغيرات المستمرة إلى سمات / ميزات / متغيرات / فترات تقديرية أو اسمية . يمكن أن يكون هذا مفيدًا عند إنشاء وظائف الكتلة الاحتمالية - رسميًا ، في تقدير الكثافة . إنه شكل من أشكال التقديرية بشكل عام وأيضًا من binning ، كما هو الحال في إنشاء مدرج تكراري . عندما يتم تقدير البيانات المستمرة ، هناك دائمًا قدر من الخطأ التقديري . الهدف هو تقليل المقدار إلى مستوى يعتبر ضئيلًا لأغراض النمذجة في متناول اليد.

مثلاً، لدينا مجموعة من البيانات التي تحتوي على عمر الأشخاص. ونريد تحليل هذه البيانات مع الاعتبار العمر كمتغير نصي. لتحليل هذه البيانات، يمكننا تحديد مجموعة من القيم المحددة والمعيّنة مسبقًا للعمر وتسميتها "قيم متقطعة"، مثل "طفل"، "شاب"، "بالغ" و"كبير السن".

للعمل الأكثر فعالية، يجب تعيين قيم متقطعة معينة للعمر وذلك باستخدام البيانات الأصلية والتي يتم تحليلها. فعلى سبيل المثال، قد نعيين القيم التالية للعمر:

طفل: 0-12 سنة
شاب: 13-24 سنة
بالغ: 25-34 سنة
كبير السن: 35 سنة وأكثر

بعد تعيين هذه القيم المتقطعة، نستطيع تحليل البيانات الأصلية للعمر وتحديد نسبة الأشخاص الذين يندرجون في كل مجموعة معينة من العمر.

يمكن أن يتم استخدام التقسيم الذكي للعديد من المتغيرات الأخرى التي يمكن أن تكون عددية أو نصية، مثل الدخل والتعليم والجنس والحالة العائلية.

عادةً ما يتم تقسيم البيانات إلى أقسام من K أطوال / عرض متساوية (فترات متساوية) أو K٪ من إجمالي البيانات (ترددات متساوية).^[1]

تتضمن آليات تقدير البيانات المستمرة طريقة فياض وإيراني MDL ، ^[2] والتي تستخدم المعلومات المتبادلة لتحديد أفضل الصناديق بشكل متكرر ، و CAIM ، و CACC ، و Ameva ، والعديد من الآخرين ^[3]

^ Clarke، E. J.؛ Barton، B. A. (2000). "Entropy and MDL discretization of continuous variables for Bayesian belief networks" (PDF). International Journal of Intelligent Systems. ج. 15: 61–92. DOI:10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O. مؤرشف من الأصل (PDF) في 2022-12-26. اطلع عليه بتاريخ 2008-07-10.
^ Fayyad, Usama M.; Irani, Keki B. (1993) "Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning" (PDF). مؤرشف من الأصل (PDF) في 2023-10-01., Proc. 13th Int. Joint Conf. on Artificial Intelligence (Q334 .I571 1993), pp. 1022-1027
^ Dougherty, J.; Kohavi, R. ; Sahami, M. (1995). "Supervised and Unsupervised Discretization of Continuous Features". In A. Prieditis & S. J. Russell, eds. Work. Morgan Kaufmann, pp. 194-202 نسخة محفوظة 2022-01-19 على موقع واي باك مشين.

Clarke, E. J.; Barton, B. A. (2000). "Entropy and MDL discretization of continuous variables for Bayesian belief networks" (PDF). International Journal of Intelligent Systems. 15: 61–92. doi:10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O. Retrieved 2008-07-10.

بوابة رياضيات

[clarke-1] Clarke، E. J.؛ Barton، B. A. (2000). "Entropy and MDL discretization of continuous variables for Bayesian belief networks" (PDF). International Journal of Intelligent Systems. ج. 15: 61–92. DOI:10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O. مؤرشف من الأصل (PDF) في 2022-12-26. اطلع عليه بتاريخ 2008-07-10.

[2] Fayyad, Usama M.; Irani, Keki B. (1993) "Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning" (PDF). مؤرشف من الأصل (PDF) في 2023-10-01., Proc. 13th Int. Joint Conf. on Artificial Intelligence (Q334 .I571 1993), pp. 1022-1027

[3] Dougherty, J.; Kohavi, R. ; Sahami, M. (1995). "Supervised and Unsupervised Discretization of Continuous Features". In A. Prieditis & S. J. Russell, eds. Work. Morgan Kaufmann, pp. 194-202 نسخة محفوظة 2022-01-19 على موقع واي باك مشين.

[1]

[2]

[3]