تنقيب في النصوص

من ويكيبيديا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث

التنقيب في النصوص، وأحيانا يشار إليه باسم التنقيب في البيانات النصية، أي ما يعني تقريبا تحليل النصوص، هو عملية استخلاص معلومات عالية الجودة من النص.[1][2][3] واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائي للانماط. وعادة ما يتطلب التنقيب في النصوص عملية هيكلة للنص المدخل (عادة التحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في صورة بيانات مهيكلة، وأخيرا تقييم وتفسير للناتج. ويشير المصطلح 'ذات جودة عالية' في مجال التنقيب في النصوص إلى مزيج من الصلة، والحداثة، الأهمية.

المهام النموذجية للتنقيب في النصوص[عدل]

مثال : فهرسة النصوص[عدل]

يمكن أن يتعلق التنقيب النصي بفهرسة النصوص بالنسبة للكلمات التي تحتوي عليها وهذا هو أبسط تطبيق للتنقيب النصي. ويمكن بعد ذلك ان نسأل الفهرس عن طريق كلمات مفتاحية لمعرفة التشابه بينها وبين قائمة النصوص. يمكن توصيف خوارزمية الفهرسة بالشكل التالي :

  1. فهرسة النص بالنسبة للكلمات التي يحتوي عليها.
  2. عمل فهرسة عكسية (فهرسة الكلمات بالنسبة للنصوص).
  3. عند تحليل السؤال الاستعلامي للفهرس المكون من كلمات دلالية نقوم بحساب التشابه بينها وبين الفهرسة العكسية للنصوص.
  4. وهذا يعطينا ترتيب النصوص بحسب تشابهها مع كلمات المفتاحية المطروحة.

التطبيقات الممكنة[عدل]

تطبيقات التنقيب النصي كثيرة تبدأ من الفهرسة بالنسبة لمحركات البحث إلى استخراج المعرفة من النصوص غير المنظمة. هناك بعض التقنيات مثل تحويل الكلمات إلى جذوع تمكننا من تطوير الفهرسة مع ضياع بعض المعنى بالمقابل.

مراجع[عدل]

  1. ^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrating the voice of customers through call center emails into a decision support system for churn prediction". Information & Management. 45 (3): 164–74. doi:10.1016/j.im.2008.01.005. مؤرشف من الأصل في 15 ديسمبر 2019. الوسيط |CitationClass= تم تجاهله (مساعدة)
  2. ^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). Psychology Journal. 2 (1): 61–83. مؤرشف من الأصل (PDF) في 20 سبتمبر 2018. الوسيط |CitationClass= تم تجاهله (مساعدة)
  3. ^ [1]نسخة محفوظة November 29, 2009, على موقع واي باك مشين.
Computer.svg
هذه بذرة مقالة عن الحاسوب أو العاملين في هذا المجال، بحاجة للتوسيع. شارك في تحريرها.