تنقيب في النصوص: الفرق بين النسختين

من ويكيبيديا، الموسوعة الحرة
[مراجعة غير مفحوصة][مراجعة غير مفحوصة]
تم حذف المحتوى تمت إضافة المحتوى
لا ملخص تعديل
طلا ملخص تعديل
سطر 1: سطر 1:
التنقيب في النصوص، وأحيانا يشار إليها بالتناوب باسم [[التنقيب في البيانات]] النصية، أي ما يعني تقريبا [[تحليلات النصوص]]، يشير إلى عملية استخلاص [[معلومات]] عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل [[التعلم الإحصائي للانماط]]. وعادة ما يتطلب التنقيب في النصوص ال عملية هيكلة للنص المدخل (عادة تحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في [[قاعدة بيانات]])، واستخلاص الأنماط في البيانات المهيكلة، وأخيرا تقييم وتفسير للناتج. 'ذات جودة عالية' في مجال التنقيب في النصوص عادة ما يشير مزيج من [[الصلة]]، و[[الحداثة (براءة اختراع)|الحداثة]]، والاهتمام. المهام النموذجية للتنقيب في النصوص تشمل [[تصنيف النصوص]]، [[تجميع النص]]، و[[استخراج مفهوم/كيان]]، وإنتاج التصنيفات الحبيبية، و[[تحليل المشاعر]]، و[[تلخيص الوثيقة]]، ونمذجة العلاقات بين الكيانات (أي تعلم العلاقات بين [[الكيانات المسماة]]).
'''التنقيب في النصوص'''، وأحيانا يشار إليها بالتناوب باسم [[التنقيب في البيانات]] النصية، أي ما يعني تقريبا [[تحليلات النصوص]]، يشير إلى عملية استخلاص [[معلومات]] عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل [[التعلم الإحصائي للانماط]]. وعادة ما يتطلب التنقيب في النصوص ال عملية هيكلة للنص المدخل (عادة تحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في [[قاعدة بيانات]])، واستخلاص الأنماط في البيانات المهيكلة، وأخيرا تقييم وتفسير للناتج. 'ذات جودة عالية' في مجال التنقيب في النصوص عادة ما يشير مزيج من [[الصلة]]، و[[الحداثة (براءة اختراع)|الحداثة]]، والاهتمام. المهام النموذجية للتنقيب في النصوص تشمل [[تصنيف النصوص]]، [[تجميع النص]]، و[[استخراج مفهوم/كيان]]، وإنتاج التصنيفات الحبيبية، و[[تحليل المشاعر]]، و[[تلخيص الوثيقة]]، ونمذجة العلاقات بين الكيانات (أي تعلم العلاقات بين [[الكيانات المسماة]]).
== مثال : فهرسة النصوص ==
== مثال : فهرسة النصوص ==
يمكن ان يتعلق التنقيب النصي ب[[فهرسة]] النصوص بالنسبة للكلمات التي تحتوي عليها وهذا هو ابسط تطبيق للتنقيب النصي. ويمكن بعد ذلك ان نسأل الفهرس عن طريق كلمات مفتاحية لمعرفة التشابه بينها وبين قائمة النصوص.
يمكن ان يتعلق التنقيب النصي ب[[فهرسة]] النصوص بالنسبة للكلمات التي تحتوي عليها وهذا هو ابسط تطبيق للتنقيب النصي. ويمكن بعد ذلك ان نسأل الفهرس عن طريق كلمات مفتاحية لمعرفة التشابه بينها وبين قائمة النصوص.

نسخة 09:05، 29 مايو 2013

التنقيب في النصوص، وأحيانا يشار إليها بالتناوب باسم التنقيب في البيانات النصية، أي ما يعني تقريبا تحليلات النصوص، يشير إلى عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائي للانماط. وعادة ما يتطلب التنقيب في النصوص ال عملية هيكلة للنص المدخل (عادة تحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في البيانات المهيكلة، وأخيرا تقييم وتفسير للناتج. 'ذات جودة عالية' في مجال التنقيب في النصوص عادة ما يشير مزيج من الصلة، والحداثة، والاهتمام. المهام النموذجية للتنقيب في النصوص تشمل تصنيف النصوص، تجميع النص، واستخراج مفهوم/كيان، وإنتاج التصنيفات الحبيبية، وتحليل المشاعر، وتلخيص الوثيقة، ونمذجة العلاقات بين الكيانات (أي تعلم العلاقات بين الكيانات المسماة).

مثال : فهرسة النصوص

يمكن ان يتعلق التنقيب النصي بفهرسة النصوص بالنسبة للكلمات التي تحتوي عليها وهذا هو ابسط تطبيق للتنقيب النصي. ويمكن بعد ذلك ان نسأل الفهرس عن طريق كلمات مفتاحية لمعرفة التشابه بينها وبين قائمة النصوص. يمكن توصيف خوارزمية الفهرسة بالشكل التالي :

  1. فهرسة النص بالنسبة للكلمات التي يحتوي عليها.
  2. عمل فهرسة عكسية (فهرسة الكلمات بالنسبة للنصوص).
  3. عند تحليل السؤال الاستعلامي للفهرس المكون من كلمات دلالية نقوم بحساب التشابه بينها وبين الفهرسة العكسية للنصوص.
  4. وهذا يعطينا ترتيب النصوص بحسب تشابهها مع كلمات المفتاحية المطروحة.