هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
يرجى مراجعة هذه المقالة وإزالة وسم المقالات غير المراجعة، ووسمها بوسوم الصيانة المناسبة.

استبعاد الكلمات الشائعة

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث
N write.svg
هذه مقالة جديدة غير مراجعة. ينبغي أن يزال هذا القالب بعد أن يراجعها محرر ما عدا الذي أنشأها؛ إذا لزم الأمر فيجب أن توسم المقالة بقوالب الصيانة المناسبة. (مايو 2009)

الكلمات الشائعة (بالإنجليزية: stop words) أو الكلمات المستبعدة هي الكلمات التي تستبعد قبل المعالجة اللغوية الآلية للبيانات (نصوص). وهي الكلمات التي تتكرر في النصوص مثل (في، من، إلى،...) ويستحسن تجاهلها وعدم فهرستها من أجل تحسين البحث. ويرجع الفضل لهانس بيتر لوهن (من الرواد في استرجاع المعلومات) في استعمال هذا المصطلح والمفهوم في التطوير.

وتعتبر هذه الطريقة مقاربة سلبية في التعامل مع الأدوات وحروف المعاني في الجمل. لا توجد قائمة كلمات محددة للاستبعاد، تستعملها كل المحللات الصرفية وأدوات معالجة اللغة الطبيعية. لا تستعمل كل أدوات المعالجة اللغوية قائمة كلمات شائعة. ويمكن للتحليل الصرفي التقليل من استخدام كلمات مستبعدة، لا سيما عند تحليل الجمل. الكلمات المستبعدة قد تسبب مشاكل عند استخدام محرك بحث للبحث عن العبارات التي تدخل فيها، لا سيما في أسماء مثل 'المفعول به' ، أو "رسول من الله"، "وهم".

انظر أيضا[عدل]

وصلات خارجية[عدل]

مصادر[عدل]

  1. أنطوان الدحداح. معجم قواعد اللغة العربية، لوحات وجداول،
  2. صفحة أساسيات البحث في غووغل.