يفتقر محتوى هذه المقالة إلى مصادر موثوقة

مكنز لغوي

من ويكيبيديا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث
Question book-new.svg
تعرَّف على طريقة التعامل مع هذه المسألة من أجل إزالة هذا القالب.يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوقة. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016)

في علم اللغويات الـ corpus وترجمته بالعربية المتن أو المحتوى أو المكنز النصي هو مجموعة كبيرة من النصوص المنظمة والمهيكلة (وفي الوقت الحالي عادة ما تكون مجمعة ومعالجة إلكترونيا) تستخدم لعمل تحليل إحصائي واختبار فرضي, لفحص مقدار ظهور أو صحة القواعد اللغوية في مجال محدد. المتن قد يحتوي على نصوص من لغة واحدة ويسمى (monolingual corpus) أو نصوص بيانية من لغات متعددة ويسمى (multilingual corpus) والمتون التي تحتوي على نصوص من أكثر من لغة وتكون قد نسقت من أجل المقارنة تسمى (aligned parallel corpora.). لجعل المتون أكثر فائدة للبحوث اللغوية غالبا ما تخضع لعملية تسمى (ِAnnotation). مثال على ذلك إدخال معلومات مع كل كلمة في المتن عن نوع هذه الكلمة (اسم , فعل , حرف .... الخ) تضاف إلى المتن في شكل وسوم (Tags). مثال آخر إدخال كل كلمة مع أصلها (يذهب , ذهب). بعض المتون تكون معالجة ومحللة بشكل أعمق من ذلك فهناك عدد من المتون الصغيرة تكون قد خضعت لعملية تحليل نحوي كامل (Parsing) وعادة ما تسمى ب Treebank. وهذه العملية صعبة لذلك المتون المحللة نحويا بالكامل عادة ما تكون صغيرة تحوي على ما يقارب الواحد إلى الثلاثة مليون كلمة. وهناك أنواع عديدة لتحليل النصوص مثل التحليل المورفولوجي والدلالي.


LingusticStub.svg
هذه بذرة مقالة عن اللسانيات بحاجة للتوسيع. شارك في تحريرها.