المحتوى هنا ينقصه الاستشهاد بمصادر، أي معلومات غير موثقة يمكن التشكيك بها وإزالتها.
هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها

مكنز لغوي

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث
Question book-new.svg
المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016)

في علم اللغويات الـ corpus وترجمته بالعربية المتن أو المحتوى أو المكنز النصي هو مجموعة كبيرة من النصوص المنظمة والمهيكلة (وفي الوقت الحالي عادة ما تكون مجمعة ومعالجة إلكترونيا) تستخدم لعمل تحليل إحصائي واختبار فرضي, لفحص مقدار ظهور أو صحة القواعد اللغوية في مجال محدد. المتن قد يحتوي على نصوص من لغة واحدة ويسمى (monolingual corpus) أو نصوص بيانية من لغات متعددة ويسمى (multilingual corpus) والمتون التي تحتوي على نصوص من أكثر من لغة وتكون قد نسقت من أجل المقارنة تسمى (aligned parallel corpora.). لجعل المتون أكثر فائدة للبحوث اللغوية غالبا ما تخضع لعملية تسمى (ِAnnotation). مثال على ذلك إدخال معلومات مع كل كلمة في المتن عن نوع هذه الكلمة (اسم , فعل , حرف .... الخ) تضاف إلى المتن في شكل وسوم (Tags). مثال آخر إدخال كل كلمة مع أصلها (يذهب , ذهب). بعض المتون تكون معالجة ومحللة بشكل أعمق من ذلك فهناك عدد من المتون الصغيرة تكون قد خضعت لعملية تحليل نحوي كامل (Parsing) وعادة ما تسمى ب Treebank. وهذه العملية صعبة لذلك المتون المحللة نحويا بالكامل عادة ما تكون صغيرة تحوي على ما يقارب الواحد إلى الثلاثة مليون كلمة. وهناك أنواع عديدة لتحليل النصوص مثل التحليل المورفولوجي والدلالي.

LingusticStub.svg
هذه بذرة مقالة عن اللغويات بحاجة للتوسيع. شارك في تحريرها.