مدونة نصية

معلومات عامة
صنف فرعي من	مجموعة; text database (en) ; عمل
يدرسه	لسانيات المدونة الحاسوبية
موصوف في وصلة	https://libguides.bodleian.ox.ac.uk/english-language/Corpora
يستخدمه	لسانيات المدونة الحاسوبية
لديه جزء أو أجزاء	نص

المتن (بالإنجليزية: corpus)‏ في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية).^[2] تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة.^[3]

نظرة عامة[عدل]

قد تحتوي المتون على نصوص بلغة واحدة (متن أحادي اللغة) أو بيانات نصية بلغات متعددة (متن متعددة اللغات).

من أجل جعل المتون أكثر فائدة لإجراء البحوث اللغوية، غالبًا ما يخضعون لعملية تعرف باسم التعليق التوضيحي أو التذليل. مثال على التذليل للمتن هو وضع علامات تصنيف اقسام الكلام، حيث تتم إضافة معلومات حول قسم الكلام لكل كلمة (فعل، اسم، صفة، وما إلى ذلك) إلى المتن في شكل علامات أو سوم. مثال آخر يشير إلى الشكل الأساسي (الجذر) لكل كلمة. عندما لا تكون لغة المتن هي نفسها لغة عمل الباحثين الذين يستخدمونها، يتم استخدام الترجمة بين السطور لجعل التذليل ثنائي اللغة.^[3]

مراجع[عدل]

^ الاقتباس: A corpus is a collection of texts or text extracts that have been put together to be used as a sample of a language or language variety. It consists of texts that have been produced in 'natural contexts' (published books, ordinary conversation, letters, newspapers, lectures etc), which means it mirrors natural language.. الوصول: 11 يوليو 2022. مسار الأرشيف: https://web.archive.org/web/20220711192102/https://libguides.bodleian.ox.ac.uk/english-language/Corpora. تاريخ الأرشيف: 11 يوليو 2022.
^ Ph. D., Rhetoric and English; M. A., Modern English and American Literature; B. A., English. "What Are Corpora in Language Studies?". ThoughtCo (بالإنجليزية). Archived from the original on 2020-11-26. Retrieved 2020-12-28.
^ ^أ ^ب "Text Corpus | Project Gutenberg Self-Publishing - eBooks | Read eBooks online". self.gutenberg.org. مؤرشف من الأصل في 2019-04-27. اطلع عليه بتاريخ 2020-12-28.

انظر أيضا[عدل]

بوابة أدب

في كومنز صور وملفات عن: مدونة نصية

هذه بذرة مقالة عن الأدب بحاجة للتوسيع. فضلًا شارك في تحريرها.

[cf92e2ef1fcb6dccd431eab77da3567d705e164c-1] الاقتباس: A corpus is a collection of texts or text extracts that have been put together to be used as a sample of a language or language variety. It consists of texts that have been produced in 'natural contexts' (published books, ordinary conversation, letters, newspapers, lectures etc), which means it mirrors natural language.. الوصول: 11 يوليو 2022. مسار الأرشيف: https://web.archive.org/web/20220711192102/https://libguides.bodleian.ox.ac.uk/english-language/Corpora. تاريخ الأرشيف: 11 يوليو 2022.

[2] Ph. D., Rhetoric and English; M. A., Modern English and American Literature; B. A., English. "What Are Corpora in Language Studies?". ThoughtCo (بالإنجليزية). Archived from the original on 2020-11-26. Retrieved 2020-12-28.

[مولد_تلقائيا1-3] أ ^ب "Text Corpus | Project Gutenberg Self-Publishing - eBooks | Read eBooks online". self.gutenberg.org. مؤرشف من الأصل في 2019-04-27. اطلع عليه بتاريخ 2020-12-28.

[1]

[2]

[3]

ع ن ت معالجة اللغات الطبيعية
مواضيع عامة	أصول نصية Speech corpus استبعاد الكلمات الشائعة نموذج حقيبة الكلمات ذكاء اصطناعي مثالي n-gram (Bigram، Trigram)
تنقيب في النصوص	تجزئة النص تصنيف أقسام الكلام Text chunking ^{[لغات أخرى]}‏ Compound term processing Collocation extraction تشذيب Lemmatisation التعرف على الكيانات المسماة Coreference resolution ^{[لغات أخرى]}‏ تحليل المشاعر Concept mining تجزئة فك التباس دلالة الكلمة Terminology extraction Truecasing
التلخيص التلقائي	Multi-document summarization استخراج الجمل Text simplification
ترجمة آلية	ترجمة بمساعدة الحاسوب Example-based Rule-based
التعريف التلقائي للبيانات وجمعها	تعرف على الكلام تصنيع صوتي تعرف ضوئي على الرموز توليد اللغات الطبيعية
Topic model	Pachinko allocation Latent Dirichlet allocation Latent semantic analysis
المراجعة بمساعدة الحاسوب	Automated essay scoring Concordancer مدقق نحوي النص التنبؤي مدقق إملائي Syntax guessing
Natural language ^{[لغات أخرى]}‏ user interface	Automated online assistant روبوت الدردشة أدب تفاعلي Question answering
مكتبات برمجية	أن أل تي كاي (NLTK) ساي كيت ليرن (scikit-learn)