تلخيص تلقائي

المحفوظات الوطنية (الفرنسية لـ "الأرشيف الوطني") ، المحفوظات الوطنية لفرنسا: قسم أرشيفات الرؤساء الفرنسيين المحفوظات الوطنية (الفرنسية لـ "الأرشيف الوطني") ، المحفوظات الوطنية لفرنسا: قسم أرشيفات الرؤساء الفرنسيين المحفوظات الوطنية (الفرنسية لـ "الأرشيف الوطني") ، المحفوظات الوطنية لفرنسا: قسم أرشيفات الرؤساء الفرنسيين التلخيص التلقائي هو خلق نسخة مختصرة من النص بواسطة برنامج كمبيوتر.^[1]^[2]^[3] نتاج هذا الإجراء لا يزال يحتوي على أهم النقاط من النص الأصلي.

ان ظاهرة الإغراق المعلوماتي باتت تعني أن الحصول على ملخصات متماسكة ومتطورة بشكل صحيح هو أمر حيوي. وكما أن الوصول إلى البيانات زاد كذلك الاهتمام بالتلخيص التلقائي. مثال على استخدام تكنولوجيا التلخيص هو محركات البحث من جوجل.

الاستخراج والتجريد[عدل]

على نطاق واسع، الأشخاص يميزون بين نهجين : الاستخراج والتجريد.

تقنيات الاستخراج ما هي الا عملية نسخ المعلومات التي تعتبر ذات أهمية من قبل النظام للموجز (على سبيل المثال، البنود الرئيسية، والجمل أو الفقرات)، في حين يتطلب التجريد إعادة صياغة لأقسام من المستند المصدر. بشكل عام، يمكن للتجريد تلخيص النص بقوة وكثافة أكبر من الاستخراج، ولكن البرامج التي يمكنها القيام بذلك من الصعب تطويرها لأنها تتطلب استخدام تقنيات مولدات اللغات الطبيعية، الذي هو في حد ذاته مجال تحت التطوير.

أنواع الملخصات[عدل]

هناك أنواع مختلفة من الملخصات على حسب ما يركز عليه برنامج التلخيص لتقديم موجز النص، على سبيل المثال ملخصات عامة أو ملخصات ذات الصلة بالاستعلام (التي تسمى أحيانا ملخصات منحازة للاستعلام). نظم التلخيص قادرة على خلق كل من نصوص ملائمة للاستعلام وملخصات عامة مولَدة آليا اعتمادا على ما يحتاجه المستخدم. كما أنه من الممكن أيضا تلخيص وثائق الوسائط المتعددة، على سبيل المثال الصور أو الأفلام. بعض النظم ستقوم بإنشاء ملخص على أساس وثيقة مصدر واحد، والبعض الآخر يمكنها استخدام وثائق مصادر متعددة (على سبيل المثال، مجموعة من القصص الإخبارية عن الموضوع نفسه). وتعرف هذه الأنظمة بأنظمة التلخيص متعددة الوثائق.

التطبيقات ونظم تلخيص[عدل]

هناك نوعين من مهام التلخيص الاستخراجية حسب ما يركز البرنامج على تلخيصه. الأول هو تلخيص عام، والذي يركز على الحصول على ملخص عام لمجموعة من الوثائق (سواء وثائق مكتوبه، أو مجموعات من الصور أو مقاطع الفيديو، الأخبار وغيرها). والثاني هو تلخيص ذات الصلة بالاستعلام، وتسمى أحيانا التلخيص القائم على الاستعلام، الذي يلخص بناء على الاستفسار. نظم التلخيص قادرة على إنشاء كل من ملخصات الاستعلام والملخصات العامة اعتمادا على ما يحتاج المستخدم.

بعض الطرق المعاونة التلخيص[عدل]

ان تقنيات تعلم الآلة من المجالات وثيقة الصلة مثل استرجاع المعلومات أو تعدين النصوص تم استخدامها وتطويعها لمساعدة في التلخيص التلقائي. وبصرف النظر عن المُلَخِصَات كاملة التلقائية (اف ا اس)، هناك نظم تساعد المستخدمين بمهمة التلخيص (التلخيص البشري بمساعدة الآلة)، على سبيل المثال من خلال تسليط الضوء على مقاطع لتكون موجودة ضمن الملخص، وهناك أنظمة تعتمد على المعالجة البعدية بواسطة البشر (التلخيص الآلي بمساعدة البشر).

التقييم[عدل]

من القضايا المستمرة في هذا المجال هو عملية التقييم. الحكم البشري لديه تنوع كبير على ما يعتبر جيد من الملخصات، مما يعني أن عملية التقييم التلقائي صعبة بشكل خاص. ويمكن استخدام التقييم اليدوي، ولكن هذا مكلف للوقت وللعمالة لأنه يتطلب البشر لقراءة ليس فقط الملخصات ولكن أيضا وثائق المصدر. اما عن القضايا الأخرى فتتعلق بالتماسك والتغطية. إحدى المقاييس المستخدمة في مؤتمرات فهم الوثائق السنوية التابعة لمنظمة نيست، والتي تقدم المجموعات البحثية انظمتها لكل من التلخيص ومهام الترجمة، هو المقياس روج (بديل للانحياز الرجوعي لتقييم جيستينج)[1]. تحسب في الأساس من تداخلات ال(ن-غرام) بين الملخصات التلقائية وملخصات الإنسان المكتوبة من قبل. التداخل العالي المستوى من الضروري ان يدل على مستوى عالٍ من المفاهيم المشتركة بين الملخصين. علما أن مثل هذا المقاييس غير قادر على تقديم أي معلومات عن التماسك. ان مشكلة انفور (Anaphor resolution) تبقى هي المشكلة الأخرى يجب أن تحل بشكل كامل.

لمزيد من المعلومات[عدل]

Endres-Niggemeyer، Brigitte (1998). Summarizing Information. ISBN:3-540-63735-4.
Marcu، Daniel (2000). The Theory and Practice of Discourse Parsing and Summarization. ISBN:0-262-13372-5.
Mani، Inderjeet (2001). Automatic Summarization. ISBN:1-58811-060-5.
Lehmam، Abderrafih (2010). Essential summarizer: innovative automatic text summarization software in twenty languages in: Proceeding RIAO '10 Adaptivity, Personalization and Fusion of DOCUMENTAIRE Paris, France, France ©2010 Heterogeneous Information LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE.

مراجع[عدل]

^ UNIS (Universal Summarizer) نسخة محفوظة 24 يناير 2018 على موقع واي باك مشين.
^ "What Does TL;DR Mean? AMA? TIL? Glossary Of Reddit Terms And Abbreviations". International Business Times. 29 مارس 2012. مؤرشف من الأصل في 2017-08-18. اطلع عليه بتاريخ 2017-02-09.
^ Squire, Megan. Mastering Data Mining with Python – Find patterns hidden in your data (بالإنجليزية). Packt Publishing Ltd. ISBN:9781785885914. Archived from the original on 2019-06-01. Retrieved 2017-02-09.

انظر أيضًا[عدل]

[1] UNIS (Universal Summarizer) نسخة محفوظة 24 يناير 2018 على موقع واي باك مشين.

[2] "What Does TL;DR Mean? AMA? TIL? Glossary Of Reddit Terms And Abbreviations". International Business Times. 29 مارس 2012. مؤرشف من الأصل في 2017-08-18. اطلع عليه بتاريخ 2017-02-09.

[3] Squire, Megan. Mastering Data Mining with Python – Find patterns hidden in your data (بالإنجليزية). Packt Publishing Ltd. ISBN:9781785885914. Archived from the original on 2019-06-01. Retrieved 2017-02-09.

[1]

[2]

[3]

ع ن ت معالجة اللغات الطبيعية
مواضيع عامة	أصول نصية Speech corpus استبعاد الكلمات الشائعة نموذج حقيبة الكلمات ذكاء اصطناعي مثالي n-gram (Bigram، Trigram)
تنقيب في النصوص	تجزئة النص تصنيف أقسام الكلام Text chunking ^{[لغات أخرى]}‏ Compound term processing Collocation extraction تشذيب Lemmatisation التعرف على الكيانات المسماة Coreference resolution ^{[لغات أخرى]}‏ تحليل المشاعر Concept mining تجزئة فك التباس دلالة الكلمة Terminology extraction Truecasing
التلخيص التلقائي	Multi-document summarization استخراج الجمل Text simplification
ترجمة آلية	ترجمة بمساعدة الحاسوب Example-based Rule-based
التعريف التلقائي للبيانات وجمعها	تعرف على الكلام تصنيع صوتي تعرف ضوئي على الرموز توليد اللغات الطبيعية
Topic model	Pachinko allocation Latent Dirichlet allocation Latent semantic analysis
المراجعة بمساعدة الحاسوب	Automated essay scoring Concordancer مدقق نحوي النص التنبؤي مدقق إملائي Syntax guessing
Natural language ^{[لغات أخرى]}‏ user interface	Automated online assistant روبوت الدردشة أدب تفاعلي Question answering
مكتبات برمجية	أن أل تي كاي (NLTK) ساي كيت ليرن (scikit-learn)