معالجة الأسماء العربية

هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
من ويكيبيديا، الموسوعة الحرة

معالجة الأسماء العربية فرع من معالجة اللغة الطبيعية (Natural Language Processing) مختص بالهيئات المسماة: (Named Entity Recognition)، ويرتبط بتحليل وتحديد علاقة أسماء الأعلام بالنص اللغوي العربي. وتشمل المعالجة العمليات التالية:[1]

  • إضافة علامات التشكيل للاسم
  • النقل العام للأسماء العربية
  • نقل الأسماء العربية للغة الإنجليزية
  • نقل الأسماء الأعجمية للغة العربية
  • استعادة الأسماء
  • التصنيف الجغرافي والنوعي للأسماء
  • توليد نظائر الاسم العربي باللغة الإنجليزية

إضافة علامات التشكيل[عدل]

بالطبع ليس من الضروري إضافة علامات التشكيل للنص العربي إذا كان المتلقي ممن يجيدون قراءتها ولكنها عملية في غاية الأهمية إذا كان النص موجه للأغراض التعليمية أو يراد استخدامه في مرحلة أولية لنظام ترجمة آلية، وتعتبر إضافة علامات التشكيل للنص العربي من المهام الشاقة التي تتطلب الصبر وتحري الدقة معاً مما يجعل استخدام الكمبيوتر لتلك المهمة ضرورة قصوى، والأسماء العربية تعتبر من النصوص التي نادراً ما تضاف إليها تلك العلامات. إضافة علامات التشكيل للاسم العربي عملية معقدة قائمة على التحليل الصرفي والنحوي للاسم وعادة تكون النتيجة عدد كبير جداً من الاحتمالات.

النقل العام للأسماء العربية[عدل]

تختلف طريقة كتابة الاسم العربي باللغات الأعجمية باختلاف المنطقة الجغرافية، فالطريقة التي يعتمدها أهل الخليج العربي تختلف كثيراً عن تلك الشائعة في المغرب العربي وشمال أفريقيا ومن الصعوبة توحيد معايير كتابة الأسماء ولكن يمكن إيجاد طريقة فعالة في نقلها إلى مختلف اللغات الأخرى وليس فقط اللغة الإنجليزية.

قد تبدو عملية النقل سهلة ومباشرة ولكن الأمر ليس كذلك إذ أن لكل لغة خصائصها وليس من الصحيح أخذ كل حرف عربي ومضاهاته بالحرف المناسب من اللغة الأعجمية لأن من شأن ذلك أن ينتج تركيبات غريبة لا تستوعبها اللغة بل لا تجوز مطلقاً، وقد تلقى الاستهجان من الناطقين بها فاللغة الفرنسية لا تستخدم الحرف (K) كثيراً، وتميل للإكثار من استخدام الحرفين (qu) ولكن هذا لا يعني استخدامهما في نقل الأسماء العربية بلا تبصر، كذلك اللغة العبرية تستخدم ثلاث نسخ من الحروف التي تشبه حرف الكاف فأيها أنسب للنقل؟ والإغريقية لا تشمل حرف الشين مطلقاً فهل نتجاهل هذا الحرف عند النقل إليها؟ واللغة الألمانية فيها الحرف (J) يستخدم لصوت الياء بينما في اللغة الإسبانية لصوت الخاء وفي بعض لغات الهنود الحمر لصوت الهاء فكيف نفرق عند النقل؟ ما يجعل الأمر أكثر تعقيداً كذلك هو أن اللغة الواحدة تميز بين الحروف فبعضها مخصص للابتداء أول الكلمة فقط وأخرى لاتصلح إلا في وسط الكلمات فحتى وإن طابقت أصواتها حروف اللغة العربية فهل نلتزم بهذا الترتيب أم يكون الولاء لترتيب الحروف العربية؟

عملية النقل إلى اللغات المعتمدة على الحروف اللاتينية تسمى ب الرومانية (Romanization) ولها أكثر من اثنتي عشرة طريقة من بينها الطرق المشهورة التالية:

  • طريقة مكتبة الكونغرس والمعتمدة من اتحاد المكتبات الأمريكية (ALA-LC)
  • طريقة الأمم المتحدة الخاصة بتسمية الأماكن الجغرافية (UNGEGN)
  • الطريقة العالمية الموحدة للآيزو (ISO233)
  • طريقة المعيار البريطاني (BS4280)
  • الطريقة المحددة من قبل المعيار الألماني (DIN31635)
  • النظام المعياري التقني لنقل اللغة العربية (SATTS)
  • الطرق البحثية الأكاديمية الأخرى مثل (Buckwalter, Khoja, Qalam)
  • طريقة كلماسوفت Kalmasoft Arabic Transliteration System - KATS

ترجمة الأسماء العربية أو رومنتها[عدل]

الأسماء لا تترجم ولكن يمكن كتابتها بلغة أخرى باستخدام مجموعة الحروف التي تضاهي في صوتها أقرب نطق للاسم أي إعادة بناء الاسم باستخدام النظام الصوتي للغة الثانية وهذه العملية تسمى بالنقل الحرفي (Transliteration) ويجب أن تكون الحروف المستخدمة كلها من حروف اللغة المنقول إليها الاسم (اللغة المستهدفة).

وتسمى العملية بالرومنة (Romanization) إذا تم نقل الأسماء العربية إلى اللغة الإنجليزية أو أي لغة أخرى تعتمد على نفس طقم الحروف لأن المخرجات تناسب مجموعة الدول الناطقة باللغة الإنجليزية لأن هنالك دول أخرى تستخدم الحروف اللاتينية كلها ولكن الإنجليزية ليست لغتها مثل معظم دول أوروبا، ولمعرفة أهمية ذلك نستدل بالاسم «أحمد» فهو ينقل إلى اللغة الإنجليزية هكذا (Ahmad) وليس (Ahmed) فالطريقة الثانية تناسب الدول التي تنتمي للثقافة الفرانكفونية ولهذه الاختلافات فإننا صممنا نظاماً آخر أكثر شمولاً بحيث يمكن تناسب مخرجاته معظم المناطق الجغرافية بمختلف ثقافاتها ويمكن الاطلاع عليه عبر وصلة نظام نقل الأسماء العربية للغات الأعجمية.

عملية المعالجة بالرومنة تحتاج لها المؤسسات التي تتعامل بالأسماء باللغتين العربية والإنجليزية مثل المؤسسات التعليمية، وزارات التعليم، شركات الطيران، شركات الاتصالات، القنصليات، البنوك وغيرها.

عربنة الأسماء الأعجمية[عدل]

من الصعوبة أحياناً قراءة الأسماء المكتوبة باللغات الأعجمية بسبب الخصائص الإملائية والصوتية لمعظم تلك اللغات مثل استخدام تشكيلات من الحروف يصعب نطقها أو تباين طريقة النطق لذات الحرف أو لتشكيلة الحروف من منطقة جغرافية إلى أخرى أو تباين الحروف وبقاء النطق على حاله مما يسبب الإرباك لغير المختصين في اللغة المعنية، وما يزيد الأمر صعوبة أن معظم تلك اللغات تستخدم الحروف اللاتينية مع فروقات طفيفة قلما تظهر في الكلمات المفردة مثل الأسماء وللتدليل على ذلك فإن الاسم (Pfifer) يحوي تشكيلة من الحروف قد تبدو لأول وهلة نوعاً من الخطأ الإملائي ولكنه سليم وينطق «فايفر»، وفي بريطانيا نجد (Sean) تنطق «شون» و (Roan) تنطق «رون»، كذلك الحرف اللاتيني (J) ينطق بثلاث طرق مختلفة فهو الياء في الاسم الألماني (Johan) «يوهان» والخاء في الاسم الأسباني (Juan) «خوان» وينطق هاء كما في كلمة (Navajo) «نافاهو» وكما في اسم المكان (La Jolla) «لاهويا» في الولايات المتحدة.

وهي مشكلة بسيطة نسبياً إذا علمنا أن كل التشكيلات التالية تنطق بطريقة واحدة «ماركوفيتش» (Markovitch, Markowitz, Markowicz, Markovitz, Markowitch) وهي أسماء حقيقية فعلية وليست عملية تباديل للحروف. كذلك الاسم المشهور «وليام» يكتب بكل الطرق التالية (Vilhelms, Vilém, Uilleam, William, Gwilim, Vilhem) وحتى في اللغة العربية فإن هذا الاسم ينقل بأكثر من طريقة (وليم، ويليم، ويليام، وليام) وهذا لأن طرق كتابة الاسمين ماركوفيتش ووليام أعلاه تنتمي لأكثر من عشر لغات تمثل ثقافات مختلفة بكل إرثها اللغوي ففيها التشيكية والاسكتلندية واللاتفية والويلزية والإنجليزي والبرتغالية والأسبانية والألمانية والفنلندية والبريتونية والهنغارية وحتى الإسبيرانتو وكلها تكتب بالحروف اللاتينية مع فروقات طفيفة فيعمد الكثيرون إلى معاملتها جميعاً باعتبارها لغة إنجليزية.

عملية كتابة الاسم الأعجمي بالحروف العربية تسمى «عربنة» (Arabicization) فهي ليست تعريب بل نقل بالحروف العربية رسماً مع محاولة إبقاء النطق السليم كما جاء في لغاتها الأصلية وبما يسمح به النظام الصوتي في اللغة العربية.

استعادة الأسماء العربية المنقولة إلى اللغات الأعجمية[عدل]

عند نقل الاسم العربي إلى لغة أعجمية أخرى فإنه يفقد بعض خصائصه الإملائية والصوتية وهذا يحدث لكل الأسماء في اللغات، لأن النقل إلى لغة أخرى يستوجب إجراء بعض التعديلات في طريقة النطق بالاسم لأجل استيعابه في المنظومة الصوتية للغة الثانية وهذا بالطبع لن يبقي على كل خصائصه لأن النظام الصوتي للغة المنقول إليها الاسم لن يستوعب كل المفردات الصوتية التي تميزه فحرفي الضاد والعين في الاسم (العوضي) مثلاً لا يوجد نظيرهما معاً في اللغتين الإنجليزية أو الفرنسية أو أي لغة أخرى لذا فإنهما يستبدلان بحرفين يختلفان قليلاً أو كثيراً في النطق وهذه من عيوب النقل الصوتي (Phonemic Transcription) التي تجعل من الصعب إعادة كتابة الاسم بلغته الأصلية بسبب تفاوت هذه التعديلات حسب طبيعة الاسم.

من بين الاستخدامات المتاحة لمعالجة من هذا النوع:

  • إسترجاع الأسماء العربية المكتوبة باللغات الأعجمية
  • معرفة أصل الأسماء العربية المنقولة إلى لغات غير الإنجليزية
  • تطبيقات الترجمة العربية لصفحات الإنترنت
  • الاسترجاع المعلوماتي متعدد اللغات (CLIR)

استعادة الاسم الأعجمي المكتوب باللغة العربية[عدل]

النظام الصوتي في اللغة العربية له ميزة فريدة وهي قدرته على استيعاب معظم اللغات الأعجمية وهذا يعني المحافظة على الصوت الأصلي للاسم حتى بعد نقله إلى العربية، إلا أن هنالك خصائص تميز تلك اللغات وهي وجود أحرف مكتوبة غير منطوقة أكثر من تلك الموجودة في اللغة العربية (تقابلها اللام إذا تبعها حرف شمسي في الأسماء العربية المعرفة) وهذا يعني فقدان تلك الأحرف كلياً عند نقل الاسم الأعجمي إلى اللغة العربية فالاسم (مايكل) يكتب بالطريقة (Michael) وكذلك اسم المكان (أركانسو) يكتب (Arkansas) وفي هذين النموذجين لم يفقد الاسم ميزاته الصوتية عند النقل ولكنه فقد بعض مركباته الإملائية وهذه من عيوب النقل الصوتي (Phonetic Transcription) التي تجعل من الصعب إعادة كتابة الاسم بحروفه الأصلية لضياعها بالفعل بسبب التركيز على السمات المسموعة.

عملية الاستعادة يجب أن تراعي كل هذه الاختلافات ليس ذلك فحسب بل إعطاء نتائج تراعي وجود الأزواج المتشابهة صوتياً (Homonyms) ليس في لغة واحدة بل لكل اللغات المختلفة المدعومة ففي حالة إدخال الاسم (موريس) مثلاً فإن من بين النتائج يكون الاسم الإنجليزي (Morris) والفرنسي (Maurice) فكليهما يكتب بذات الحروف العربية وينطق بذات الطريقة تقريباً. أما التطبيقات فهي تشمل كل المنظومات المعتمدة على البحث والاسترجاع متعدد اللغات، هذا يعني أنه بإمكاننا البحث في النصوص المكتوبة باللغات الأعجمية أو في شبكة الإنترنت عن أي اسم بمجرد كتابة سماته الصوتية بالحروف العربية فليس من الضرورة معرفة اللغة المراد البحث فيها كأن نكتفي بإدخال (رونالدينو) مثلاً بلا تشكيل ثم نترك للنظام مهمة إعادة بناء الاسم ثم البحث عنه في النصوص الأعجمية، والمجالات المستخدم فيها هذا النوع متعددة وتشمل:

  • نظم المعلومات الجغرافية متعددة اللغات،
  • هيئات تنفيذ القانون في التدقيق في قوائم المشبوهين ومنع الجريمة
  • دواوين الدولة التي تتعامل مع الأجانب والوافدين

التصنيف الجغرافي والنوعي للأسماء العربية والأعجمية[عدل]

في حالات عديدة تكون عملية التعرف على هوية الاسم من حيث انتمائه إلى منطقة جغرافية محددة عملية مهمة للغاية ولكنها تتطلب خبرة في هذا النوع من التحليل العلمي اللغوي، ومن السهل على الأفراد المقيمين في جهات جغرافية متاخمة التعرف على أسماء ذات خصوصية مثل (موزة) أو (بنسعيد) أو (شحاتة) ولكن عند العمل على مستوى احترافي أو عالي الحساسية كما في حال التعامل مع الجهات الأمنية لتصنيف قوائم المشبوهين أو الوافدين إلى الدولة عن طريق الموانئ فإنه ينبغي استخدام وسائل أكثر سرعة وتطوراً وذلك لأن عملية التصنيف ليست مجرد مقارنة لنص الاسم مع قائمة تصنيف معدة من قبل بل ربما يتطلب الأمر معايير أكثر تعقيداً مثل التتابع والتقليد الإملائي وهذا يوجب إضافة عمليات أخرى من بينها التبسيط "normalization" والتصحيح للأسماء المشوهة.

التصنيف الجغرافي والنوعي يعتمد غالباً تقنيات الإحصاء الرياضي وعلم الاحتمالات ويعطي النتائج منسوبة إلى النطاقات الجغرافية بتحديد الدولة الأقرب أي ذات أعلى نسبة من حيث شيوع الاسم وفي حال التوصل لنتائج متقاربة فإن المصنف يعطي اسم أكثر من دولة أو منطقة جغرافية مرتبة حسب الأقرب وكل ذلك يتوقف بشكل كامل على الإدخال الصحيح للاسم الكامل (الاسم الأول + اسم العائلة) والأسماء الوسطى (اسما الأب والجد) إذا توفرت، يقوم المصنف أيضاً بتحديد النوع أي وصف الاسم بالتذكير أو التأنيث أو الاشتراك في كليهما.

توليد نظائر الأسماء المنقولة[عدل]

إن من أميز الصفات المثيرة للخلاف في كتابة الاسم العربي باللغات الأعجمية هو إمكان كتابته بأكثر من طريقة والمعروف أن بعض الأسماء يتجاوز عدد الطرق التي يمكن كتابتها بها في اللغة الإنجليزية وحدها الخمسون طريقة، فإذا أخذنا الاسم (حسين) مثلاً فسنجد لدينا حوالي خمسة طرق مختلفة لكتابته باللغة الإنجليزية وكلها طرق مستخدمة فعلاً، هذه الطرق المختلفة تسمى «نظائر».

ومثال تفصيلي آخر لتلك النظائر هو ماينتج عن استخدام التشكيلين (z) و (dh) في اللغة الإنجليزية بديلاً عن حرف الذال، وهذا يعطي نظيرين لكتابة الاسم العربي (شذا) هما "Shaza" و"Shadha" ويزداد عدد النظائر بالتناسب مع احتواء الاسم على الأحرف التي يمكن مضاهاتها مع أكثر من حرف في اللغة الإنجليزية وهي حروف (الألف الممدودة، الألف المقصورة، تاء التأنيث، الثاء، الخاء، الذال، الظاء، العين، الغين، القاف، الواو، الياء) ومثل هذا يقال في اللغات الاعجمية الأخرى بدرجات متفاوتة.

عند معالجة الاسم لتوليد نظائره الأعجمية يجب مراعاة أن لا يتم الاعتماد فقط خوارزمية آلية لتوليد كل التركيبات الممكنة التي تنتج عن توفيق الحروف لأنه من غير المفيد توليد نظائر لا يستخدمها أحد لكتابة اسمه، بل أن يتحرى نظام المعالجة الدقة في نقل الاسم بحيث يتقصى أصل الاسم أولاً ثم يربطه بالجهة ذات الثقافة المحددة وأخيراً يقوم بتوليد التركيبات الممكنة ومن ثم إخراج النظائر المقبولة في المنطقة، فالنظير (Shahin) المنقول عن الاسم «شاهين» لن يكون نظيراً مناسباً لذات الاسم في الدول التي تعتمد الثقافة الفرنكفونية أو المغرب العربي بصفة خاصة بل يكون النظير (Chehine) أكثر شيوعاً هناك ومثل هذا يقال في جميع الأسماء العربية.

المراجع[عدل]

  1. ^ "خوارزميات لرومنة الأسماء العربية". sciencedirect. اطلع عليه بتاريخ 2024-02-07.