مستخدمة:OKBot/إملاء: الفرق بين النسختين

من ويكيبيديا، الموسوعة الحرة
تم حذف المحتوى تمت إضافة المحتوى
OsamaK (نقاش | مساهمات)
لا ملخص تعديل
OsamaK (نقاش | مساهمات)
لا ملخص تعديل
سطر 1: سطر 1:
معلوم أن الكتابة العربية على الإنترنت عموما رديئة إملائيا ونحويا، وويكيبيديا العربية ليست استثناءً وما ينطبق على سواها ينطبق عليها، ومن المعلوم أيضا أن النص لا يمكن أن يكون ذو جودة عالية ما دام رديئا إملائيا أو نحويا، ومن المعلوم أيضا أن التدقيق الإملائي مهمة شاقة، ومن هنا يتحتم علينا أن نبحث عن وسائل للتدقيق الإملائي الآلي تحسن من جودة المقالات في ويكيبيديا وتوفر أوقات المساهمين الغالية، وتساعد القراء على الاستفادة من محتوى ويكيبيدي أفصل.
معلوم أن الكتابة العربية على الإنترنت عموما رديئة إملائيا ونحويا، وويكيبيديا العربية ليست استثناءً فما ينطبق على سواها ينطبق عليها، ومن المعلوم أيضا أن النص لا يمكن أن يكون ذا جودة عالية ما دام رديئا إملائيا أو نحويا، ومن المعلوم أيضا أن التدقيق الإملائي مهمة شاقة، ومن هنا يتحتم علينا أن نبحث عن وسائل للتدقيق الإملائي الآلي تُحسّن جودة المقالات في ويكيبيديا وتوفر أوقات المساهمين الغالية، وتساعد القراء على الاستفادة من محتوى عربي أفصل.


=== لمحة تقنية ===
=== لمحة تقنية ===
في عدد من اللغات الأخرى طُوّرت خوارزميات لتحلل سياق النص ليفهمه الحاسوب ويعالجه ويصححه إملائيا ونحويا. اللغة العربية لا زالت محرومة من مثل هذه التقنية المتقدمة، ولذا علينا اللجوء لوسائل أبسط كالاقتصار على الصيغ الخاطئة دائما، مهما كان سياق الكلمة. بطبيعة الحال سيكون التدقيق الإملائي أشمل لو تمكن أيضا من فهم السياق، لكن الشكوى لله. ثمة إشكال آخر -حتى عند استخدام التقنيات الأبسط- أن الكتابة العربية في الإنترنت عموما وفي ويكيبيديا خصوصا لا تُشكّل. هذا يجعلنا ملزمين أيضا باستثناء الصيغ التي قد تكون صحيحة إذا ما شكلت بطريقة مختلفة (مثل مَدرَسة ومُدرّسِه)، فالآلة لا تستطيع فهم السياق ولا استنباط التشكيل، لكن ما لا يدرك كله لا يترك جله.
في عدد من اللغات الأخرى طُوّرت خوارزميات لتحلل سياق النص ليفهمه الحاسوب ويعالجه ويصححه إملائيا ونحويا. اللغة العربية لا زالت محرومة من مثل هذه التقنية المتقدمة، ولذا علينا اللجوء لوسائل أبسط. الوسيلة التي أعتمدها حاليا هي الاقتصار على الصيغ الخاطئة دائما (مهما كان سياق الكلمة). بطبيعة الحال سيكون التدقيق الإملائي أشمل لو تمكن الحاسوب أيضا من فهم السياق، لكن الشكوى لله. ثمة إشكال آخر -حتى عند استخدام التقنيات الأبسط- أن الكتابة العربية في الإنترنت عموما لا تُشكّل. هذا يجعلنا ملزمين أيضا باستثناء الصيغ التي قد تكون صحيحة إذا ما شُكّلت بطريقة ما (مثل مَدرَسة ومُدرّسِه)، فالآلة لا تستطيع فهم السياق ولا استنباط التشكيل ومن المهم أن يكون التدقيق الإملائي دقيقا وألا ينتج عنه تخطيء لصيغ صحيحة.


==== جهود التصحيح الويكيبيدية ====
==== جهود التصحيح الويكيبيدية ====
تولى رفيقنا [[مستخدم:Alnokta|النكتة]] خلال سنين مضت تجهيز [[مستخدم:Alnokta#الكلمات المستهدفة|قائمة بالأخطاء الإملائي الشائعة]] وساهمت هذه القائمة في تنظيف ويكيبيديا من تلك الأخطاء لكنها كانت محدودة ولم تشمل في آخر مراحلها سوى 523 كلمة. الإشكال الأساسي أأن القائمة كانت ثابتة، فمثلا تحتوي القائمة كلمة ''الامريكيون''، لكن لو سُبقت الكلمة الخاطئة بحرف عطف مثل: ''والامريكيون'' لما تمكن البرنامج من التعرف عليها وتصحيحها. بعد ذلك طورتُ التدقيق الإملائي ليعتمد على [[تعبير نمطي|التعابير النمطية]] (وهو أسلوب برمجي لوصف النصوص بشكل فضفاض، يتيح للبرنامج التعرف على الأخطاء بشكل أوسع وأكثر مرونة)، وهذا فتح المجال لإدخال آلاف الكلمات والصيغ التي كانت مسثتناه بسبب جمود الصيغ السابقة (حروف العطف، وأل التعريف، وصيغ الجمع كلها مشمولة الآن مثلا)
تولى رفيقنا [[مستخدم:Alnokta|النكتة]] خلال سنين مضت تجهيز [[مستخدم:Alnokta#الكلمات المستهدفة|قائمة بالأخطاء الإملائية الشائعة]] وساهمت هذه القائمة في تنظيف ويكيبيديا من تلك الأخطاء فترة طويلة لكنها كانت محدودة ولم تشمل في آخر مراحلها سوى 523 كلمة. الإشكال الأساسي أن القائمة كانت ثابتة، فمثلا تحتوي القائمة كلمة ''الامريكيون''، لكن لو سُبقت هذه الكلمة الخاطئة بحرف عطف مثل: ''والامريكيون'' لما تمكن البرنامج من التعرف عليها وتصحيحها. بعد ذلك طورتُ التدقيق الإملائي ليعتمد على [[تعبير نمطي|التعابير النمطية]] (وهو أسلوب برمجي لوصف النصوص بشكل فضفاض، يتيح للبرنامج التعرف على الأخطاء بشكل أوسع وأكثر مرونة)، وهذا فتح المجال لإدخال آلاف الكلمات والصيغ التي كانت مسثتناه بسبب جمود الصيغ السابقة (حروف العطف، وأل التعريف، وصيغ الجمع كلها مشمولة الآن مثلا).


=== كيف تساهم؟ ===
=== كيف تساهم؟ ===
المساهمة لا تتطلب أي خبرة تقنية (جميع الأجزاء التقنية جاهزة)، لكنها تتطلب إلماما لغويا ونحويا. نحتاج أن نحصر الأوزان والصيغ الخاطئة إملائيا أو نحويا بشرطين: ألا يعتمد الخطأ على السياق ولا على التشكيل. مثلا: ''إستفعال'' (بهمزة قطع) خاطئة مهما كان السياق والتشكيل، والصحيح أن تكون ''استفعال'' (''استخراج''، ''استكشاف''، ''استخدام''، وما يشتق منها بإضافة حروف العطف أو بإضافة أل التعريف أو بجمعها). ثمة حاليا مجموعة صيغ تصحح آليا، لكننا نعرف أن تلك الصيغ ناقصة، وثمة مجال واسع لتوسيعها.
المساهمة لا تتطلب أي خبرة تقنية (جميع الأجزاء التقنية جاهزة)، لكنها تتطلب إلماما لغويا ونحويا. نحتاج أن نحصر الأوزان والصيغ الخاطئة إملائيا أو نحويا بشرطين: ألا يعتمد الخطأ على السياق ولا على التشكيل. مثلا: ''إستفعال'' (بهمزة قطع) خاطئة مهما كان السياق والتشكيل، والصحيح أن تكون ''استفعال'' (مثل: ''استخراج''، ''استكشاف''، ''استخدام''). ثمة حاليا مجموعة صيغ تصحح آليا، لكننا نعرف أن تلك الصيغ ناقصة، وثمة مجال واسع لتوسيعها.


ستجد أدناه أقساما مختلفة تحتوي الصيغ التي تصحح والكلمات المعتمدة. مساهمتك باقتراح صيغ جديدا مرحب بها دائما:[[خاص:مراسلة_المستخدم/OsamaK|أرسل ما تراه ملائما]] وسنفحص الصيغة وننفيذها. تذكر أن مساهمتك بصيغة واحدة قد تصحح مئات آلاف الأخطاء في ويكيبيديا وتساهم مساهمة عظيمة في تحسين المحتوى العربي الحر على الإنترنت.
ستجد أدناه أقساما مختلفة تحتوي الصيغ التي تصحح والكلمات المعتمدة. مساهمتك باقتراح صيغ جديدا مرحب بها دائما:[[خاص:مراسلة_المستخدم/OsamaK|أرسل ما تراه ملائما]] وسنفحص الصيغة وننفذها. تذكر أن مساهمتك بصيغة واحدة قد تصحح مئات آلاف الأخطاء في ويكيبيديا وتساهم مساهمة عظيمة في تحسين المحتوى العربي الحر على الإنترنت.


العمل حاليا مقتصر على الصيغ الإملائية لكني أود توسيعه ليشمل أيضا الأخطاء النحوية. بحكم أن الأخطاء النحوية تعتمد كثيرا على السياق، وبحكم أن الحاسوب لا يفهم تلقائيا السياق العربي يمكن أن تكون الصيغ النحوية عبارة عن أكثر من كلمة، مثلا: لا يمكن أن يسبق الاسم حرف جر وأن يكون منصوبا (طبعا، ثمة حاجة لوضع قائمة بحروف الجر، ومعايير آلية لتحديد ما إذا كان الاسم منصوبا)، وهذه مهمتكم أيها اللغويين، وسأكفيكم ترجمة ما تقولون لصيغة يفهمها الحاسوب.
العمل حاليا مقتصر على الصيغ الإملائية لكني أود توسيعه ليشمل أيضا الأخطاء النحوية. بحكم أن الأخطاء النحوية تعتمد كثيرا على السياق، وبحكم أن الحاسوب لا يفهم تلقائيا السياق العربي يمكن أن تكون الصيغ النحوية عبارة عن أكثر من كلمة، مثلا: لا يمكن أن يسبق الاسم حرف جر وأن يكون منصوبا (طبعا، ثمة حاجة لوضع قائمة بحروف الجر، ومعايير آلية لتحديد ما إذا كان الاسم منصوبا)، وهذه مهمتكم أيها اللغويين، وسأكفيكم ترجمة ما تقولون لصيغة يفهمها الحاسوب.

نسخة 19:26، 18 مايو 2014

معلوم أن الكتابة العربية على الإنترنت عموما رديئة إملائيا ونحويا، وويكيبيديا العربية ليست استثناءً فما ينطبق على سواها ينطبق عليها، ومن المعلوم أيضا أن النص لا يمكن أن يكون ذا جودة عالية ما دام رديئا إملائيا أو نحويا، ومن المعلوم أيضا أن التدقيق الإملائي مهمة شاقة، ومن هنا يتحتم علينا أن نبحث عن وسائل للتدقيق الإملائي الآلي تُحسّن جودة المقالات في ويكيبيديا وتوفر أوقات المساهمين الغالية، وتساعد القراء على الاستفادة من محتوى عربي أفصل.

لمحة تقنية

في عدد من اللغات الأخرى طُوّرت خوارزميات لتحلل سياق النص ليفهمه الحاسوب ويعالجه ويصححه إملائيا ونحويا. اللغة العربية لا زالت محرومة من مثل هذه التقنية المتقدمة، ولذا علينا اللجوء لوسائل أبسط. الوسيلة التي أعتمدها حاليا هي الاقتصار على الصيغ الخاطئة دائما (مهما كان سياق الكلمة). بطبيعة الحال سيكون التدقيق الإملائي أشمل لو تمكن الحاسوب أيضا من فهم السياق، لكن الشكوى لله. ثمة إشكال آخر -حتى عند استخدام التقنيات الأبسط- أن الكتابة العربية في الإنترنت عموما لا تُشكّل. هذا يجعلنا ملزمين أيضا باستثناء الصيغ التي قد تكون صحيحة إذا ما شُكّلت بطريقة ما (مثل مَدرَسة ومُدرّسِه)، فالآلة لا تستطيع فهم السياق ولا استنباط التشكيل ومن المهم أن يكون التدقيق الإملائي دقيقا وألا ينتج عنه تخطيء لصيغ صحيحة.

جهود التصحيح الويكيبيدية

تولى رفيقنا النكتة خلال سنين مضت تجهيز قائمة بالأخطاء الإملائية الشائعة وساهمت هذه القائمة في تنظيف ويكيبيديا من تلك الأخطاء فترة طويلة لكنها كانت محدودة ولم تشمل في آخر مراحلها سوى 523 كلمة. الإشكال الأساسي أن القائمة كانت ثابتة، فمثلا تحتوي القائمة كلمة الامريكيون، لكن لو سُبقت هذه الكلمة الخاطئة بحرف عطف مثل: والامريكيون لما تمكن البرنامج من التعرف عليها وتصحيحها. بعد ذلك طورتُ التدقيق الإملائي ليعتمد على التعابير النمطية (وهو أسلوب برمجي لوصف النصوص بشكل فضفاض، يتيح للبرنامج التعرف على الأخطاء بشكل أوسع وأكثر مرونة)، وهذا فتح المجال لإدخال آلاف الكلمات والصيغ التي كانت مسثتناه بسبب جمود الصيغ السابقة (حروف العطف، وأل التعريف، وصيغ الجمع كلها مشمولة الآن مثلا).

كيف تساهم؟

المساهمة لا تتطلب أي خبرة تقنية (جميع الأجزاء التقنية جاهزة)، لكنها تتطلب إلماما لغويا ونحويا. نحتاج أن نحصر الأوزان والصيغ الخاطئة إملائيا أو نحويا بشرطين: ألا يعتمد الخطأ على السياق ولا على التشكيل. مثلا: إستفعال (بهمزة قطع) خاطئة مهما كان السياق والتشكيل، والصحيح أن تكون استفعال (مثل: استخراج، استكشاف، استخدام). ثمة حاليا مجموعة صيغ تصحح آليا، لكننا نعرف أن تلك الصيغ ناقصة، وثمة مجال واسع لتوسيعها.

ستجد أدناه أقساما مختلفة تحتوي الصيغ التي تصحح والكلمات المعتمدة. مساهمتك باقتراح صيغ جديدا مرحب بها دائما:أرسل ما تراه ملائما وسنفحص الصيغة وننفذها. تذكر أن مساهمتك بصيغة واحدة قد تصحح مئات آلاف الأخطاء في ويكيبيديا وتساهم مساهمة عظيمة في تحسين المحتوى العربي الحر على الإنترنت.

العمل حاليا مقتصر على الصيغ الإملائية لكني أود توسيعه ليشمل أيضا الأخطاء النحوية. بحكم أن الأخطاء النحوية تعتمد كثيرا على السياق، وبحكم أن الحاسوب لا يفهم تلقائيا السياق العربي يمكن أن تكون الصيغ النحوية عبارة عن أكثر من كلمة، مثلا: لا يمكن أن يسبق الاسم حرف جر وأن يكون منصوبا (طبعا، ثمة حاجة لوضع قائمة بحروف الجر، ومعايير آلية لتحديد ما إذا كان الاسم منصوبا)، وهذه مهمتكم أيها اللغويين، وسأكفيكم ترجمة ما تقولون لصيغة يفهمها الحاسوب.

قائمة الكلمات