انتقل إلى المحتوى

مستخدم:Zaher.Kadour/إنشاء مقالات بوتية

من ويكيبيديا، الموسوعة الحرة

للقيام بمشروع إنشاء مقالات بوتية علينا اتباع عدة خطوات

استخراج البيانات

[عدل]

ويمكننا ذلك بطريقتين:

  1. باستخدام بوت استخراج البيانات وهي الطريقة الأفضل والتي سيتم شرحها
  2. باستخدام صفحات القوائم من ويكيبيديا أو من خارجها وهي غير مفضلة لأسباب منها:
  • المعلومات المستخرجة ستكون قليلة
  • غالباً لن تستطيع ربطها عبر وصلة إنترويكي
    • إما لعدم معرفة اسم المقالة المقابلة في ويكيبيديا الإنكليزية أو غيرها (إذا كانت القائمة مستوردة من خارج ويكيبيديا)
    • أو أن اسم نص الوصلة الظاهر يختلف عن اسم المقالة كما في حالة استخدام [[اسم المقالة|نص الوصلة الظاهر]] (إذا كانت القائمة مستوردة من ويكيبيديا)

للبدء بالمشروع نحدد تصنيف يضم المقالات التي نريد إنشاء مقابل لها في ويكيبيديا العربية، ويجب أن تحتوي هذه المقالات على صندوق معلومات لكي يستخرج البوت بياناته، وسنأخذ مثال محدد لنتابع الشرح عليه:

اخترت التصنيف en:Category:Communes of Alpes-Maritimes والذي يضم حالياً 164 مقالة، نفتح إحدى هذه المقالات في حالة التعديل وننسخ المتغيرات الموجودة في قالب المعلومات ونرتبها ونفتح ملف بوت استخراج البيانات ونعدل السطر 600 ليصبح على الشكل التالي:

    items=(u'image',u'image flag',u'image coat of arms',u'map',u'mayor',u'term',u'elevation m',u'area km2',u'population',u'population date',u'latitude',u'longitude',u'INSEE',u'postal code',u'website',u'region',u'department',u'arrondissement') #City Infobox French commune

نشغل البوت وبعد الإنتهاء سنحصل على ملف resultexcelc.txt ممتلئ بالمعلومات، نفتح برنامج الإكسل ونستورد هذه المعلومات إما بالنسخ واللصق أو من تبويبة data، اختر زر From Text، ثم اختر اسم الملف (resultexcelc.txt)

العمل على ملف الإكسل

[عدل]

قد توجد بعض الأعمدة فارغة أو بعض الصفوف لا تحتوي معلومات كافية خاصة في نهاية الملف (إما أن المقالات لا تحتوي قالب صندوق معلومات أو لخلل ما) احذف هذه الصفوف. أيضاً علينا التدقيق في هذه البيانات قد يكون أحد الأعمدة يحتوي نفس القيمة لجميع المقالات (مثلاً اسم المنطقة الأكبر، ...) نقوم بحذف هذا العمود ونضيف قيمته مباشرة إلى نص الشاكلة. يفضل أن يحتوي ملف الإكسل على المتغييرات فقط، الآن اصبح لدينا ملف جاهز لنعمل عليه (كما في الصورة رقم 1).

1- ملف إكسل جاهز للبدء بالعمل عليه

نبدأ بالعمل على ملف الإكسل وسأشرح حسب الطريقة التي أعمل بها (إذا كان لديك طريقة أبسط وأسهل شاركنا بها):

  1. العمود الأخير باسم names ننقله إلى بداية الملف وهو يمثل أسماء المقالات في ويكيبيديا الإنكليزية، ثم ندرج عمود فارغ في بداية الملف ونكتب فيه تعريب/ترجمة أسماء هذه المقالات.
  2. نترجم البيانات التي تحتاج إلى ترجمة في باقي الأعمدة.
  3. ندرج صف فارغ في بداية الملف ونكتب فيه أرقام متسلسلة للأعمدة، الغاية منه سهولة توزيع المتغيرات ضمن الشاكلة (كما في الصورة رقم 2).
    2- بعد التعريب والتنسيق
  4. نقوم بإنشاء شاكلة/نموذج مقالة ونصيغها بحيث تتضمن أكبر قدر ممكن من البيانات التي لدينا في ملف الإكسل ونقوم بتنسيقها بأعلى درجة ممكنة ومراجعتها عدة مرات لأن أي خطأ فيها سيتكرر في جميع المقالات التي سننشأها لاحقاً، مثال مستخدم:Zaher kadour/بلديات إقليم الألب البحرية.

إعداد ملف المقالات

[عدل]

سنقوم بإضافة بعض البيانات إلى ملف الإكسل:

  1. نفتح ملف الإكسل وندرج ثلاثة أعمدة في بدايته
  • نكتب في العمود الأول AAAXXX
  • في العمود الثاني اسم المقالة بالعربية
  • في العمود الثالث YYY{{نسخ:مستخدم:Zaher kadour/بلديات إقليم الألب البحرية مع استبدال مستخدم:Zaher kadour/بلديات إقليم الألب البحرية بعنوان صفحة الشاكلة التي أنشأتها.
  • في العمود الأخير من الملف تكتب }}BBB

ملاحظة: باستخدام خاصية السحب في الإكسل نقوم بملئ هذه الأعمدة

3- ملف إكسل جاهز

بعد إجراء هذه التعديلات سيصبح ملف الإكسل كما في الصورة رقم 3

4- نسخ مسافة فارغة
5- نافذة بحث واستبدال

نقوم بنسخ الصفوف التي تحتوي البيانات (ماعدا أول صفين) ونلصقها في ملف نصي بترميز UTF-8 ونحدد مسافة فارغة بين قيمتي عمودين (الصورة رقم 4) ونفتح نافذة بحث واستبدال ونلصق في خانة بحث وفي خانة استبدال نكتب | ونضغط زر استبدال الكل (الصورة رقم 5) ثم نلصق XXX| وفي خانة استبدال نكتب XXX ونضغط زر استبدال الكل وثم نلصق في خانة البحث |YYY وفي خانة استبدال نكتب YYY ونضغط زر استبدال الكل.

6- ملف نصي جاهز

الآن أصبح لدينا ملف نصي جاهز لوضعه في مجلد البوت وكل سطر منه يمثل مقالة (الصورة رقم 6) ونسميه مثلاً pages.txt، ونشغل البوت بالأمر

python pagefromfile.py -file:pages.txt -start:AAA -end:BBB -titlestart:XXX -titleend:YYY -notitle -safe

ملاحظات

[عدل]
  1. لو طلبنا من بوت استخراج البيانات استخراج قيمة المتغير name التي تتواجد في أغلب قوالب صندوق المعلومات، سينتج لدينا عمودين في ملف الإكسل بنفس الاسم، علينا الانتباه إلى أن العمود الذي يوجد في نهاية الملف هو الذي يمثل اسم المقالة، أما العمود الآخر غالباً لا يمثل عنوان المقالة، وتختلف هذه الحالة حسب نوع المقالات لأنه ربما يكون اسم الشخص الثلاثي أو اختصار له أو اسم المدينة بدون اسم المنطقة أو....
  2. بعد الإنتهاء من إعداد الملف النصي قم بتجربة إنشاء بعض المقالات في نطاقك الشخصي وذلك بتغير القيمة اسم المقالة بين XXX و YYY إلى صفحة فرعية في نطاقك الشخصي مثال مستخدم:Zaher kadour/تجربة1 وتأكد أن كل متغير أخذ قيمته وتأكد من وصلة الإنترويكي وأن المقالات لا تحتوي أخطاء. مثال1 مثال2 مثال3.
  3. في البداية قم بإنشاء خمس مقالات وتأكد من مراجعتهم بشكل دقيق وإذا كانت النتائج كما يجب أن تكون، يمكنك المتابعة بإنشاء جميع المقالات.