هريتركس

من ويكيبيديا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث
هيراتراكس
Heritrix
Heritrix logo.png
صورة الشعار
Heritrix-screenshot.png
لقطة لوحدة التحكم للمدير في هيراتراكس
معلومات عامة
نوع
مواقع الويب
معلومات تقنية
المطورون
لغة البرمجة
التوثيق
الإصدار الأخير
3.0.0
المستودع
الرخصة
الملفات المقروءة
  • Web ARChive (en) ترجم عدل القيمة على Wikidata
الملفات المنتجة
  • Web ARChive (en) ترجم عدل القيمة على Wikidata
  • هيراتراكس (Heritrix) هو زاحف أرشيف أنترنت، والذي صمم خصيصا للأرشفة ويب.[2][3] فهو مفتوح المصدر ومكتوب بلغة جافا. الواجهة الرئيسية للوصول باستخدام متصفح ويب، وهناك أداة سطر الأوامر التي يمكن اختياريا استخدامها لبدء بالزحف. طور هيراتراكس بالاشتراك مع أرشيف الإنترنت والمكتبات الوطنية في الشمال المواصفات المكتوبة في أوائل عام 2003. وكان إطلاقه الرسمي في أول يناير 2004، وتم تحسينها باستمرار من قبل العاملين في أرشيف الإنترنت وغيرها من الأطراف المهتمة.

    مشاريع استخدمت هيراتراكس[عدل]

    وهناك عدد من المنظمات والمكتبات الوطنية تستخدم هيراتراكس، من بينها:

    قوس الملفات[عدل]

    في الاصل تخزن هيراتراكس موارد الإنترنت التي تزحف عليها في ملف القوس. هذا القوس ليست لها علاقة كليا لمركز البحوث الزراعية (تنسيق ملف). وقد استخدم هذا الشكل من أرشيف الإنترنت منذ عام 1996 لتخزين الأرشيف على شبكة الويب. ويمكن أيضا تنسيق الملف WARC، مماثلة لـARC ولكن أكثر دقة ومرونة. يمكن أيضا أن يتم تكوين هيراتراكس لتخزين الملفات في شكل دليل مشابهة لزاحف وجت المستخدم عنوان إلى اسم الدليل واسم كل مورد. يقوم ملف القوس بتخزين متعددة الموارد المؤرشفة في ملف واحد من أجل تجنب إدارة عدد كبير من الملفات الصغيرة. يتكون الملف من سلسلة من السجلات العنوان، كل رأس يحتوي بيانات وصفية حول كيفية طلب الموارد تليها راس HTTP والاستجابة لها. ملفات القوس تتراوح ما بين 100 حتي 600 ميغا بايت. على سبيل المثال:

    filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
    1 1 InternetArchive
    URL IP-address Archive-date Content-type Archive-length
    
    http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
    HTTP/1.1 200 OK
    Date: Thu, 22 Jun 2006 19:01:15 GMT
    Server: Apache
    Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
    Content-Length: 30
    Content-Type: text/html
    
    <html>
    Hello World!!!
    </html>
    

    ادوات لمعالجة ملفات القوس[عدل]

    هيراتراكس يتضمن أداة سطر الأوامر تسمى arcreader والتي يمكن استخدامها لاستخراج محتويات ملف القوس. الأمر التالي يسرد كافة عناوين المواقع والبيانات المخزنة في ملف القوس معين (بصيغة CDX) :

    arcreader IA-2006062.arc
    

    الأمر التالي مقتطفات hello.html من المثال أعلاه بافتراض السجل يبدأ عند إزاحة 140:

    arcreader -o 140 -f dump IA-2006062.arc
    

    أدوات أخرى:

    أداة سطر الأوامر[عدل]

    هيراتراكس يأتي مع أدوات سطر الأوامر عدة:

    • htmlextractor - يعرض وصلات لاستخراج هيراتراكس بعنوان معين
    • hoppath.pl - يعيد المسار هوب (طريق وصلات) إلى عنوان محدد من الزحف الانتهاء
    • manifest_bundle.pl - حزم في جميع الموارد المشار إليه بواسطة ملف الزحف واضح إلى غير مضغوط أو مضغوط الكرة القطران
    • cmdline-jmxclient - تمكن سطر الأوامر السيطرة على هيراتراكس
    • arcreader - مقتطفات محتويات الملفات القوس (انظر أعلاه)

    انظر أيضًا[عدل]

    المراجع[عدل]

    • Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduction to Heritrix, an archival quality web crawler" (PDF). Proceedings of the 4th International Web Archiving Workshop (IWAW’04). مؤرشف من الأصل (PDF) في 16 أبريل 2016. الوسيط |CitationClass= تم تجاهله (مساعدة)صيانة CS1: أسماء متعددة: قائمة المؤلفون (link)
    • Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF). Proceedings of the 5th International Web Archiving Workshop (IWAW’05). مؤرشف من الأصل (PDF) في 02 يونيو 2016. الوسيط |CitationClass= تم تجاهله (مساعدة)

    وصلات خارجية[عدل]

    أدوات حسب أرشيف الإنترنت:

    روابط لأدوات لها علاقة:

    المراجع[عدل]

    1. ^ "Release 3.4.0-20200518". 18 مايو 2020. اطلع عليه بتاريخ 19 مايو 2020. الوسيط |CitationClass= تم تجاهله (مساعدة); تحقق من التاريخ في: |access-date=, |date= (مساعدة)
    2. ^ "معلومات عن هريتركس على موقع pro-linux.de". pro-linux.de. مؤرشف من الأصل في 8 أبريل 2020. الوسيط |CitationClass= تم تجاهله (مساعدة)
    3. ^ "معلومات عن هريتركس على موقع openhub.net". openhub.net. مؤرشف من الأصل في 8 أبريل 2020. الوسيط |CitationClass= تم تجاهله (مساعدة)