أرشفة الويب
أرشفة الويب هي عملية جمع أجزاء من الشبكة العالمية وضمان أن هذه المجموعه محفوظه في في أرشيف، مثل موقع أرشيف، للباحثين المستقبليين والمؤرخين والجمهور. نظرا للحجم الهائل للويب، أمناء أرشيف الويب عادة ما يستخدمون (WEB CRAWLERS) الزاحف على شبكة الإنترنت من اجل التجميع الآلي. أكبر منظمة لأرشفة الويب تستند إلى نهج الزحف (crawling approach) هوأرشيف الإنترنت والتي تسعى جاهدة للحفاظ على أرشيف ويب بأكمله. المكتبات الوطنية، الأرشيف الوطني ومختلف اتحادات المنظمات تشارك أيضا في أرشفة محتوى الويب الثقافي الهام. برمجيات وخدمات أرشفة الويب التجارية متوفره أيضا للمنظمات التي هي بحاجة لأرشفة المحتوى الخاص بهم على شبكة الإنترنت لأغراض قانونية أو تنظيمية.
محتويات |
جمع ويب [عدل]
أمناء ارشفه الويب عموما يعملون أرشفة لكافة أنواع المحتوى على شبكة الإنترنت بما في ذلك أتش تي أم أل(HTML) صفحات الويب، وأوراق الأنماط (style sheets)، وجافا سكريبت (JavaScript)، والصور، والفيديو. كما أنهم يعملون ارشفه للبيانات الفوقية metadata عن الموارد التي جمعت مثل وقت الوصول، نوع الملف (MIME type)، وطول محتوى. هذه البيانات الفوقيه metadata مفيده في إنشاء الأصالة والمنبعيه للمجموعه المؤرشفة.
أساليب الجمع [عدل]
التحصيل عن بعد [عدل]
أكثر تقنيات أرشفة الويب شيوعا تستخدم الزاحف على شبكة الإنترنت(web crawlers) ليدير عملية جمع s. صفحات الويب بشكل آلي. زواحف الويب عادة تستعرض صفحات الويب بنفس الطريقة التي يمكن للمستخدمين مع متصفح الاطلاع على الويب، وبالتالي توفر طريقة بسيطة نسبيا للتحصيل عن بعد المحتوى على شبكة الإنترنت. أمثلة على زواحف الشبكه (web crawlers)التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي :
بناء على الطلب [عدل]
هناك العديد من الخدمات التي يمكن استخدامها لأرشفة موارد الويب (بناء غلى الطلب) عن طريق استخدام تقنيات الزحف على الشبكه :
- WebCite، خدمة خصيصا للعلماء من الكتاب ومحرري المجلات والناشرين بشكل دائم لأرشفة واسترجاع مراجع الإنترنت لما تم الاستشهاد به (Eysenbach وتروديل، 2005).
- ارشفة المواقع، خدمة الاشتراك، وتسمح لبناء المؤسسات، وإدارة وبحث أرشيف الويب الخاصة بها.
- ارشفه المنتديات تعرض وتوفر أدوات وخدمات أرشفة الشبكة التجارية، وتنفيذ سياسة أرشفة لمحتويات الويب وتمكين الاكتشاف الإلكتروني، ودعم الدعاوى القضائية أو التوافق التنظيمي.
- الارشفه
- الارشفه
اشهار مواقع طريقة اشهار المواقع
أرشفة قاعدة البيانات [عدل]
أرشفة قاعدة البيانات يشير إلى أساليب للأرشفة المحتوى الأساسي لقاعدة البيانات المنقاده لمواقع الويب. وعادة ما يتطلب استخراج محتوى قاعدة البيانات في مخطط قياسي، وغالبا باستخدام إكس إم إل(xml). متى ما خزنت في ذلك الشكل الموحد، المحتويات المؤرشفة من قواعد البيانات المتعددة ممكن تصبح متاحه باستخدام نظام وصول واحد. ويتمثل هذا النهج من قبل ارشفه ارشفه الأدوات التي طورتها المكتبة الوطنية بفرنسا، والمكتبة الوطنية في أستراليا، على التوالي. DeepArc تمكن هيكل وبنية قاعدة بيانات ذات العلاقه ليتم تعيينها إلى مخطط XML، ويصدر المحتوى إلى وثيقة إكس إم إل(XML). Xinq بعد ذلك يسمح بأن يتم تسليم المحتوى عبر الإنترنت. على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما، Xinq تسمح للاستعلام والاسترجاع الوظيفي الأساسي ان يتم تكرارها.
أرشفة المعاملات [عدل]
ارشفه المعاملات هي منهج الحدث المنقاد، والذي يجمع المعاملات الفعلية التي تجري بين خادم الويب ومستعرض ويب. هي في المقام الأول تستخدم كوسيلة للحفاظ على أدلة من المحتوى الذي كان في الواقع يستعرضه المستخدم في موقع معين، في تاريخ معين. هذه قد تكون ذات أهمية خاصة بالنسبة للمنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية للكشف عن المعلومات والاحتفاظ بها.
وهناك نظام ارشفه معاملات عادة ما يعمل عن طريق اعتراض كل طلب http ل، واستجابة من، خادم الويب، يعمل على تصفية كل استجابة للقضاء على ازدواجية المحتوى، وبصورة دائمة تخزين الاستجابات بشكل bitstreams. وهناك نظام ارشفه معاملات يتطلب تثبيت برنامج على خادم الويب، وبالتالي لا يمكن استخدامها لجمع المحتوى من موقع بعيد.
أمثلة لبرمجيات ارشفه المعاملات التجارية وتشمل :
الصعوبات والقيود [عدل]
الزواحف [عدل]
محفوظات الويب التي تعتمد على الزحف على شبكة الإنترنت، باعتبارها الوسيلة الرئيسية لتجميع الويب تتأثر بصعوبات الزحف على شبكة الإنترنت :
- في بروتوكول استبعاد الروبوت ممكن ان يطلب من الزواحف عدم الوصول لأجزاء من موقع على شبكة الإنترنت. بعض الأرشيفات على شبكة الإنترنت قد تتجاهل الطلب وتزحف على تلك الأجزاء على أية حال.
- أجزاء كبيرة من موقع على شبكة الإنترنت قد تكون مخبأة في أعماق الإنترنت. على سبيل المثال، صفحة النتائج وراء نموذج ويب يكمن في الوبب العميق لأن الزاحف لا يمكنه تتبع ارتباط لصفحة النتائج.
- بعض خوادم الشبكة قد ترجع صفحة مختلفة لالزاحف على شبكة الإنترنت عن التي سترجع لطلب المتصفح العادي. هذا ما يحدث عادة لخداع محركات البحث إلى إرسال المزيد من الحركة على شبكة الإنترنت.
- فخ الزاحف (على سبيل المثال، التقويمات) قد يتسبب الزاحف بتحميل عدد لانهائي من الصفحات، إذا الزواحف عادة ما يتم تكوينها للحد من عدد الصفحات الديناميكية التي تزحف.
الويب كبير جدا لدرجة أن الزحف على جزء كبير منه يأخذ ويستهلك كمية كبيرة من الموارد التقنية. الويب آخذ في التغير بسرعة لدرجة ان اجزاء من موقع على شبكة الإنترنت قد تتغير قبل أن ينتهي الزاحف من الزحف إليه.
قيود عامة [عدل]
ليس فقط على محفوظات شبكة الإنترنت التعامل مع التحديات التقنية ولكن يجب لحفظها على شبكة الإنترنت، بل يجب أن يتعامل مع قوانين الملكية الفكرية. بيتر ليمان (2002) تنص على أنه "على الرغم من أن الشبكة هي شعبيا يعتبر موردا المجال العام، فإنه من حق المؤلف الطبعة، وبالتالي فإن المحفوظات لا تملك الحق القانوني لنسخ ويب". ومع ذلك المكتبات الوطنية في العديد من البلدان لديها حق قانوني في نسخ أجزاء من الشبكة تحت امتدادا للإيداع القانوني.
بعض محفوظات خاصة غير ربحية على شبكة الإنترنت التي يتم توفيرها للعامة مثل WebCite أرشيف الإنترنت أو السماح لمالكي المحتوى لإخفاء أو إزالة المحتويات المؤرشفة أنهم لا يريدون الجمهور في الحصول على. أرشيف الإنترنت الأخرى هي فقط يمكن الوصول إليها من بعض المواقع أو تنظيم الاستخدام. WebCite كما يستشهد على ارشفة منتديات مؤخرا دعوى قضائية ضد آلية التخزين المؤقت، الذي فاز مجموعات.
جوانب تنظيم الويب [عدل]
تنظيم على شبكة الإنترنت، مثل أي تنظيم رقمي، وينطوي على :
- جمع أصول ويب قابلة للتحقق
- توفير أصول الويب البحث والاسترجاع
- التصديق على درجة الجدارة والنزاهة لمحتوى المجموعه
- الدلالية وجودي الاستمرارية والقابلية للمقارنة لجمع المحتوى
وبالتالي، يجب أن يكون إلى جانب مناقشة أساليب تجمع الويب ،تلك من توفير إمكانية الوصول، وإصدار الشهادات، وتنظيم ستدرج. هناك مجموعة من الأدوات الشعبية التي تتناول هذه الخطوات التنظيم :
وهناك دعوى من أدوات تنظيم لويب الدولية للإنترنت عن طريق المحافظة على الإتحاد :
- Heritrix -- الموقع الرسمي -- جمع أصول ويب
- NutchWAX -- بحث مجموعات ارشيف الويب
- ايباك (المصدر المفتوح آلة ايباك) -- بحث وتصفح مجموعات ارشيف الإنترنت باستخدام NutchWax
- على شبكة الإنترنت أداة أمينة -- اختيار وإدارة كوكتيل الشبكة
أدوات أخرى مفتوحة المصدر لمعالجة محفوظات الويب :
- WARC أدوات -- لخلق، والقراءة، وتحليل والتلاعب، بمحفوظات الويب برمجيا
- أدوات البحث -- لفهرسة والبحث عن النص الكامل والبيانات الوصفية داخل أرشيف الإنترنت
المراجع [عدل]
- Brown,A. (2006). Archiving Websites: a practical guide for information management professionals. London: Facet Publishing. ISBN 1-85604-553-6.
- Brügger,N. (2005). Archiving Websites. General Considerations and Strategies. Aarhus: The Centre for Internet Research. ISBN 87-990507-0-6. http://www.hero.org.in.
- Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives". Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461–472. http://www.ukoln.ac.uk/metadata/presentations/ecdl2003-day/day-paper.pdf.
- Eysenbach, G. and Trudel, M. (2005). "Going, going, still there: using the WebCite service to دعم فني". Journal of Medical Internet Research 7 (5): e60. doi:10.2196/jmir.7.5.e60. http://www.hero.org.in/.
- Fitch, Kent(2003). "Web site archiving — an approach to recording every materially different response produced by a website".Ausweb 03.
- Lyman, P.. "Archiving the World Wide Web". Building a National Strategy for Preservation: Issues دعم فني. http://www.hero.org.in.
- Masanès,J. (ed.) (2006). Web Archiving. Berlin: Springer-Verlag. ISBN 3-540-23338-5.
أنظر أيضاً [عدل]
- الأرشيف
- موقع الأرشيف
- الحفظ الرقمي
- Heritrix
- أرشيف الإنترنت
- مكتبة الكونغرس مشروع المكتبة الرقمية
- البنية الأساسية للمعلومات الرقمية الوطنية والحفاظ على برنامج
- أرشيف البندور
- البرتغالية أرشيف ويب
- مشروع منيرفا
- اتحاد أرشفة web المملكة المتحدة
- الزحف على شبكة الإنترنت
- WebCite
- قطعة أثرية افتراضية
- ذاكرة الإنترنت
وصلات خارجية [عدل]
- المحافظة على الإتحاد الدولي للإنترنت (IIPC) -- الإتحاد الدولي الذي تتمثل مهمته في الحصول على والحفاظ على، وإتاحة المعرفة والمعلومات من الإنترنت للأجيال المقبلة
- ورشة عمل أارشفة الويب الدولية (IWAW) -- حلقة العمل السنوية التي تركز على أرشفة الويب
- مكتبة الكونغرس، المجموعات الرقمية والبرامج
- المكتبة الوطنية لاستراليا، والحفاظ على الوصول إلى المعلومات الرقمية (بادي)
- مكتبة الكونغرس، والتقاط ويب
- ببليوغرافيا أرشفة الويب -- قائمة مطولة لموارد أرشفة الويب
- قائمة مناقشة أشفة الويب -- المستخدمة لمناقشة الجوانب التقنية والقانونية والتنظيمية لأرشفة الويب
- WebArchivist -- الباحثون الذين يعملون مع العلماء وأمناء المكتبات والمحفوظات والمهتمين في المحافظة على موارد الشبكة وتحليلها.
- جوليان Masanès، المكتبة الوطنية الفرنسية -- نحو مستمر على شبكة الإنترنت أرشفة
- مقارنة بين خدمات الويب أرشفة
- سوات --أداة أرشفة الويب الحيويه. وإثبات صحة الفكرة القائلة بأن برنامج أرشفة صفحات الويب عن طريق الحصاد أو التجصيل عن بعد لجميع الملفات وأخذ لقطات من كل صفحة. جميع البيانات الوصفية يتم حفظها في أكس أم أل (ميتس، PREMIS، وزارة الدفاع وADDML).
- ذاكرة الإنترنت مؤسسة مهمتها أرشفة الويب
- archivethe.net موقع يعنى بتجميع محتوى الويبقصدالأرشفة
