نموذج حقيبة الكلمات في الرؤية الحاسوبية

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث

في الرؤية الحاسوبية ، يمكن تطبيق نموذج حقيبة الكلمات bag-of-words model لتصنيف الصور عن طريق معاملة ملامح الصور image features كأنها كلمات. ففي مجال التعرف و تصنيف الوثائق ، حقيبة الكلمات هي عبارة عن متجهه رياضي vector يعبر عن مدي تكرار هذه الكلمات في النص و يكون ذلك عن طريق مدرج تكراري histogram لكل الكلمات الممكنة في النص. أما في مجال الرؤية الحاسوبية تكون حقيبة الكلمات هي عبارة عن مدرج تكراري يعبر عن مدي تكرار ملمح معين للصورة في صورة معينة.

حقيبة الكلمات

التمثيل بناءً علي نموذج حقيبة الكلمات[عدل]

تمثيل الصور بناءً علي نموذج حقيبة الكلمات[عدل]

لتمثيل صورة عن طريق نموذج حقيبة الكلمات ، يتم معاملة الصورة كأنها وثيقة نصية. بالمثل ؛ يجب تعريف الكلمات الممثلة للصور. و للوصول إلي ذلك يتم إتباع ثلاثة خطوات أساسية: اكتشاف ملامح الصور Feature detection ، توصيف ملامح الصور Feature description ، إنتاج قاموس ملامح الصور codebook generation. و هنا؛ يمكن تعريف نموذج حقيبة الكلمات علي أنه : "تمثيل ملامح الصور المستقلة عن طريق مدرج تكراري".

تمثيل ملامح الصور[عدل]

حساب إتجاه و دوران توصيف ال SIFT

بعد إكتشاف ملامح الصورة، يتم التعبير عن الصورة عن طريق مجموعة من رقع محلية مختلفة. طريقة تمثيل ملامح الصورة تعتمد في الأساس علي كيفية التعبير عن هذه الرقعة patch بشكل متجه عددي vector . و يجب أن يعبر الوصف الجيد للرقعة علي مدي الإضاءة intensity ، مدي الدوران rotation ، مقياس الرسم scale و غير ذلك من الصفات. أحد أشهر و أهم طرق وصف الرقع يسمي SIFT. فهذه الطريقة تقول بتحويل كل رقعة في الصورة إلي متجه عددي طوله 128 عنصر. بعد الإنتهاء من هذه الخطوة يتم التعبير عن كل صورة بعدد من هذه المواصفات حيث يعد ترتيب هذه المواصفات غير مهم.

إنتاج قاموس ملامح الصور[عدل]

أخر خطوة في نموذج حقيبة الكلمات هو تحويل المتجه العددي الممثل لرقع الصور إلي قاموس كلمات. تعتبر الكلمة داخل هذا القاموس تمثيلاً لعدد مختلف من الرقع المتشابهة. أحد الطرق السهلة للوصول إلي ذلك هو تطبيق خوارزم مشهور للتقسيم يسمي k-means clustering علي جميع المواصفات المجمعة من كل الصور. بعد تنفيذ هذا الخوارزم تكون كلمات القاموس عبارة عن مراكز المجموعات المقسمة. و يعتبر عدد هذه المراكز هو حجم قاموس الكلمات.
بعد ذلك يتم حساب مدي إنتماء كل ملمح في الصورة لهذه المراكز المجمعة في قاموس الكلمات ، و يتم تمثيل الصورة كاملة في صورة مدرج تكراري histogram.

التعلم و التعرف بناءً علي نموذج حقيبة الكلمات[عدل]

لقد طور الباحثون في علم الرؤية الحاسوبية العديد من طرق التعليم للإستفادة من نموذج حقيبة الكلمات في المهام المتعلقة بالصور ، مثل تصنيف العناصر أو تصنيف المشاهد. هذه الطرق يمكن بالكاد تقسيمها إلي نماذج منتجة ، و نماذج مميزة. في حالة تصنيف العديد من التصنيفات ، يمكن إستخدام مصفوفة التشويش كعامل لقياس مدي جودة التصنيف.

النماذج المنتجة Generative models[عدل]

بما أن نموذج حقيبة الكلمات هو نموذج مشابه معالجة اللغات الطبيعية ، فإن النماذج المنتجة قد تم تطويرها في الأساس في مجال معالجة الكلمات و تم تبنيها في مجال الرؤية الحاسوبية و سوف نقوم بإستعراض طريقتين من هذه الطرق.

طريقة Naïve Bayes[عدل]

تعتبر طريقة مميز Naïve Bayes هي أبسط الطرق. حيث يقوم بإستخدام لغة النماذج المرئية graphical models. الفكرة الأساسية لهذا النموذج هي أن لكل تصنيف توزيعة معينة علي قاموس الكلمات codebook ، و هذه التوزيعة تختلف من تصنيف لتصنيف أخر. فعلي سبيل المثال تصنيف الوجوه و تصنيف السيارات؛ فتصنيف الوجه سيحتوي علي قيم أكبر عند كلمات مثل "الأنف" ، "العين" ، "الفم" ، بينما تصنيف السيارة سيحتوي علي قيم أكبر عند كلمات مثل "نافذة" ، "إطار". يقوم هذا المميز بتعلم هذه التوزيعات عن طريق تدريبه بعدد من أمثلة التدريب.
و بما أن هذا المميز يتميز ببساطته و فعاليته ، فهو في العادة يستخدم كأداة للمقارنة.

نماذج Bayes الهرمية[عدل]

في الطريقة السابقة كان الفرض الأساسي هو أن التوزيعة بالنسبة لكتاب الكلمات مميزة تماماً و لا تتكرر. و لكن هذا الشرط غير صالح في جميع الأحوال. علي سبيل المثال قد يكون هناك تصنيف معين يحتوي علي كثير من الكلمات المتداخلة كصورة بها وجوه و سيارات. هناك طريقتان للقضاء علي هذه المشكله و سنأخذ أحدهما كمثال و هي Latent Dirichlet allocation . فمثلاً لتمثيل صورة طبيعية معينة بإستخدام هذه الطريقة يكون عن طريق التالي:

  • تصنيف الصورة يكون مثل تصنيف الملف.
  • خليط التصنيفات في الصورة يماثل خليط الموضوعات في الملف النصي.
  • مفتاح التصنيف يماثل مفتاح الموضوعات.
  • الملمح الصوري يماثل الكلمة في قاموس الكلمات.

و قد أظهرت هذه الطريقة نتائج مبشرة في تصنيف المشاهد الطبيعية علي 13 Natural Scene Categories.

النماذج المميزة Discriminative models[عدل]

SVM و استخدامه في التمييز بين الأنماط

و بما إن التعبير عن الصور يتم عن طريق نموذج حقيبة الكلمات ، فإن أي نموذج مميز مناسب لتمييز الكلمات يمكن محاولته أيضاً ، مثال ذلك آله متجه الدعم Support vector machine ، أو AdaBoost. و أيضاً kernel trick هي طريقة مناسبة عند استخدام مميز معتمد علي النواة kernel based classifier. نواة المطابقة الهرمية أو Pyramid match kernel هي أحد الطرق الحديثة التي تم تطويرها إعتمادًا علي نموذج حقيبة الكلمات ، هذا النموذج يتم تدريب مميز classifier به ، و قد تم إختباره مع كثير من الأمثلة. و قد أظهر نتائج مبشرة علي عدد من الأنماط التي تم الإختبار عليها و تسجيل نتائجها.

نواة المطابقة الهرمية Pyramid match kernel[عدل]

نواة المطابقة الهرمية هي خوارزم سريع يقوم بمطابقة عدد من الملامح في نموذج حقيبة الكلمات إلي مدرجات تكرارية في مستوي متعدد الدقة. أحد مميزات استخدام مدرج تكراري متعدد الدقة هي إمكانية إلتقاط و تسجيل الملامح المتكررة و المتقاربة. نواة المطابقة الهرمية يقوم ببناء المدرج التكراري متعدد الدقة عن طريق تسجيل نقاط المعلومات في نطاقات متدرجة و متزايدة في الحجم. لذلك فإن النقاط التي لا يتم مطابقتها في الدقة العالية ، فهناك إحتمالية ليتم مطابقتها في الدقة الأقل. و لقد تم تطبيق هذا الخوارزم علي مجموعات متعددة من الصور مثل ETH-80 database و Caltech 101 database ، و أظهر نتائج مبشرة.

القيود و آخر التطورات[عدل]

أحد عيوب نموذج حقيبة الكلمات هو أنه يتجاهل العلاقات المكانية للرقعات و الملامح، هذه العلاقات تعد من أهم العناصر في تمثيل الصور. و قد عرض الباحثون العديد من الطرق للتغلب علي هذه المشكلة و محاولة تسجيل العلاقات المكانية للملامح.
بالإضافة إلي ذلك ، فإن نموذج حقيبة الكلمات لم يتم إختباره بطريقة قوية و مركزه في حالة اختلاف حجم الملامح و مقياس رسمها، و مازال إلي الآن أداءه غير واضح. و أيضاً يضاف إلي ذلك أن هذا المجال -نموذج حقيبة الكلمات- يفتقد إلي الدراسة المتعمقة فيه.

شاهد أيضاً[عدل]

وصلات خارجية[عدل]