تعرف ضوئي على المحارف

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث

التعرف الضوئي على المحارف (بالإنجليزية: Optical character recognition) أو اختصارا OCR هي نوع من البرمجيات الحاسوبية لتحويل صور النصوص المكتوبة باليد أو بآلة (يحصل عليها عادة باستخدام الماسحة) إلى نصوص يستطيع الحاسوب معالجتها.


Scanner text.jpg

التعرف الضوئي على الحروف '، يختصر عادة إلى التعرف الضوئي على الحروف ، هو آلى أو تحويل الصورة الممسوحة الالكترونية من صيغة مكتوبة بخط اليد،أو مطبوعة على الآلة الكاتبة أو نص مطبوع إلى نص مرمز تفهمه الآلة وتدعى آلة ترميز النصوص . ويستخدم على نطاق واسع باعتباره شكلا من أشكال إدخال البيانات من نوع ما من ورقة البيانات المصدر الأصلي ، سواء وثائق، أوايصالات مبيعات، والبريد، أو أي عدد من السجلات المطبوعة. لإنه من الأهمية بمكان أن حوسبة النصوص المطبوعة تكون مطلبا حتى يمكن أن يكون البحث عنها أوتخزينها إلكترونيا بحيث تصبح قابلة للإنضغاط أكثر ليتيسر عرضها على الإنترنت ، وتستخدم في عمليات آلية مثل الترجمة الآلية ، تحويل النص إلى كلام و الغوص في النصوص. التعرف الضوئي على الحروف هو مجال البحث في التعرف على النماذج، الذكاء الاصطناعي و جهاز الرؤية عن طريق الحاسوب.

هناك حاجة لإصدارات في وقت مبكر حتى يتسنى أن تبرمج الصور تبعا لكل حرف ، وتعمل على خط واحد في وقت واحد. النظام "الذكي" مع وجود درجة عالية من دقة التعرف على معظم الخطوط أصبحت شائعة الآن. بعض الأنظمة الآن قادرة على إنتاج حروف تمت تهيئتها formatted output و هى تقترب كثيرا من الشكل الأصلي بما في ذلك الصور الممسوحة ضوئيا، والأعمدة وغيرها من العناصر غير النصية.

.

التاريخ[عدل]

ويمكن أن يعزى التعرف الضوئي على الحروف في وقت مبكر للنشاط حول مسألتين: توسيع الإبراق وخلق أجهزة القراءة للمكفوفين.[1] في عام 1914 ايمانويل جولدبرغ صنع آلة لقراءة الأحرف وتحويلها إلى رموز التلغراف القياسية. [بحاجة لمصدر] في نفس الوقت تقريبا ، إدموند فورنييه ديفوار d'Albe طور Optophone ، ماسح ضوئي محمول حيث يتم تحريكه عبر الصفحة المطبوعة ، فيقوم بإنتاج نغمات التي تتوافق مع أشكال محددة أو حروفا.

واصل جولدبرغ تطوير تكنولوجيا التعرف الضوئي على الحروف لإدخال البيانات. و فيمابعد اقترح تصوير سجلات البيانات ومن ثم ، وذلك باستخدام الخلايا الضوئية، مطابقة الصور ضد قالب يحتوي على نمط محدد وهو النمط المطلوب . في عام 1929 غوستاف تاوشك Tauschek كان لديه أفكار مماثلة، وحصل على براءة اختراع في التعرف الضوئي على الحروف في ألمانيا. بول جورج هاندل أيضا حصل على براءة أميريكية في قالب تكنولوجيا مطابقة التعرف الضوئي على الحروف في الولايات المتحدة الأمريكية في عام 1933 (قالب:US Patent).في عام 1935 حصل أيضا Tauschek على براءة اختراع في الولايات المتحدة على طريقته (قالب:US Patent).

وفى عام 1949 فإن مهندسوRCA عملوا على التعرف الضوئي على الحروف بنوع بدائى أولى بمساعدة الكمبيوتر لمساعدة المكفوفين ولإدارة شؤون المحاربين القدامى في الولايات المتحدة، ولكن بدلا من تحويل الأحرف المطبوعة إلى لغة الآلة، تم تحويلها من جهاز إلى جهاز اللغة المتكلمة ومن ثم الحروف: في وقت مبكر دفعا إلى تكنولوجيا النص إلى كلام .حيث ثبت حتى الآن أنها مكلفة للغاية، ولم يكن السعي إلى الإسستمرار فيها بعد اختبارها.[2]

و في عام 1950 ديفيد شيبرد وهو cryptanalyst في وكالة الأمن بالقوات المسلحة في الولايات المتحدة ، معالجة مشكلة تحويل الرسائل المطبوعة إلى لغة الآلة لل تجهيز الكمبيوتر، وبناء جهاز للقيام بذلك، ودعيت جزمو Gismo ."[3]. حصل على براءة اختراع لتطويره "جهاز القراءة" في عام 1953قالب:US Patent. “ جزمو يمكنه "قراءة 23 حرفا من الحروف الأبجدية الإنجليزية, ويقوم بترجمة إشارات مورس, ويقرأ الرموز الموسيقية , ويقرأ بصوت مسموع من صفحات مطبوعة و يقوم بتكرارا صفحات مطبوعة. شيبرد ذهب إلى العثور على مؤسسة البحوث للآلات الذكية (IMR)، والتي سرعان ما وضعت أول أنظمة تجارية للتعرف الضوئي على الحروف في العالم .

وكان في عام 1955، قد تم تركيب أول نظام تجاري في مجلة ريدرز دايجست ، والتي تستخدم التعرف الضوئي على الحروف لإرسال تقارير المبيعات إلى جهاز الكمبيوتر. حيث قامت بتحويل التقارير المطبوعة إلى بطاقات المثقبة لإدخالها في الكمبيوتر في قسم الاشتراكات في المجلة، للمساعدة في تجهيز شحنات من 15-20 مليون كتاب في السنة

.[4] تم بيع النظام الثاني إلى شركة ستاندرد أويل لقراءة بصمات بطاقات الائتمان لأغراض الفوترة. وشملت غيرها من النظم التي تبيعها IMR خلال أواخر 1950 قارئ كعوب الفواتير مشروع القانون إلى شركة أوهايو بيل للتليفونات وماسح ضوئي للصفحات إلى للقوات الجوية للولايات المتحدة لقراءة وإرسال الرسائل المبرقة بواسطة الآلة الكاتبة. واجيزت IBM و آخرون في وقت لاحق للحصول على براءات الاختراع شيبرد للتعرف الضوئي على الحروف. في حوالي 1965 ، تعاونت مجلة ريدرز دايجست مع RCA لبناء قارىء تعرف ضوئى للحروف ، مصمم إلى رقمنة الأرقام التسلسلية وتقييم النتائج والكفاءات على كوبونات مجلة ريدرز دايجست العائدة من الإعلانات . وطبعت الخطوط المستخدمة في وثائق بواسطة طابعة الطبل RCA باستخدام OCR-Aالخط. وربط القارىء مباشرة إلى كمبيوتر آر سى أ 301 وهو واحد من أجهزة الكمبيوتر الحالة الصلبة 1).وأعقب هذا توصيله من قبل قارئ وثائق متخصص ركب إلى TWA حيث القارئ يعالج مخزون تذاكر شركة طيران. القارىء يعالج الوثائق بمعدل 1500 وثيقة في الدقيقة, ويفحص كل وثيقة , ويرفض تلك التى لاتقبل المعالجة بطريقة صحيحة وأصبح هذا المنتج جزءا من خط إنتاج RCA كقارئ مصمم لمعالجة "الوثائق الدوارة" مثل تلك التي تشمل فواتير المياه والكهرباء والتأمين وعائدات المدفوعات.

برمجيات التعرف الضوئى على الحروف[عدل]

برامج التعرف الضوئي على الحروف لسطح المكتب والخوادم

برامج التعرف الضوئي على الحروف و برمجيات ICR التكنولوجيا هى أنظمة الذكاء الاصطناعي للتحليلات التى تنظر في تسلسل الحروف بدلا من الكلمات أو العبارات كلها. استنادا إلى تحليلات للخطوط والمنحنيات المتتابعة، للتعرف الضوئي على الحروف حيث OCR و ICR تفعل أفضل التخمينات على الحروف باستخدام قاعدة بيانات للمتابعة عن كثب لربط الجداول أو تتطابق مع سلاسل الحروف التي تكون الكلمات.

WebOCR & OnlineOCR التعرف الضوئي على الحروف على شبكة الإنترنت

التقنيات[عدل]

قبل التجهيز[عدل]

برمجيات التعرف الضوئي على الحروف في كثير من الأحيان هى صور "عمليات ما قبل" لتحسين تقنيات فرص تعرف ناجحة.وتشمل ما يلي: [5]

  • دي تحرف  – متباعدة إذا لم يتم محاذاة المستند ليكون متوائما بشكل صحيح عند فحصهه، قد تحتاج إلى أن تميل بضع درجات في اتجاه عقارب الساعة أو عكس اتجاه عقارب الساعة من أجل جعل أسطر من النص أفقية تماما أو عمودية.
  • Despeckle – remove positive and negative spots, smoothing edges[6]
  • Binarization – Convert an image from color or greyscale to black-and-white (called a "binary image" because there are two colors). In some cases, this is necessary for the character recognition algorithm; in other cases, the algorithm performs better on the original image and so this step is skipped.[7]
  • Line removal – Cleans up non-glyph boxes and lines
  • Layout analysis or "zoning" – Identifies columns, paragraphs, captions, etc. as distinct blocks. Especially important in multi-column layouts and tables.
  • Line and word detection – Establishes baseline for word and character shapes, separates words if necessary.
  • Character isolation or "segmentation" – For per-character OCR, multiple characters that are connected due to image artifacts must be separated; single characters that are broken into multiple pieces due to artifacts must be connected.
  • Normalize aspect ratio and scale[8]

Segmentation of fixed-pitch fonts is accomplished relatively simply by aligning the image to a uniform grid based on where vertical grid lines will least often intersect black areas. For proportional fonts, more sophisticated techniques are needed because whitespace between letters can sometimes be greater than that between words, and vertical lines can intersect more than one character.[9]

Character recognition[عدل]

There are two basic types of core OCR algorithm, which may produce a ranked list of candidate characters.[10]

Matrix matching involves comparing an image to a stored glyph on a pixel-by-pixel basis; it is also known as "pattern matching" or "pattern recognition".[7] This relies on the input glyph being correctly isolated from the rest of the image, and on the stored glyph being in a similar font and at the same scale. This technique works best with typewritten text and does not work well when new fonts are encountered. This is the technique the early physical photocell-based OCR implemented, rather directly.

Feature extraction decomposes glyphs into "features" like lines, closed loops, line direction, and line intersections. These are compared with an abstract vector-like representation of a character, which might reduce to one or more glyph prototypes. General techniques of feature detection in computer vision are applicable to this type of OCR, which is commonly seen in "intelligent" handwriting recognition and indeed most modern OCR software.[6] Nearest neighbour classifiers such as the k-nearest neighbors algorithm are used to compare image features with stored glyph features and choose the nearest match.[11]

Software such as Cuneiform and Tesseract use a two-pass approach to character recognition. The second pass is known as "adaptive recognition" and uses the letter shapes recognized with high confidence on the first pass to better recognize the remaining letters on the second pass. This is advantageous for unusual fonts or low-quality scans where the font is distorted (e.g. blurred or faded).[9]

Post-processing[عدل]

OCR accuracy can be increased if the output is constrained by a lexicon – a list of words that are allowed to occur in a document.[5] This might be, for example, all the words in the English language, or a more technical lexicon for a specific field. This technique can be problematic if the document contains words not in the lexicon, like proper nouns. Tesseract uses its dictionary to influence the character segmentation step, for improved accuracy.[9]

The output stream may be a plain text stream or file of characters, but more sophisticated OCR systems can preserve the original layout of the page and produce, for example, an annotated PDF that includes both the original image of the page and a searchable textual representation.

"Near-neighbor analysis" can make use of co-occurrence frequencies to correct errors, by noting that certain words are often seen together.[7] For example, "Washington, D.C." is generally far more common in English than "Washington DOC".

Knowledge of the grammar of the language being scanned can also help determine if a word is likely to be a verb or a noun, for example, allowing greater accuracy.

Application-specific optimizations[عدل]

In recent years,[when?] the major OCR technology providers began to tweak OCR systems to better deal with specific types of input. Beyond an application-specific lexicon, better performance can be had by taking into account business rules, standard expression,قالب:Huh or rich information contained in color images. This strategy is called "Application-Oriented OCR" or "Customized OCR", and has been applied to OCR of license plates, business cards, invoices, screenshots, ID cards, driver licenses, and automobile manufacturing.

أنظر أيضا[عدل]

Lists

References[عدل]

  1. ^ Herbert Schantz, The History of OCR. Manchester Center, VT: Recognition Technologies Users Association, 1982.
  2. ^ "Reading Machine Speaks Out Loud" , February 1949, Popular Science.
  3. ^ Washington Daily News, April 27, 1951; New York Times, December 26, 1953
  4. ^ Schantz, The History of OCR.
  5. ^ أ ب "Optical Character Recognition (OCR) – How it works". Nicomsoft.com. اطلع عليه بتاريخ 2013-06-16. 
  6. ^ أ ب "How OCR Software Works". OCRWizard. اطلع عليه بتاريخ 2013-06-16. 
  7. ^ أ ب ت "How does OCR document scanning work?". Explain that Stuff. 2012-01-30. اطلع عليه بتاريخ 2013-06-16. 
  8. ^ "Basic OCR in OpenCV | Damiles". Blog.damiles.com. اطلع عليه بتاريخ 2013-06-16. 
  9. ^ أ ب ت Ray Smith (2007). "An Overview of the Tesseract OCR Engine". اطلع عليه بتاريخ 2013-05-23. 
  10. ^ "OCR Introduction". Dataid.com. اطلع عليه بتاريخ 2013-06-16. 
  11. ^ "The basic patter recognition and classification with openCV | Damiles". Blog.damiles.com. اطلع عليه بتاريخ 2013-06-16. 

وصلات خارجية[عدل]

Computer.svg هذه بذرة مقالة عن الحاسوب أو العاملين في هذا المجال بحاجة للتوسيع. شارك في تحريرها.