A Survey on Optical Character Recognition System 光学字符识别系统综述

2023-05-16

论文题目：
2017-A Survey on Optical Character Recognition System

摘要

光学字符识别（OCR）是近年来研究的热点。它被定义为将文档图像数字化为其组成字符的过程。尽管经过几十年的深入研究，开发与人类能力相当的OCR仍然是一个开放的挑战。由于这种挑战性，工业界和学术界的研究者将目光投向了光学字符识别。在过去的几年里，从事字符识别研究的学术实验室和公司数量急剧增加。本研究旨在总结OCR领域迄今为止的研究成果。概述了OCR的各个方面，并讨论了解决OCR问题的相应建议。

关键字：字符识别，文档图像分析，OCR, OCR调查，分类

1.介绍

光学字符识别（OCR）是一种将打印文本和图像转换成数字化形式以便机器操作的软件，它不同于人脑，人脑能够非常容易地从图像中识别文本/字符，机器没有足够的智能来感知图像中的信息。因此，大量的研究工作被提出，试图将文档图像转换成机器可以理解的格式。

2. 文献综述

字符识别不是一个新问题，但它的根源可以追溯到计算机发明之前的系统。最早的OCR系统不是计算机，而是能够识别字符的机械装置，但速度很慢，精度很低。1951年，M.Sheppard发明了一种阅读机器人GISMO，它被认为是现代OCR的最早研究成果[1]。GISMO可以一个接一个地阅读印刷页上的音乐符号和单词。但是，它只能识别23个字符。这台机器还可以复制打字的页面。1954年，J.Rainbow发明了一种机器，每分钟可以读取一个大写的打字（typewritten）英文字符。早期的OCR系统由于错误和识别速度慢而受到批评。因此，60、70年代对这一课题的研究并不多，只有政府机构和银行、报纸、航空公司等大公司的研究。
由于与识别相关的复杂性，人们认为应该有标准化的OCR字体来减轻OCR识别的任务。因此，OCRA和OCRB在1970年由ANSI和EMCA开发，提供了相对可接受的识别率[2]。
近三十年来，国内外对OCR进行了大量的研究。这导致了文档图像分析（DIA）、多语言、手写和omni字体OCRs的出现[2]。尽管进行了这些广泛的研究工作，但机器可靠阅读文本的能力仍然远远低于人类。因此，目前的OCR研究是为了提高在无约束环境下打印/书写的不同风格文档的OCR的准确性和速度。目前还没有任何开源或商业软件可用于乌尔都语或信德语等复杂语言。
近三十年来，国内外对OCR进行了大量的研究。这导致了文档图像分析（DIA）、多语言、手写和全字体OCRs的出现[2]。尽管进行了这些广泛的研究工作，但机器可靠阅读文本的能力仍然远远低于人类。因此，目前的OCR研究是为了提高在无约束环境下打印/书写的不同风格文档的OCR的准确性和速度。目前还没有任何开源或商业软件可用于乌尔都语或信德语等复杂语言。

3.光学字符识别(OCR)系统的类型

近年来，对OCR的研究有很多方向，本节讨论了这些研究所产生的不同类型的OCR系统。我们可以根据图像采集模式、字符连接性、字体限制等对这些系统进行分类。Fig. 1对字符识别系统进行分类。
在这里插入图片描述
根据输入的类型，OCR系统可以分为手写体识别和机器印刷体识别。后者是相对简单的问题，因为字符通常具有统一的尺寸，并且可以预测字符在页面上的位置[3]。
手写体字符识别是一项非常困难的工作，因为用户的书写风格不同，而且同一个字符的笔迹运动也不同。这些系统可分为两个子类，即在线和离线系统。前者在用户编写字符时实时执行。它们不那么复杂，因为它们可以捕捉基于时间或即时的信息，即速度（speed）、速度（velocity）、笔画（ strokes）的数量、笔画的书写方向等。此外，由于笔的轨迹只有几个像素宽，因此不需要细化技术。离线识别系统对静态数据进行操作，即输入为位图。因此，很难进行识别。
已经有许多在线系统可供使用，因为它们更容易开发，具有良好的准确性，并可用于平板电脑和PDAs的输入[4]。
OCR能够实现大量有用的应用，早期OCR已经被用于邮件分拣、银行支票阅读和签名验证[5]，此外，OCR还可以被组织用于在大量数据以打印形式存在的地方进行自动表单处理。OCR的其他用途包括处理公用事业账单、护照验证、笔计算和自动车牌识别等[6]。OCR的另一个有用的应用是帮助盲人和视力受损的人阅读文本[7]。

4.OCR的主要阶段

OCR过程是一个由不同阶段组成的复合活动。这些阶段如下：
图像采集:从扫描仪或照相机等外部来源获取图像。

预处理：图像采集完成后，可以进行不同的预处理步骤，以提高图像质量。在不同的预处理技术中，有去噪、阈值化和提取图像基线等。

字符分割：在这一步中，将图像中的字符分离出来，以便将它们传递给识别引擎。其中最简单的技术是连接组件分析和投影轮廓可以使用。然而，在复杂的情况下，字符重叠/断开或图像中存在一些噪声。在这些情况下，采用了先进的字符分割技术。

特征提取：对分割后的字符进行特征提取。基于这些特征，字符被识别出来。可以从图像中提取的不同类型的特征是矩等。所提取的特征应该是有效计算的，最小化类内变化并最大化类间变化。

字符分类：这一步将分割图像的特征映射到不同的类别（categories）或类别（classes）。有不同类型的字符分类技术。结构分类技术是基于从图像结构中提取的特征，利用不同的决策规则对字符进行分类。统计模式分类方法是基于概率模型等统计方法对字符进行分类。

后处理：分类后，结果不是100%正确，特别是对于复杂的语言。可以采用后处理技术来提高OCR系统的精度。这些技术利用自然语言处理、几何和语言上下文来纠正OCR结果中的错误。例如，后处理器可以使用拼写检查器和字典、概率模型（如马尔可夫链和n-连字符串）来提高准确性。后处理器的时间和空间复杂度不应该很高，并且后处理器的应用不应该产生新的错误。

a.图像采集

图像采集是OCR的初始步骤，它包括获取数字图像并将其转换成易于计算机处理的适当形式，这包括图像的量化和压缩[8]。量化的一个特殊情况是二值化，它只涉及两级图像。在大多数情况下，二值图像足以描述图像的特征，压缩本身可以是有损的或损失较小的。文献[9]概述了各种图像压缩技术。

b.预处理

除了图像采集之外，还有旨在提高图像质量的预处理。预处理技术之一是阈值化，目的是基于某个阈值对图像进行二值化[9]。阈值可以在本地或全局级别设置。
可以应用不同类型的滤波器，如均值、最小和最大滤波器。或者，可以执行不同的形态学操作，例如腐蚀（erosion）、膨胀（dilation）、开和闭。
预处理的一个重要部分是找出文档中的倾斜。不同的倾斜估计方法包括：投影轮廓法、Hough变换法、最近邻法。
在某些情况下，图像的细化也在应用后期阶段之前执行[10]。最后，文档中的文本行也可以作为预处理阶段的一部分找到。这可以基于像素的投影或聚类来完成。

c.字符分割

在这一步中，图像在进入分类阶段之前被分割成字符。分割可以作为分类阶段的副产品显式或隐式地执行[11]。此外，OCR的其他阶段可以帮助提供有助于图像分割的上下文信息。

d.特征提取

在这一阶段中，提取字符的各种特征，这些特征唯一地识别字符。如何选择合适的特征以及所使用的特征总数是一个重要的研究问题。可以使用不同类型的特征，例如图像本身、几何特征（循环、笔划）和统计特征（矩）。最后，可以使用主成分分析等各种技术来降低图像的维数。

e.分类

它被定义为将一个字符分类为其适当类别的过程。分类的结构方法是基于图像成分中存在的关系。统计方法是基于使用判别函数对图像进行分类。统计分类方法有贝叶斯分类法、决策树分类法、神经网络分类法、最近邻分类法等[12]。最后，还有一些基于句法方法的分类器，它们采用语法方法从图像的子成分合成图像。

f.后处理

一旦对字符进行了分类，就可以使用各种方法来提高OCR结果的准确性。其中一种方法是使用多个分类器对图像进行分类。该分类器可用于级联（串联 cascading）、并行或层次（hierarchical）结构。然后可以使用各种方法组合分类器的结果。
为了改进OCR结果，还可以执行上下文分析。图像的几何和文档上下文有助于减少错误的可能性。基于马尔可夫模型和字典的词法处理也有助于提高OCR〔12〕的结果。
在这里插入图片描述

4.结论

本文综述了OCR的各种技术。OCR不是一个原子（ atomic）过程，它包括采集、预处理、分割、特征提取、分类和后处理等各个阶段。本文详细讨论了每一个步骤。结合这些技术，可以开发出一个高效的OCR系统。OCR系统还可以用于不同的实际应用，如车牌识别、智能图书馆和其他各种实时应用。
尽管在OCR方面进行了大量的研究，但对于阿拉伯语、信德语和乌尔都语等语言的字符识别仍然是一个开放的挑战。对这些语言的OCR技术的概述已经作为一项未来的工作进行了规划。另一个重要的研究领域是多语种字符识别系统。最后，OCR系统在实际应用中的应用仍然是一个活跃的研究领域。

参考文献：
[4] Qadri, M.T., & Asif, M, 2009, Automatic Number Plate Recognition System for Vehicle Identification Using Optical Character Recognition presented at International Conference on Education Technology  and Computer, Singapore, 2009. Singapore: IEEE.
[6] Bhavani, S., & Thanushkodi, K, 2010, A Survey On Coding Algorithms In Medical Image Compression. International Journal on Computer Science and Engineering, 2(5), 1429-1434.
[9] Lund, W.B., Kennard, D.J., & Ringger, E.K. (2013).Combining Multiple Thresholding Binarization Values to Improve OCR Output presented in Document Recognition and Retrieval XX Conference 2013, California, USA, 2013. USA:SPIE
[10] Shaikh, N.A., & Shaikh, Z.A, 2005, A generalized thinning algorithm for cursive and non-cursive language scripts presented in 9th International Multitopic Conference IEEE INMIC, Pakistan, 2005.Pakistan: IEEE
[11] Shaikh, N.A., Shaikh, Z.A., & Ali, G, 2008,Segmentation of Arabic text into characters for recognition presented in International Multi Topic Conference, IMTIC, Jamshoro, Pakistan, 2008.Pakistan: Springer.
[12] Ciresan, D.C., Meier, U., Gambardella, L.M., &Schmidhuber, J, 2011, Convolutional neural network committees for handwritten character classification presented in International Conference on Document Analysis and Recognition, Beijing, China, 2011.USA: IEEE.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)