9.2 理论基础
9.2.1 图像预处理
为了加快图像识别等模块的处理速度,我们需要将彩色图像转换为灰度图像,减少图像矩阵占用的内存空间。由彩色图像转换为灰度图像的过程叫作灰度化处理,灰度图像就是只有亮度信息而没有颜色信息的图像,且存储灰度图像只需要一个数据矩阵,矩阵中的每个元素都表示对应位置像素的灰度值。
通过拍摄、扫描等方式采集印刷体图像可能会受局部区域模糊、对比度偏低等因素的影响,而图像增强可应用于对图像对比度的调整,可突出图像的重要细节,改善视觉质量。因此,采用图像灰度变换等方法可有效地增强图像对比度,提高图像中字符的清晰度,突出不同区域的差异性。对比度增强是典型的空域图像增强算法,这种处理只是逐点修改原印刷体图像中每个像素的灰度值,不会改变图像中各像素的位置,在输入像素与输出像素之间是一对一的映射关系。
二值图像是指在图像数值矩阵中只保留0、1数值来代表黑、白两种颜色。在实际的印刷体图像处理实验中,选择合适的阈值是进行图像二值变换的关键步骤,二值化能分割字符与背景,突出字符目标。对于印刷体图像而言,其二值变换的输出必须具备良好的保形性,不会改变有用的形状信息,也不会产生额外的孔洞等噪声。其中,二值化的阈值选取有很多方法,主要分为三类:全局阈值法、局部阈值法和动态阈值法,本案例结合印刷体字符图像的特点,采用全局阈值进行二值化处理。
印刷体图像可能在扫描或者传输过程中受到噪声干扰,为了提高识别模块的准确率,我们通常采用平滑滤波的方法进行去噪,如中值滤波、均值滤波。在本案例中,我们通过对字符图像的特征分析,采用二值化图像的形态学变换滤波进行去噪处理,保留有用的字符区域图像,消除杂点、标点符号等干扰。
在经扫描得到的印刷体图像中,不同位置的字符类型或大小可能也存在较大差异,为了提高字符识别效率,需要将字符统一大小来得到标准的字符图像,这就是字符的标准化过程。为了将原来各不相同的字符统一大小来,我们可以在实验过程中先统一高度,然后根据原始字符的宽高比例来调整字符的宽度,得到标准字符。
此外,对输入的印刷体字符图像可能需要进行倾斜校正,使得同属一行的字符也都处于同一水平位置,这样既有利于字符的分割,也可以提高字符识别的准确率。倾斜校正主要根据图像左右两边的黑色像素做积分投影所得到的平均高度进行,字符组成的图像的左右两边的字符像素高度一般处于水平位置附近,如果两边的字符像素经积分投影得到的平均位置有较大差异,则说明图像存在倾斜,需要进行校正。
9.2.2 图像识别技术
字符识别是印刷字符图像识别的核心步骤,主要包括以下内容:首先,识别模块学习、存储将要判别的字符特征,将这些特征汇总成识别系统的先验知识;然后,选择合适的判别准则来基于先验知识对输入的字符进行研判;最后,存储字符的识别结果并输出。在实验过程中,字符的特征具有不同的来源,如空间域的点阵位置信息,在频域空间、小波空间等领域也都有各自的特征,而且不同的特征在识别字符时具有各自的特点及优势。根据字符识别模块所选择特征类型的不同,可以将其分为不同的识别技术。在一般情况下,根据所采用的技术策略,字符识别可以分为:统计特征字符识别技术、结构特征字符识别技术和基于机器学习的识别技术。
1.统计特征字符识别技术
统计特征识别技术一般选择同类字符所共有的相对稳定且具有良好分类性的统计特征作为特征向量。统计特征常用的有字符所处二维空间的位置特征、字符所处水平或者垂直方向的投影直方图特征、字符区域矩特征、字符纹理特征或经过频域等变换后的特征。统计特征字体识别技术通过对大量字符的统计特征进行提取、学习、训练形成字符先验知识,构成字符库的模板信息,并将其存储到识别模块。待识别图像在输入后首先提取相同的统计特征向量,然后与在识别模块中存储的字符先验知识根据指定的匹配程度算法进行比较,最后根据比较结果确定字符的最终类别,实现识别的目的。其中,匹配程度算法通常采用向量间的距离计算,如欧式距离、绝对值距离、汉明距离等,为了便于后续的模式判别,可以将这些距离作为输入进行归一化,进而得到归一化的匹配程度。在实际应用中,基于字符像素点平面分布的识别算法是最常用的匹配方法之一,具有简捷高效、易于实现的优点。该算法首先将字符图像归一化为标准的维数大小,然后根据像素点的位置进行扫描匹配,最后计算模板和图像的某种距离值。但是,算法要对每个像素点都进行扫描、匹配,可能会造成算法实现计算量大,且对噪声、字符畸变等因素较为敏感,因此对待识别图像的质量要求较高。
2.结构特征字符识别技术
在现实生活中,人们往往更关心相近字符识别和手写体字符识别等功能,一般具有字体不同、场景多变的特点,因此结构特征字符识别技术应运而生。该技术以字符结构特征作为处理对象,可根据识别策略的不同选择不同的结构,具有灵活多变的优点。在实际应用中,可以选择字根、笔画、细微笔段等特征,这些特征一般被称作字符的子模式、组件、基元,将所有基元按照某种顺序排列、存储就形成了字符的结构特征。因此,基于结构的字符识别实际上是将字符在基元组成的结构空间中进行映射,然后进行识别。其中,识别过程一般是在基元组成的结构空间上利用建模语言和自动机理论,采取语法分析、图匹配、树匹配和知识推理等方法分析字符结构的过程。该技术常用的结构特征有:笔画走向、孤立点、闭合笔画等,如果被应用于汉字识别,则可结合汉字自身明显的结构性,利用汉字的结构特点进行识别,也可以达到较好的效果。传统的识别方法一般对输入的图像采取统一分辨率变换处理,其分辨率的大小取决于算法的复杂度和资源存储条件,往往会造成系统资源的浪费和识别效率的降低。
3.基于机器学习的识别技术
人类对文字的识别能力远远胜过计算机,以常见的验证码为例,无论是对字符进行变形、模糊,还是损坏部分区域,人类都能很好地识别。基于机器学习的字符识别技术力图通过对人脑学习和识别的模拟来实现对字符的高效识别。经过近几年的迅速发展,机器学习在字符识别方面得到了广泛应用。特别是在OCR系统中,机器学习已经得到了更充分的应用。通过将字符的特征向量作为输入,机器学习模块输出的是字符的分类结果,即识别结果。在实际应用中,如果只是进行字符图像处理和识别流程,则得到的特征向量可能包含某些冗余甚至矛盾的信息,往往需要进一步优化和处理。机器学习模块经过反复训练,可以智能地优化特征向量,去除冗余、矛盾的信息,突出类之间的差异。同时,借助机器学习成熟的架构模式及运行结构,可以应用并行计算到运行过程中,所以可以加快大规模问题的求解速度。