1.6.2 画框识别
用光学字符识别方法对图像文档进行处理,是对扫描图进行代码化的工序。这一步称为OCR(Optical Character Recognition,光学字符识别)。
(1)OCR识别即电子代码化
OCR识别是对经过扫描、修图的图像文档进行分析,将图像文档翻译成计算机文字,获取内容信息及版面信息,OCR识别过程即电子代码化过程。通过OCR识别,图像文档中的文字图形将继续保存;图像文档中有表格的,则将表格信息一律变成计算机文字。因此,如何避免和消除代码化过程中的错误,或者说如何利用辅助信息提高图像文档的识别正确率,是OCR系统最重要的课题。在OCR识别界面,图像文档翻译成计算机文字显示的内容如图1-6所示。
图1-6 OCR将图像文档进行转换示例
(2)文字图片的代码化
文字图片代码化的具体做法是,将经过修图的图像文档置入专用OCR软件中,进行画框识别。将横排文本、竖排文本、表格、插图、页码分开画框,框线不得压字、压图。在画框完成后对整个工作包进行检查,确保没有画框错误及漏画等现象。
画框识别一般分为两个步骤,一是对内容信息的代码化,二是中间软件程序自动跟踪标注位置信息。对内容信息进行画框识别时,文字信息的属性会自动用红色框边显示;图像信息的属性则自动显示为绿色。同时,识别时产生的中间程序会自动切图,进行位置信息的识别标注。
画框识别中,按页产生的文档尽管有一个记录位置信息的中间文件,但仍然包含在一个完整的文件中。也就是说,本道工序入口时是TIF图像文档,出口时是TIF+中间文件。经过画框标记的文档,内容信息被分别用红色、绿色框标注;位置信息包括页码也同时标注出来并加以编号,如图1-7所示。
图1-7 画框标识的代码化文档
(3)复杂公式表格的代码化
一些比较先进的OCR系统,能够自动对带有复杂公式、表格的图像文档进行画框识别,多窗口展开进行比对。画框识别中展开的图像文档窗口,文字和公式信息被逐一作为图像标注;展开的代码化识别窗口中,文字信息和位置信息被逐一识别标注。更进一步,OCR系统能够同时展开三个窗口自动进行操作,即展开原图像文档窗口、代码化过程窗口及识别结果窗口,如果识别结果与原图像文档有差异,则需要人工进行修正。复杂数字公式的画框识别示例如图1-8所示;复杂数字公式的代码化过程窗口展示如图1-9所示。
图1-8 对复杂数学公式的画框识别
图1-9 复杂数学公式的识别窗口展示
(4)代码化识别的优点
OCR识别后的图像文档中,内容信息和位置信息能够自动拆分保存。经过OCR转换的文档有以下优点:①点阵图像的技术特性是用正方形的小点来描述图像,所以在描述曲线及一些角度的直线时就会产生锯齿,经过OCR识别后,文字成为矢量图,能够有效避免锯齿状;②能减少图像文档的储存量;③识别出的文字可再使用及分析;④因无须键盘输入,可节省信息输入的人力与时间。