1.6.3 文字审查_数字出版实用教程（第二版）-QQ阅读男生科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.6.3 文字审查

（1）窗口比对逐行逐字自动审查

系统采用多核心识别技术，对画框后图像文件进行识别。生产系统对多核心识别后的结果进行语义分析检查，根据上下文关联及词组组成进一步筛选识别结果，使得错误定位更加明确。最后将所有有问题的可疑字进行局部截取，截取后利用校对软件校对时，操作员看不到整页图书，只能看到页面的局部，有效地保证数据安全。在文字审查校对软件界面中，会有两个窗口同时打开，使文本与原书扫描图像同时显示在计算机屏幕上。文字校对窗口中，中间文件对照画框识别窗口中的文字，通过光标逐行、逐字进行自动审查，可以实现文本与原书图像逐行对应，操作员可以逐行对照原书图像校对文本内容，使得数据更加精密准确，文字内容差错率可以控制在三万分之一以内。文字审查校对程序界面如图1-10所示。

图1-10 审查软件自动进行逐行逐字光标跟踪检查

（2）查错时的人工修正

专用改字检查程序对上道工序进行二次质量检查，针对一些易混的相似字及特殊符号，形成自主研发的易错字符集和符号集，通过程序对易出现识别错误的相似字或特殊符号进行处理，可以轻松校正，以保证数据准确性。文字内容差错率控制在万分之一至万分之三以内。

如图1-11中，黄色底纹标出的图形文档信息与OCR识别产生的中间文件进行比对，当发现OCR识别有误时，系统会提示。这时需要采用人工方式进行修改，系统显示“园”字识别错误为“国”，用黑色块光标提示。

图1-11 审查软件自动识别错误需人工修改