5.4 文字识别
中文的文字识别过程与英文不同。汉字是表意文字,有二维图形特征,与大部分的拼音文字有很大区别。汉字的识别受到几个因素的影响:字频(某个字出现的频率)、笔画、组成部分、字体、字号;还有其他因素,诸如汉字辨认中的笔画类型效应、框架结构效应、视角大小等。汉字的识别是一项专门的技术,这里不做详细介绍。不过,有两个概念易读性和可读性还是需要知道的。《视觉显示终端工作站的人机工程导则》(ANSI/HFS100-1988)指出:易读性主要受被试空间视觉能力的影响,提高明度和颜色对比、加大目标、增加目标内部的间隙有助于提高易读性;可读性是人在阅读理解的过程中识别字或一组字的能力。因此,可读性通常指连续性文本的可读性,测量指标为阅读速度、对写错的单字的识别。
英文文字是拼音文字,其识别过程需要单个字母的识别,比如对于“work”这个单词,先从字母的特征开始分析,从而识别字母;再从每个字母分析,从其组合中识别单个单词。中文字中所蕴含的信息量和英文单词不同,因此,一般来讲,中文字更加简洁。如果一篇文章同时使用英文和中文书写,那么中文篇幅要远远小于英文篇幅。而且,中文字的不同组成部分也在一定程度上提示了文字本身代表的内容,因此,即便是有些不认识的字,通过对文字组成部分的分析,也可以猜测出字的大致含义。而英文就很少有这种可能。
在日常生活中,单纯地阅读单个汉字、词和句子的现象比较少,大部分情况我们是以文本为单位进行阅读的,特别是当前随着智能手机、平板电脑等小型终端设备的兴起,文本阅读已不再受到时间、地点、阅读载体的限制。文本的特征及其易读性会大大影响用户的阅读效果及他们对移动设备的满意度[41]。当然,任何一种文字读者都可以根据上下文来猜测中间文字的含义以提高阅读速度。
汉字的识别还有一些英文不具备的特征;汉字字形中,横竖撇捺点折,横笔画的数量最多;遮住汉字字形的横笔画比遮住竖笔画更容易识读,这是因为,竖笔画是整个字形的主笔画,将主笔画删除,整个字形变得难于识读。如图5-4所示,a图去除了文字中的横笔画,b图去除了文字中的竖笔画,a图中的文字比b图中的文字更加容易识别。
图5-4 遮住汉字横竖笔画其识别难易程度不同
另外,遮住汉字上半部分比遮住汉字下半部分更难识读。这与汉字的字形结构有关,以“入”“八”两字为例,字形的特征部分居于上部,遮住特征部分,无法判断完整的字形是怎样的。这也与书写习惯有关,汉字大部分笔画都是从上往下书写的,笔画在书写过程中,大脑形成完整笔画的样子,即补充下半部分笔画的样子,对于会书写汉字的人来说,习惯于由上半部分笔画想象整个笔画的样子。如图5-5所示,a图去除了文字中的上半部分,b图去除了字中的下半部分,b图中的文字比a图中的文字更加容易识别。
图5-5 遮住汉字上半部分和下半部分其识别难易程度不同