4.2.1 词级别语义特征
词级别(Word Level)以词作为基本语义特征。词是语言中最小的且可以独立运用的有意义的语言单位,即使在不考虑上下文的情况下,词仍然可以表达一定的语义。以词作为基本语义特征,在文本分类、信息检索系统中工作良好,词也是实际应用中最常见的基本语义特征。
英文中以词为基本语义特征的优点之一是易于实现,利用空格与标点符号即可将连续文本切分为词。如果进一步简化,忽略词之间逻辑语义关系以及词与词之间的顺序,这时文本被映射为一个词袋(Bag of Words)。词袋模型中只有词及其出现的次数被保留下来。图4-1为一个词袋转换示例。
图4-1 词袋转换示例
以词为基本语义特征时会受到一词多义与多词同义的影响。前者指同一单词可用于描述不同对象,后者指同一事物存在多种描述形式。虽然一词多义与多词同义现象在通常的文本信息中并非罕见,且难以在词特征索引级别有效解决,但是这种现象对分类的不良影响却较小。例如,英文中常见的book、bank等词汇存在一词多义现象。在网络内容安全中判断一个文本是否含有不良信息时却并不易受其影响。对使用词作为基本语义特征有较好的分类效果,Whorf进行过分析,认为在语言的进化过程中,词作为语言的基础单位朝着能优化反映表达内容、主题的方向发展,因此词有力地表示了分类问题的先验分布。
英文以词为特征项时,需要考虑复数、词性、词格、时态等词形变化问题。这些变化形式在一般情况下对于文本分类没有贡献,有效识别其原始形式合并为统一特征项,有利于降低特征数量,并避免单个词表达为多种形式带来的干扰。
词特征可进行计算的因素有很多,最常用的有词频、词性等。
1.词频
文本中的中频词往往具有代表性,高频词区分能力较小,而低频词或极少出现的词也常常可以作为关键特征词。所以,词频是特征抽取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。
2.词性
中文中能标识文本特性的往往是文本中的实词,如名词、动词、形容词等。而文本中的一些虚词,如感叹词、介词、连词等,对于标识文本的类别特性没有贡献,也就是对确定文本类别没有意义的词。如果把这些对文本分类没有意义的虚词作为文本特征词,将会带来很大噪音,从而直接降低文本分类的效率和准确率。因此,在抽取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词。而在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以可以只抽取文本中的名词和动词作为文本的一级特征词。
3.文档、词语长度
一般情况下,词的长度越短,其语义越泛。一般来说,中文中词长较长的词往往反映比较具体、下位的概念,而短的词常常表示相对抽象、上位的概念。一般说来,短词具有较高的频率和更多的含义,是面向功能的;而长词的频率较低,是面向内容的。增加长词的权重,有利于词汇进行分割,从而更准确地反映出特征词在文章中的重要程度。词语长度通常不被研究者重视。但是在实际应用中发现,关键词通常是一些专业学术组合词汇,长度较一般词长。考虑候选词的长度,会突出长词的作用。长度项也可以使用对数函数来平滑词汇间长度的剧烈差异。通常来说,长词含义更明确,更能反映文本主题,适合作为关键词,因此对包含在长词中低于一定过滤阈值的短词进行了过滤。所谓过滤阈值,就是指进行过滤短词的后处理时,短词的权重和长词的权重的比的最大值。如果低于过滤阈值,则过滤短词,否则保留短词。
4.词语直径
词语直径(Diameter)是指词语在文本中首次出现的位置和末次出现的位置之间的距离。词语直径是根据实践提出的一种统计特征。根据经验,如果某个词在文本开头处提到,结尾又提到,那么它对该文本来说,是个很重要的词。不过统计结果显示,关键词的直径分布出现了两极分化的趋势,在文本中仅仅出现了1次的关键词占全部关键词的14.184%。所以,词语直径是比较粗糙的度量特征。
5.首次出现位置
Frank在Kea算法中使用候选词首次出现位置(First Location)作为Bayes概率计算的一个主要特征,称之为距离(Distance)。简单的统计可以发现,关键词一般在文章中较早出现,因此出现位置靠前的候选词应该加大权重。实验数据表明,首次出现位置和词语直径两个特征只选择一个使用就可以了。由于文献数据加工问题导致中国学术期刊全文数据库的全文数据不仅包含文章本身,还包含了作者、作者机构以及引文信息,针对这个特点,使用首次出现位置这个特征,可以尽可能减少全文数据的附加信息造成的不良影响。
6.词语分布偏差
词语分布偏差(Deviation)所考虑的是词语在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词。