4.1 文本特征的抽取概述
文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。
目前,通常采用向量空间模型(请参考4.2节)来描述文本向量。但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将非常大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前,有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:
1)特征项要能够确实标识文本内容。
2)特征项具有将目标文本与其他文本相区分的能力。
3)特征项的个数不能太多。
4)特征项的分离要比较容易实现。
在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。
特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。
特征抽取的方式有四种:
1)用映射或变换的方法把原始特征变换为较少的新特征。
2)从原始特征中挑选出一些最具代表性的特征。
3)根据专家知识挑选最有影响的特征。
4)用数学的方法进行抽取,找出最具分类信息的特征。这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
随着网络知识组织、人工智能等学科的发展,文本特征抽取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。