信息内容安全管理及应用
上QQ阅读APP看书,第一时间看更新

4.3.1 停用词过滤

停用词过滤(Stop Word Elimination)基于对自然语言的如下观察,即存在一些几乎在所有样本中都出现但是对分类没有贡献的特征项。例如,当以词作为特征项时英语中的冠词、介词、连词和代词等,这些词的作用在于连接其他表示实际内容的词以组成结构完整的语句。

停用词词表可以手工建立,也可以通过统计自动生成。英语领域有手工建立领域无关和面向具体领域的停用词词表,一般停用词表中含有数十个到数百个停用词。汉语的停用词表相比英语的要少一些。对于特征项抽取时采用亚词级别的n元模型情况,应当先进行停用词过滤,然后再对文本内容进行n元模型的构建。对于多词级别采用相邻词构成特征项的情况,也可先进行停用词去除。

除手工建立停用词词表,还可采用统计方法,统计某一个特征项t在训练样本中出现的频率(nt)或tf(t)),达到限定阈值后则认为该特征项在所有类别或大多数文本中频繁出现,对分类没有贡献能力,因此作为停用词而被去除。

针对具体应用还可以建立领域相关的停用词表,或者用于调整领域无关停用词表。例如,汉字“的”字,通常可以作为停用词,但在某些领域,有可能“的”字是某个专有名词的一部分,这时就需要将其从停用词表中去除,或调整停用策略。