1.3 分类新词语分析
1.3.1 词语抽取的准确率与排错处理
根据上面的方法,我们在上文建立的超大规模分类语料库中抽取出其中已标注的关键词和超链接的词语,总共229237个词条,按网页的主题属性存储进词表,形成15个大类的领域词表(按照层级小类形成244个领域词表,示例参见表3。限于篇幅,分析时止于大类)。
由于是专家人工标引,网页关键词抽取的词语质量很高,我们抽样检查了经济类抽取的关键词。在17058个词语中,词次大于或等于4的词语,由于是多次出现,避免了笔误或超常词语(如“虐人”、“卡特里娜飓风袭击美国”)等偶尔出现的出错情况,百分之百正确。词次小于4特别是词次为1的词语,有一些是上面提到的笔误和超常词语,但比例很小,在4079个词语中总共发现了11个,大多是形如“卡特里娜飓风袭击美国”这样标题性的小句,词次都小于等于2。因此,对从关键词中抽取的所有类的词语,我们只对词次小于等于2的词语进行了排错,结果表明错误率等于0.25%。
从超链接中抽取的词语不多,这只是对关键词抽取的补充。经过检查发现,并不完全是词或短语,有的是标题性的小句,如“圆明园湖底防渗工程引争议”。这些小句都是特定时期大众比较关注的话题,词次不高,词长较长。经济类的抽样检查表明,基本上是词次小于等于8次,词长大于等于7。因此,对超链接中抽取的词语,我们采取如下方法查错:用通用切词底表和排错后的关键词中抽取的词语进行过滤,余下小量从超链接中抽取的词语(6724个词条);对这些词语中词次小于等于8次、词长大于等于7的词语(3483个词条)进行人工排错。结果表明错误率等于33.56%。
总体上,关键词抽取的词语的准确率为99.94%,超链接中抽取的词语的准确率为94.43%。
表1-1是从科技、经济、游戏、汽车、体育、生活男女、教育7类语料中抽取到的词语举例。
表1-1 7类语料中抽取到的词语(按频次从高到低排列前30位)
(续上表)