词语计算与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 抽取词语的新词率

通常切词用的底表,一般约为8万个词条,本章以教育部语用所建立的词表作为对比词表(下称“8万词表”),此表共84213个词条。新抽取到的词语除掉8万词表中的词语,我们将之称为新词语(显然,对比词表不同,新词语也不同)。新词语共175187个词条,新词率为76.42%(175187/229237),具体分布在不同类别中。

下面以科技类为例进行说明。

从科技类共抽取到21458个词语,按照词语出现的次数倒序排列。表1列举的30个词语中,除了“中国”,其他完全是科技领域的主题词语,全是命名实体。其出现次数的排名也反映了科技领域中信息分布和用户关注点的真实情况。

去掉8万词表中的词语,新词语共16812个,科技类中倒序前30位的词语分别是“IBM、英特尔、MP3、3G、IT、AMD、小灵通、惠普、Windows、显卡、非典、Linux、网络游戏、CPU、戴尔、DVD、TCL、网通、Intel、PC、CDMA、Google、掌上电脑、Photoshop、中国电信、华为、P4、垃圾邮件、数字电视、仁科”,全部是命名实体,而且带字母的词语明显增多,共16个。

表1-2是15个类别语料抽取到的词语数、新词语数及新词率。“词语数”是指从某一类别的所有网页中抽取到的词语数量,“新词语数”是指抽取到的未出现在8万词表中的词语数量,这些是新词语,新词率是指“新词语数”除以“词语数”的商。

表1-2 15个类别语料抽取到的词语数、新词语数及新词率

由于含有大量的游戏名、公司名和游戏中的人物、装备、地名等,游戏类新词率最高。例如,在195篇“游戏__迷你游戏__敏捷类”层级小类的网页中,仅游戏名称就抽取到298个,其中60个游戏名称见表1-3。

表1-3 “游戏__迷你游戏__敏捷类”的游戏名称

经济、科技、房产和汽车类由于行业发展较快,新事物或新概念层出不穷,产品名、公司名等更新快,新词率也较高。“时政__社会”等主要与日常生活密切相关,不太容易出现新事物或新概念,因此新词率较低。