上QQ阅读APP看书,第一时间看更新
思考
1.使用给定的语料库,分别计算并比较二元组(N=2)、三元组(N=3)和四元组(N=4)出现的概率。观察不同的N对模型结果的影响,并分析原因。
2.在词袋模型中,所有词的重要性是相同的。然而,在实际文本中,一些词(如停用词)可能出现频率高,但并不重要,而一些词出现频率低,但可能非常重要。请你自主学习TF-IDF(词频-逆文档频率)[4]表示,并用这种表示方式解决这个问题。
[4] TF-IDF是由两部分组成的:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。词频表示词条在文本中出现的频率。逆文档频率是一个用于减轻高频词(如英语中的“the”“is”,中文中的“的”“了”等)权重的因子。