个性化推荐的可解释性研究
上QQ阅读APP看书,第一时间看更新

2.4 文本情感分析

随着电子商务、社交网站、在线论坛等Web2.0平台的兴起和发展,互联网上积累了大量的评论、文章、帖子等用户文本信息,用以表达用户对产品和事件等对象丰富的观点和情感,文本情感分析也随之得到了重要的关注[196][197]。情感分析在很多互联网应用中扮演着重要的角色,例如情感检索[198]、口碑分析[199]以及基于情感的文档摘要[200][201]等。

情感分析的核心任务之一是分析用户在文章、句子或者特定的产品属性上所表达的情感倾向性(sentiment orientation),它们分别对应于三个粒度上的情感分析,分别为篇章级(review/document-level)情感分析[202],句子级(sentence-level)情感分析[203][204],以及短语级(phrase-level)情感分析[205–210]

篇章级情感分析的核心任务是对一篇文章或一条评论进行情感分类,一般包括正面、负面和中性等[196]。情感分类作为处理网络文本内容的重要技术之一,得到了学术界的广泛关注和研究,其中包括有监督学习方法[202][211–215]、无监督学习方法[201][216–220]和半监督学习方法[221–224]等。

短语级情感分析试图在更为细粒度的产品属性或特征水平上了解用户的情感倾向[201]。短语级情感分析的核心任务之一是情感词典(sentiment lexicon)的构建[206][209][210][225][226],其中的每一条记录是一个“属性词-观点词-情感极性”三元组,例如在手机领域的评论中类似的三元组可以是“屏幕-清晰-正面”或者“噪声-大-负面”等。短语级情感分析利用特定领域的大规模用户评论语料抽取产品属性词和用户情感词并构建“属性-情感”词对,进一步采用机器学习等方法对词对进行情感极性标注,从而构建情感词典。高质量情感词典的构建是很多重要网络应用的基础,例如个性化推荐[193][227][228]和自动文档摘要[201][225]等。

虽然一些常见的情感词如“好”“不错”“不好”等在与不同的属性词匹配时经常表达确定的情感,但是有很多其他观点词的极性具有上下文相关性,即当它们和不同的属性词匹配时,会表达不同的情感极性,例如同样是情感词“高”,当和“质量”进行匹配时,表达的是一个正面的情感,而当和“噪声”匹配时,表达的却是负面的情感,这表明情感词典的构建是上下文相关的[205],这为“属性-观点”词对情感极性的标注带来了挑战。在情感极性标注方面,研究人员设计和使用了各式各样的假设、启发式规则和优化算法。例如一个常见的基本假设为,一条评论整体的情感极性是其内部各个“属性-观点”词对情感极性的综合[209][210]。一些工作采用了基于语言学的启发式规则[209][229][230],一个常见的规则是“紧密相连的两个情感词往往具有相同的极性”,例如在“声音清晰洪亮”中,“清晰”和“洪亮”被认为具备相同的极性,因为用户一个通顺的语言表达中几乎不可能将两个极性相反的观点词并列使用;类似的,另外一个规则是“被‘但是’连接的两个情感词具有相反的极性”等[231]