1.3 研究内容
1.3.1 当前研究工作中存在的问题
1.无监督情感主题学习中的数据稀疏问题
微博自产生时其长度就被限制为短短的140个字,随着移动互联网终端的广泛使用,评论文本的长度也变得越来越短。[94]事实上,社交媒体中大部分观点文本都具有鲜明的观点和简洁的表达,特别是微博和用户评论。如图1.5所示,在评论R1中,27个字表达了用户对7个主题(评价目标)的观点。对于观点句子而言,最重要的两个信息是评价目标(在产品评论中称为aspect)和观点极性。观点极性通常由情感词来表达,而相同的情感表达短语在描述不同的评价目标时可能会表现出不同的极性。例如,图1.5中的两个句子中,当“小”用来修饰不同的评价目标“发热”和“内存”时,它的观点极性正好相反。基于评价目标与观点极性之间的相互关系,学者提出采用无监督主题模型(topic model)来联合建模评价目标与观点极性[66][69][95],但在处理社交媒体数据时,还需要面对主题情感联合建模中的文本稀疏问题。
图1.5 两条观点文本信息
2.评价目标短语分组中的上下文表示问题
针对评价目标短语分组问题,目前的方法主要以目标短语的上下文作为主要特征来表示目标短语,其思路是基于这样一个假设:表示同一个评价目标的不同目标短语应该拥有相似的共现上下文环境。这些方法对目标短语所出现的所有句子进行处理,将目标短语周围一个指定大小为t的窗口内的词语聚集到一起,形成其总体的上下文环境。这种表示方法面临两个问题:①一个固定大小的t值不能够适用于所有的句子,因为句子长度的不同,其语义表达的集中程度不一样。换句话说,一个小t值不能够获取足够的上下文词语,而一个大的t值又有可能获取到很多的噪音上下文词语。②这些方法采用词频的方式来对上下文进行加权,尽管词频方式是一种对聚类算法简单有效的特征加权方法,但对评价目标分组任务而言,在很多情况下可能无效。例如,句子“图像清楚明亮并且声音超好”有两个评价目标—图像和声音,清楚、明亮、超好作为两者的上下文,词频都是1,这种情况下加权方法失效,因此必须提供更好的方法来对目标词及其上下文间的交互修饰关系进行建模,以获取更加合理的特征权重信息。另外,传统的方法已经证明先验约束知识也可以提高分组的效果。然而,传统的方法利用词法形态关系和同义词信息生成约束信息,由于此类约束无监督学习到的不可靠的知识,传统方法允许在分组过程中违反部分约束。对于哪些约束可以违反,哪些约束需要遵守,并没有统一的限制方法,这在一定程度上影响了约束知识的利用率。
3.观点入摘要中的主题分布影响问题
抽取式摘要方法是主要的观点摘要手段之一,这种方法是从原始的文档中抽取出有代表性的句子来概述整个文本,而基于图的方法是抽取式摘要技术中最常用的手段,这种方法基于句子聚类分析来获得高质量的摘要。聚类时主要关注句子级别或者类簇级别的相似度,以及句子类簇的相互关系。对于一个面向用户查询(需求)的摘要系统而言,需要重点考虑两个方面的因素:①高的查询相关性;②高覆盖度和低重复率。高的查询相关性指摘要内容要尽可能符合用户查询需求。高覆盖度和低重复率指摘要文本要概述整个文档且尽量没有重复内容。目前的基于图方法的摘要系统存在两方面的局限:①它们聚类句子时基于简单的词共现相似度,由于缺乏更深层次的语义理解,此方法可能会将语义相似的两个句子划分到不同的主题簇;②经过图排序方法得到的分数排名靠前的句子有可能是那些具有很高主题相似度的句子,无法满足前面提到的低重复率要求。
4.情感相关的Twitter词嵌入学习方法中的词典资源与距离监督信息利用问题
有针对性地学习情感相关词嵌入能够提高观点分析的性能,目前的方法通常是利用距离监督信息,如表情符号和hashtag等来粗略地确定Twitter级别的观点极性,从而进一步训练相关学习算法。实际上,目前已经有很多经典的情感词典资源,这些词典收录了一般性的表达情感极性的词汇,在很多的观点分析方法中都用到了情感词典资源,并取得了很好的效果。因此,如何在情感相关词嵌入学习过程中利用词典资源提高学习效率是亟待研究的问题。此外,目前的情感相关词嵌入学习方法是基于传统的词嵌入学习模型,而传统模型是一个局部上下文模型,即利用的信息是局部的n-gram语言信息。然而,情感词嵌入学习方法利用的观点信息是全局的Twitter级别的距离监督信息,即假设整条Twitter都具有相同的观点极性,此假设太过严格,需要适当放松以适合真实的文本环境。
1.3.2 本书的研究内容
本书对面向社交媒体的观点分析技术进行分析,有针对性地分析了目前研究工作存在的问题。针对存在的问题,本书主要从评价目标抽取与分类、观点文本摘要和社交媒体观点分类三个子任务方向展开深入研究,具体内容包括以下几个方面:
(1)针对无监督的情感主题模型学习问题,本书提出了短文本情感主题模型用于观点主题发现和情感分类。对于普通的观点文本分析,情感主题联合建模方法已经取得较好性能。为了弥补其在短小的社交媒体文本分析中的不足,本书在文本的生成过程中考虑稀疏问题,先将整个待处理文本语料转换成一个词对(word-pair)集合,然后对这个集合的生成过程进行建模。在本书的生成模型中,一个句子中的所有词具有相同的情感极性,每一个词对具有相同的主题。基于此假设,采用Gibbs采样方法对整个模型进行推断来学习参数。实验表明,本书提出的方法能够有效地进行主题发现,与传统方法相比,在情感分类性能上也有较大的提升。
(2)针对评价目标短语分组中的上下文表示问题,本书提出了三种解决方案。第一种方案引入词嵌入表示方法计算上下文的相对权重,同时利用语义相似度衡量聚类约束知识的强度,并提出一种灵活约束的K-Means聚类算法对评价目标短语分组。第二种方案通过对评论文本的情感分布特性的分析,提出一个新的假设:每个评价目标所覆盖的句子数量受整个评论语料总量的限制,且具有一个上限值。本书通过统计的方法对上限值进行估算,并提出一种新的容量约束的K-Means算法建模整个聚类过程。第三种方案通过深度度量学习的方法进行目标分组。先采用基于注意力的(attention-based)方法来进行目标短语与上下文的组合表示,目的是更好地体现出目标词与上下文间的交互修饰关系,得到更合理的上下文权重表示。然后,基于距离监督信息生成目标短语对样本,并利用并行深度网络学习目标短语样本对之间的距离。最后,利用学习到的网络结构生成所有短语的向量表示,并采用K-Means算法做聚类完成分组。实验结果表明,本书提出的三种方案能够很好地利用各类约束信息和资源来提高目标分组的性能。
(3)针对观点文本摘要问题,本书提出了一种基于超图的顶点增强随机游走框架,用于对观点摘要中的候选句子排序打分。框架先利用HDP(Hierarchial Dirichlet Process)主题模型来学习句子中的词—主题概率分布,然后使用超图对基于词—主题分布的聚类关系和词语间的点对相似关系建模,最后采用时间变化的随机游走算法来确保句子的多样性与中心性的统一。在公共数据集上的实验结果证明了框架的有效性。
(4)针对情感增强的Twitter词嵌入学习问题,本书提出了多级别的混合神经网络模型来学习词嵌入表示。传统的学习方法主要是在学习过程中同时编码n-gram信息和距离监督信息。本书提出综合利用情感词典信息和距离监督信息来学习词嵌入,这样既可以考虑词本身的情感极性信息,也放松了传统方法中的Twitter全文情感一致的假设。本书的具体做法是同时考虑词级别的情感信息和Tweet级别的距离监督信息,采用并行非对称神经网络来建模n-gram、词级别情感标签和Tweet级别情感标签。在标准数据集上的实验结果证明,本书提出的方法性能优于已有的最新方法。