面向社交媒体的观点分析技术研究
上QQ阅读APP看书,第一时间看更新

2.2 相关研究介绍

经过上一节的分析可知,评价目标(主题)和观点极性是用户评论中用户要表达的两个主要信息。既然评价目标就是要讨论的主题,用户发表的又是对主题的观点,那么一项方案就是采用概率混合模型同时对评价目标和观点极性联合建模。很多研究工作都在LDA(Latent Dirichlet Allocation)模型的基础上提出各种变体来处理联合建模问题。[68][104-108]由于方法变体众多,Moghaddam等人对相关的研究工作进行了梳理分析,并根据相关特性对这些方法进行了归类。其依据的特性包括以下几方面:

•用一个潜在变量建模词(短语)/分别用不同的变量建模评价目标短语和评价星级。

•采用语料中所有的词/只对观点表达短语采样。

•对目标词与评价星级间的依存关系建模/不考虑依存关系。

•仅使用待分析的评论文本训练/额外使用其他辅助数据训练。

由于前两项特性属于内在特性,后两项为外部知识和外部数据的取舍,需要人工干预,因此根据后两项特性划分标准,WSTM属于不考虑依存关系且不使用附加输入数据这类方法。

根据此划分,与WSTM模型同类的相关方法主要有以下几个代表性的工作:

(1)JST(Joint Sentiment-Topic Model)。此模型是基于LDA的三层级结构,也就是在文档层与主题层之间加入一个附加的情感层。[69]在此四层结构中,情感极性与文档相关,主题与情感极性相关,而词同时与情感极性和主题相关。

(2)ASUM(Aspect and Sentiment Unification Model)。此模型由Jo等人[66]提出,和JST一样由四层结构组成。与JST模型不同之处在于,ASUM模型认为同一个句子中的词都用于描述同一个话题,JST则允许各个词来自不同的话题。在WSTM模型当中,保留ASUM中部分假设,即约束来自同一个句子的词对具有相同的观点极性,而只要求一个词对中的两个词来描述同一个主题。

(3)STDP(Senti-Topic model with Decomposed Prior)。Li等人[109]提出此模型,他们将观点极性的生成过程分解为两个层级。第一层先检测一个词是属于情感词还是主题词,如果是情感词,则在第二层中识别词的极性标签。在本书的模型当中,本书认为极性标签是由情感词和主题词共同决定的。STDP需要人工构造先验知识来检测一个词是情感词还是主题词,且这样生成的先验规则并不一定适合所有领域和不同语言(如中文与英语)。本书试图最小化人工参与的监督训练行为,因此WSTM模型除了使用一个公共可用的情感词典外,不再使用任何规则。

上面提到的三个模型主要针对足够长的传统媒体文本,如电影评论、餐馆评论等(具体评测数据统计信息请查阅三个模型对应的文献)。在不考虑短文本稀疏问题的情况下,一个模型学习过程中没有足够数量的词统计信息发现词之间的主题相关性。这个问题会进一步影响情感极性的识别。为了克服建模单文档生成过程中遇到的文本稀疏问题,本书采用类似BTM模型[103]中的方法,即对整个语料级别的词对生成过程建模。不同之处在于,本书的混合模型联合检测情感与主题,BTM仅考虑主题信息。

最近的一些其他主题建模工作[12][84-86][101][110-115]也考虑到了短文本中的词稀疏问题。其中,一种方法是通过聚集短小的twitter文本形成长的伪文档,然后采用标准LDA进行主题分析,有效地发现主题文献。[84][85]Zhao等人[101]提出twitter-LDA模型,在标准LDA模型中加入了用户层,不同的用户所关心的主题分布不同,同时通过一个隐藏变量区分了背景词与主题词。Tang等人[111]将不同类型的上下文(如时间、用户、hashtag)看作语料的不同视点,提出一个协同正则化框架来结合多个视点共同分析文本讨论的主题。Mehrotra等人[112]和Wang等人[113]则利用用户提供的hashtag作为半监督的信息,前者对tweeter进行池化(pooling)时利用hashtag信息,后者提出基于hashtag图来建立词之间的语义关系。Lin等人提出双向稀疏主题模型来处理文本中主题稀疏的问题,主要用于发现文本中重要的主题和词汇。Quan等人[115]通过主题推断的方式来集合文本,其模型分为两个阶段,第一阶段从常规主题模型进行主题推断,第二阶段从伪文档中生成文本片断用来对应实际的短篇文本。然而,这些工作都只是建模文本中的主题信息,并不考虑情感信息,且大部分方法都是应用于其他任务和领域。Lim等人[86]同时对主题和情感建模,但其文本聚集的方法依赖twitter文本中的hashtag,无法应用于评论文本分析。