2.2 实际应用
文本语义表示方法已广泛应用于自然语言处理的各项任务中,成为基于神经网络模型的基础模块。本节对自然语言处理领域中不同的任务应用的文本语义表示方法,进行简要介绍。
在情感分析任务方面,语义特征表示需要区分词代表的情感类别,例如喜欢和讨厌分别代表正向和负向的情感。早前的分布表示方式通常利用上下文信息学习词的语义特征,由于具有不同的情感极性的词可能具有相似的上下文,因此具有相似的表示。为缓解这一问题,研究人员针对情感分析任务提出在向量空间中表示词的情感特征。Wu等人提出对用户和产品信息利用注意力机制学习产品评论的向量化表示,用于支持评论的情感分类任务。Tang等人针对推特(Twitter)的情感分类任务设计了增强词情感特征的词向量方法,在短文本的情感分类任务中效果良好。Shi 等人针对词的情感特征和领域特征,考虑了在不同的领域中词的情感倾向不同,设计了面向不同领域的文本的情感特征表示方法。这些方法从情感分析的实际任务出发,设计语义表示模型,将情感特征融入到向量空间中,更好地支持了下游任务。
在句子、文档表示任务方面,由于大部分的文本语义表示方法是对词语的语义特征进行表示的,在此基础上如何对句子、文档等长文本信息进行语义表示也是近年来的研究热点问题之一。通常,一段文本的语义由其各组成部分的语义以及它们之间的组合方法所确定。Liu 等人提出基于主题信息的词向量方法,从语料中刻画目标词与主题的关系,在向量空间中考虑词在文档中的主题信息,更好地支持文本分类等任务。常用的句子表示方法对上下文中的词不做区分,仅仅通过拼接、求和、求均值等方法表示上下文信息。但是上下文中不同词的信息并不是等价的,这种统一压缩的方式会丢失上下文中的信息。Wang等人引入注意力模型,通过在训练过程中加入区域的移动、缩放机制从而更好地保存上下文信息,提升句子语义表示的质量。预训练语言模型可以更好地对长句子之间的关联信息进行刻画,学习更好的句子、文档的语义表示。例如BERT 模型中引入了下一句预测任务,可以刻画句子之间的联系。Reimers 等人在基于BERT模型的基础上,利用一个三元的网络结构学习句子的语义特征,使得预训练语言模型中可以更好地使用余弦相似度计算句子之间的语义关系。
在多语言任务方面,按照语系划分,不同语言之间在形态学、句法学、语义学和语用学等方面存在巨大的差异,例如英文句子结构多为从句,中文多为分句。近年来结合语种特点的语义表示方法的研究不断深入,研究人员发现结合语种的特点改进模型有利于提升词向量的语义表达能力。以中文词向量构造方法研究为例,Zheng等人研究利用组成词的每个字的语义知识,Sun等人考虑中文文字的部首信息。Faruqui 等人提出将两种语言的语义表示空间转换到一个向量空间中,并且能够在新空间中保持各自空间的词之间的联系。这种方法在词相似性任务评测上效果比基于单语言语料的词向量更好。Hill等人通过实验说明利用多语言语料获得的语义特征除了能很好地表示语义和句法信息外,在刻画概念的相似度方面效果更为明显。基于多语言语料的词向量构造方法,利用任务本身的数据和资源提升词向量的质量,可以更好地支持机器翻译等任务。另外,在预训练语言模型方面,研究人员开发了多种多语言的预训练语言模型。例如谷歌人工智能研究团队开发了 Multilingual-BERT 模型,Facebook研究团队开发了跨语言的预训练语言模型,Chi等人开发了跨语言预训练生成模型等,为多语言的自然语言处理任务提供了高质量的语义特征表示。
在跨领域任务方面,由于词在不同的领域中可能有不同的语义特征,对同一个词在不同领域中使用相同的语义表示会损伤任务效果。利用领域适应的方法刻画不同领域的语义分布成为目前的研究热点之一。Bollegala等人提出非监督的跨领域的词向量表示方法,首先选取不同领域中语义特征不变的词作为中枢词,然后利用中枢词预测源域、目标域的非中枢词,并且对齐源域、目标域中中枢词的表示,实现源域、目标域的跨领域表示学习。Bollegala等人研究情感分类任务,针对不同领域学习不同的语义向量表示。Yang 等人提出从大规模语料中学习语义知识,并基于迁移学习首先学习资源丰富的源域的向量表示,再在目标域进行上下文预测的过程中对中枢词进行对齐。基于语义知识迁移学习的方法,可以更好地刻画不同领域的语义特点,将高质量的可迁移的语义知识融合到语义向量空间中。在跨语言、跨领域的实际任务中的效果明显优于单一领域的语义表示方法。
在信息检索任务方面,文本语义表示方法可以辅助语义计算,进而提升信息检索任务。例如在查询词扩展任务中,在对查询词进行检索时,通过选择与查询词相关的词对查询词进行扩展,可以更好地表示用户的查询目的。由于大部分的语义表示方法主要依靠上下文信息学习语义特征,仅刻画词之间的相似度,与信息检索领域需要刻画词之间的相关度的目标不相符。为了解决这一问题,研究人员针对如何在向量空间强调词间的相关关系进行了深入的研究。例如Zamani 等人针对信息检索任务提出基于相关度的词向量方法,学习每个词与查询词的相关性分布。Diaz等人提出获取每个查询词的局部训练语料,用于训练基于局部信息的词向量,可以更好地支持查询词检索任务。
在机器阅读理解方面,语义表示学习需要对问题和文本进行特征表示,帮助阅读理解模型深入理解问题和文本的关系,返回问题的答案。作为自然语言理解领域的核心任务之一,机器阅读理解任务的效果严重依赖文本语义表示。早期,机器阅读理解任务利用分布表示方法对问题和文本进行特征表示。例如Hermann等人提出利用注意力模型学习文本和问题之间的相关信息,根据相关度提取答案。Xiong等人提出用动态协调网络回答问题。目前,机器阅读理解任务主要依赖预训练语言模型。为进一步提升机器阅读理解的任务效果,Yang等人提出将知识库中的知识融入到预训练语义模型中,提升问题-文本的语义表示效果。Wang等人提出在应用预训练语言模型时同时显式地利用常识知识。Hu等人在利用预训练语言模型表示问题-文本预测答案的基础上,提出利用一个判别器验证候选答案是否符合问题的需求,帮助阅读器提升答案预测的准确率。Nie等人提出利用预训练语言模型训练段落级和句子级的选择器,过滤掉与问题不相关的句子,并将剩余的句子拼接起来预测答案。
总结来说,面向自然语言处理任务的文本语义表示方法,一方面研究如何利用常识、背景知识等信息提升文本的表示效果,另一方面研究如何根据实际任务设计和利用文本语义表示方法。高质量的语义表示方法可以直接提升下游自然语言处理任务的效果。