1.3 短文本理解框架
针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图1-6所示。
图1-6 基于概念化的短文本理解研究框架
在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络。知识库包含概念、实体、属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出。其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建。
在概念化层,本书首先介绍利用语义网络构建单实体概念化模型。提出一种基于典型性和点互信息(PMI)的基本层次概念化(Basic-level Conceptualization, BLC)方法,将单实体映射到一组最能刻画这个实体各种特征的概念上,并附着于概率值,以支持短文本概念化。基于概念化的短文本理解的目标是把短文本(如搜索引擎中的查询关键字)所包含的实体映射到语义网络中的概念上。其中需要解决的核心问题是利用短文本中有限的上下文对词义进行消歧。利用动词、形容词、实体及其属性,首先从大量的网络语料中挖掘出它们的各种关系。再利用这些挖掘得到的知识,提出一个整体概念化模型,使用基于随机游走的迭代算法将查询中的词语概念化。
利用上述两个针对单实体以及短文本的模型,可以进一步解决基于概念化的短文本主题词与修饰词检测。在短文本理解中,主题词与修饰词的检测是一个非常重要的问题。然而在许多情况下,短文本(如搜索引擎中的查询关键字等)并不遵守语法规则。现有方法通常基于粗粒度、领域相关,以及需要大量训练数据。本书将介绍一种基于语义的短文本主题词与修饰词检测方法。此方法首先从搜索日志中获取大量实体级别的“主题词修饰词”对,然后通过概念化模型将这些实体对归纳至概念级别,最后通过这些精细且精确的带权重的概念模式来进行主题词与修饰词的检测。
此外,单实体概念化模型也能够帮助解决基于概念化的词相似度计算。计算两个词之间的相似度对很多文本分析理解相关的应用至关重要。目前,这一任务主要有两种解决方法:基于知识的方法和基于文集的方法。然而,这些方法主要应用在单词之间的语义相似度计算,无法扩展到多个单词组成的多词表达式或文本。针对此问题,本书将介绍一种基于语义网络的词相似度计算方法。该语义网络基于十亿级的网页文本创建,包含百万级的概念。本书首先阐述如何将两个词映射到概念空间,进而介绍一种概念聚类的方法以提高相似度度量的准确性。
在应用层,利用概念化层所构建的各个模型,可以有效应用在不同的任务中,如广告关键字匹配、搜索排序、查询推荐、短文本聚类、智能问答系统、Web表格理解等。本书选取搜索广告应用场景,展示了一种基于概念化的海量竞价关键字匹配技术。搜索广告是搜索引擎的主要收入来源。广告商以关键字对他们的广告竞价,而搜索引擎在竞价关键字基础上通过匹配用户查询进行相关广告推送。由于查询和竞价关键字都是短文本并且不能由标准的词袋(bag-of-words)方法建模,大部分现有方法是利用用户行为数据(例如点击数据、会话数据等)去填补在匹配竞价关键字与用户查询上的语义差距。然而这种方法却不能处理没有很多用户行为数据的长尾查询。尽管它特殊罕见,长尾查询整体上却占据相当大的查询量,并且是搜索引擎收入的一个重要来源。本书将介绍一种匹配查询和竞价关键字的新方法。利用概率分类和大型同现网络,把短文本概念化成一组相关概念。为了处理大量查询和海量关键字,创建概念的语义索引:通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。