推荐序一
短文本理解是伴随着搜索引擎、社交网络及聊天机器人等应用场景而兴起的一个研究课题。它是近些年的一个研究热点,且对未来人工智能的发展有重要的影响。由于短文本字词少、歧义大、不遵守语法规则等特点,传统自然语言处理技术如句法分析器等难以直接应用于短文本。因此,研究人员不得不另辟蹊径来解决机器理解短文本的问题。
从2009年起,我在微软亚洲研究院领导一个小组从事短文本的研究工作。2010年7月,本书作者王仲远加入微软亚洲研究院并参与这方面的研究。我们及组里其他同事共同开发了一个Web规模的知识库系统Probase,尝试解决知识尤其是常识的获取、表示及应用问题。我们认为“概念”对于理解短文本的语义至关重要,正如纽约大学著名心理学教授Gregory L. Murphy在其代表性著作 《The Big Book of Concepts》中提到“Concepts are the glue that holds our mental world together”(概念是我们思想的粘合剂)。通过Probase,我们尝试着将一些心理学研究的课题可计算化,并取得了很大的成果。2011年,仲远开始在中国人民大学攻读在职博士生,我很荣幸又成为他的博士生导师。之后,仲远在围绕Probase的工程项目、学术研究中不断突飞猛进,取得了一个又一个成果。
2013年,我离开微软,仲远接手了Probase项目。他不断深化基于Probase所构建的短文本理解概念化模型,并获得了国际著名学术会议ICDE 2015最佳论文奖。在2016年的国际自然语言处理学术会议ACL上,仲远和我共同作了一个报告“Understanding Short Texts”。我们将短文本理解的方法简要分为隐性模型和显性模型两大类。隐性模型主要是基于词向量和深度神经网络的模型,其主要缺点是模型为一个“黑盒子”,结果常常难以具体化解释。而另一方面,显性模型主要依赖于知识库系统或语义网络,其可解释性强于隐性模型,但知识的获取及表示是一大挑战。尤其是知识质量与覆盖率,更是会直接影响显性模型的最终效果。
我非常高兴地看到仲远将这些年的研究成果整理成书。这本书对短文本概念化问题进行了详细的介绍,既有单实体概念化模型,也有短文本概念化模型,并介绍了概念化模型的一些典型应用。全书结构合理,系统性强,并且本书许多章节都包含了大量实例与插图,便于读者理解背后的技术模型,也使得本书有很强的实用性和阅读性。
希望本书能为知识图谱、自然语言处理、信息检索、人工智能等相关领域研究人员和开发人员提供重要参考。我愿全力推荐本书给广大读者。
Haixun Wang
Facebook Research Scientist & Engineering Manager
2016年9月26日于美国Palo Alto