序一
《知识图谱:认知智能理论与实战》一书深入浅出地介绍了知识图谱的知识,并且指出“知识图谱是人工智能发展的阶梯”。人工智能的目的在于处理知识,有知识图谱这种形式化的知识表示方式作为阶梯,人工智能当然会取得蒸蒸日上的进步。我同意王文广的这个观点。
早在1956年于美国的达特茅斯学院召开的达特茅斯会议上,学者们就提出了“人工智能”的设想,此后人工智能迅速地发展起来。自然语言处理是人工智能的重要研究领域,在自然语言处理的研究中,学者们开始构建自动推理模型对问题进行求解,提出了语义网络、框架、脚本等一系列知识描述的理论和方法。
Sowa等人在1983年提出了“概念网络”,对知识进行描述。根据符号主义的原则,学者们将实体之间的关系局限于“拥有、导致、属于”等特殊的基本关系,并定义了一些在图谱上推理的规则,希望通过逻辑推理的方式实现人工智能。
在这些知识描述理论和方法的基础上,领域专家开始使用人工的方式编写实例数据,建立知识库,这些研究在一些受限的领域获得成功。学者们开始关注知识资源的研究。
互联网出现之后,人们在与自然和社会的交互中创造了大规模的数据,人类社会进入了大数据时代,这些大数据以文字、图片、音频、视频等不同的模态存在。怎样让计算机自动识别、阅读、分析、理解这些庞杂而海量的大数据,从中挖掘出有价值的信息,为用户提供精准的信息服务,成为下一代信息服务的核心目标之一。
2001年,Tim Berners Lee提出了语义网的概念,定义了一种描述客观世界的概念化规范,通过一套统一的元数据,对互联网的内容进行详细的语义标注,从而给互联网赋予语义,把网页互联的万维网(WWW)转化为内容互联的语义网。在语义网思想的影响下,亿万网民协同构建了“维基百科”(Wikipedia),促进了知识资源的迅速增长,使知识类型、覆盖范围和数据规模都达到了空前的水平。
1972年的文献中就出现了“知识图谱”(Knowledge Graph)这个术语。2012年5月,谷歌公司明确提出了知识图谱的概念并构建了一个大规模的知识图谱,开启了知识图谱研究之先河。从此,知识图谱便在自然语言处理的研究中普及开来,成为自然语言处理研究的一个重要内容。
知识图谱用节点(Vertex)表示语义符号,用边(Edge)表示符号与符号之间的语义关系,因而构成了一种通用的语义知识形式化描述框架。在计算机中,节点和边等符号都可以通过“符号具化”(Symbol Grounding)的方式表征物理世界和认知世界中的对象,并作为不同个体对认知世界中信息和知识进行描述和交换的桥梁。知识图谱使用统一形式的知识描述框架,便于知识的分享和学习,因而受到了自然语言处理研究者的普遍欢迎。
自谷歌构建知识图谱,并在2012年发布了包含507亿个实体的大规模知识图谱以来,不少互联网公司很快跟进,纷纷构建各自的知识图谱。例如,微软建立了Probase,百度建立了“知心”,搜狗建立了“知立方”。金融、医疗、司法、教育、出版等各个行业也纷纷建立起各自垂直领域的知识图谱,大幅提高了这些行业的智能化水平。Amazon、eBay、IBM、LinkedIn、Uber等公司相继发布了开发知识图谱的公告。与此同时,学术界也开始研究构建知识图谱的理论和方法,越来越多的关于知识图谱主题的书籍和论文被出版和发表,其中包括新技术及有关知识图谱的调查。知识图谱得到了产业界和学术界的广泛认可和关注。
知识图谱技术的发展有着深厚的历史渊源,它源于对人工智能中自然语言的语义知识表示的研究,并经历了互联网信息服务不断深化需求的洗礼,现在已经发展成为互联网知识服务的核心工具。
以语义网络(Semantic Network)为代表的知识表示的相关理论研究,对互联网智能化信息处理的应用实践,以维基百科为代表的网络协同构建知识资源的创举,这些因素共同推动了知识图谱的进一步发展。
目前,大规模的知识图谱有DBpedia、YAGO、Freebase、Wikidata、NELL、Knowledge Vault等,它们用丰富的语义表示能力和灵活的结构来描述认知世界和物理世界中的信息和知识,是知识的有效载体。
《知识图谱:认知智能理论与实战》一书系统全面地介绍了知识图谱的核心技术,既有宏观整体的技术体系介绍,也深入关键技术和算法细节;既适合作为高等学校人工智能课程的参考资料,也可以作为产业界系统开发的指南。
冯志伟
中国中文信息学会会士
中国计算机学会 NLPCC杰出贡献奖获得者
2022年2月10日