1.1 知识图谱概述
知识图谱并不是一个全新的概念,最远可以追溯到人工智能发展初期,其伴随着人工智能的发展而发展。我们先从知识图谱的定义开始,在理解知识图谱定义的基础上,进一步通过知识图谱分类帮助读者认识不同领域的知识图谱。
1.1.1 知识定义及分类
根据哲学家柏拉图经典的知识定义,知识需要满足三个条件,即合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得与总结出来的所有事实、概念、规则或原则的集合,是人类进行智能活动的基础。
知识的界定没有一个统一的标准。知识是符合文明发展方向的,是人类对客观世界以及精神世界探索的结果总和。知识的价值判断标准在于实用性,以能否让人类创造新物质,得到力量和权力等为考量因素。
我们从不同的研究视角、研究目的及对知识的不同认识程度对知识进行分类,主要包括以下几种。
1)按照知识层次划分,可划分为零级知识、一级知识、二级知识和高层次知识。
零级知识:最基本层的知识,包括问题域内的事实、属性、定理、定义等,属于问题求解的常识性和原理性知识。
一级知识:第二层知识,启发式知识,可弥补零级知识的不足,提高求解效率。
二级知识:第三层知识,控制性知识,对低层知识起指导作用,组织、运用零级和一级知识。
高层次知识:如回忆、综合、概括、抽象等,也反映人的心理特征。
2)按照知识的性质划分,可分为叙述性知识、过程性知识、控制性知识。
叙述性知识:表示问题的状态、概念、条件、事实的知识。
过程性知识:表示问题求解过程中用到的各种操作、演算和行动等的知识。
控制性知识:表示问题求解过程中决定选用哪种操作、演算和行动等的知识。
3)按照知识来源划分,可分为共性知识和个性知识。
共性知识:指问题域内有关事物、属性、概念、定义、定理、原理、理论、算法等的知识,它们来自教科书和刊物,并已为领域专业人员所承认和接受。
个性知识:来自现场有经验的专业人员,包括大量的经验知识或启发式知识。它描述问题的轮廓,知识严格性差。
综上,不管从什么角度去划分知识,要想用机器对知识进行处理,必须以适当的形式对知识进行表示,而构建知识实体之间的结构化关系网络的知识图谱,有助于知识的发现、共享和传授。
1.1.2 知识图谱定义
知识图谱[1](Knowledge Graph, KG)以结构化的形式描述现实世界中的实体及其关系,将互联网信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
一般认为,知识图谱于2012年5月17日由谷歌正式提出并成功应用在搜索引擎中。因此,知识图谱通常被认为是一种可以提供智能搜索服务的大型知识库,且早期通常被用来泛指各种大规模的知识库,但是随着知识图谱技术的发展,其应用范围进一步扩大,除了知识库存储知识之外,还包括知识之间的关系。知识图谱是以图的方式来组织并描述现实世界实体及其关系,定义实体及其关系的属性,并允许实体之间任意相互连接。
在理解知识图谱之前,我们先简单介绍一下知识图谱的相关概念。
概念:是对现实世界中具有相同属性的事物的概括和抽象,比如国家、人、动物、职业、地点、笔等。
实体:是概念对应的现实世界中的具体事物,比如中国、张三、老虎、软件工程师、合肥、铅笔等。
关系:是用来表达不同实体之间的某种联系。不同实体之间通过关系相互连接,比如国与国之间的竞争关系、合作关系、敌对关系等,人与人之间的父子关系、夫妻关系、同学关系等。
属性:是指对实体或关系抽象方面的刻画,实体属性如一个人的年龄、身高、体重等,关系属性如夫妻关系的结婚时间、同学关系的就读学校等。
更进一步,知识图谱就是把现实世界中不同种类的事物连接在一起而得到的一个关系网络,提供了从关系的角度去分析问题的能力。图1-1所示为一个简单知识图谱概念与实体的示例。人、运动、场地是对现实世界中具有相同属性的事物的概括和抽象,而小李、小丁是概念“人”对应的具体事物节点,跑步、踢球是概念“运动”对应的具体事物节点,操场、球场是概念“场地”对应的具体事物节点。小李和小丁是同学,小李喜欢在操场上跑步,小丁喜欢在球场上踢球,则是实体之间的关系表示。
图1-1 简单知识图谱概念与实体示例
总之,如果两个节点之间存在关系,它们就会被一条有向边连接在一起。我们称节点为实体,称它们之间的边为关系,除此之外,我们还可以通过属性对实体或关系进行刻画,后文会进行详细解释。
从本质上讲,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。它的组织形式是有向图,其中图的节点表示概念或实体,图的边表示概念/实体之间的各种语义关系。
从实际应用上讲,知识图谱不仅给互联网语义搜索带来了活力,而且它的“实体-关系-实体”和“实体-属性-属性值”三元组结构在实体搜索、实体推荐、实体问答中显示出了强大威力,知识图谱已经成为互联网知识驱动的智能应用基础设施。知识图谱与大数据、深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一,成功应用于智能搜索、推荐系统、知识问答、推理决策等领域。
1.1.3 知识图谱分类
知识图谱的分类方式众多,一般按照知识领域、知识种类和构建方法等进行划分。我们按照知识领域将知识图谱划分为通用知识图谱和领域知识图谱,下面详细介绍这两类知识图谱。
1.通用知识图谱
通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,包含了大量现实世界中的常识性知识。现实世界的知识丰富多样且极其庞杂,通用知识图谱广罗网络上的各种数据知识,重点关注知识的广度,但由于大量来自网络上的数据知识未经验证,造成通用知识图谱的准确度不够高。尽管如此,通用知识图谱仍然凭借着其应用范围极广的优势,推动着各类知识图谱相关项目不断落地。
表1-1给出了当前国内外部分典型的通用知识图谱项目。
表1-1 部分典型的通用知识图谱项目
在以上通用知识图谱中,用户可以获取公开的知识数据,因此,通用知识图谱也称为开放知识图谱,在知识工程时代也称为链接开放数据(Linked Open Data, LOD)。一些较大的通用知识库(例如DBpedia、Wikidata以及YAGO)的数据内容较多,同时也是其他知识图谱数据的重要来源,与它们相关联的知识库数目众多。
值得一提的是,本书的一些内容也参考了OpenKG联盟中的开放资源,读者可以参考,以了解更多知识图谱的专业知识。
2.领域知识图谱
领域知识图谱面向特定领域,应用于具体业务,对知识图谱的实用性及知识的准确度要求更高。领域知识图谱可以看成是一个基于语义网络的行业知识库,需要依靠特定行业的数据来构建,因此又叫特定领域知识图谱或垂直知识图谱。
在领域知识图谱中,实体属性与数据模式往往比较丰富,在图谱构建和应用过程中需要考虑不同的业务场景与使用人员。例如生活类、社交类、电商类、金融类、医疗类等,要求具有特定的行业意义。
下面我们简要介绍几种常见的领域知识图谱。
(1)生活类知识图谱
知识图谱具有很强的可解释性,并且在搜索商家等场景中充分验证了知识图谱的有效性。知识图谱通过对商家的多维度精准刻画,实现在商场搜索、美食搜索、旅游搜索、酒店搜索等生活领域的落地应用,直接为用户搜索出适合的商家或场景。基于知识图谱的生活类业务搜索结果不仅精准,还多样化。
(2)社交类知识图谱
知识图谱能够基于用户行为数据精准构建用户画像,包含与社会最相关的概念及实体,以及人物、场所、兴趣点、电影、电视、音乐、体育等众多内容。此外,社交网络在知识图谱技术的推动下,已经可以做到推断用户的想法并提供建议,如聊天时的推荐回复,对聊天信息进行实体检测并推荐相关内容等。
(3)电商类知识图谱
推荐工作常常是最重要的。尽管近年来电商类推荐算法已经取得了长足的进步,但这些算法仍然存在诸多问题,如不能很好地理解用户需求造成重复推荐、过度推荐等。通过构建场景、品类及商品知识图谱,能够让推荐算法更好地理解用户行为,发现用户想要购买的商品。基于知识图谱的商品推荐能够有效地进行信息过滤,减少用户获取信息的时间,提高用户处理信息的效率。
(4)金融类知识图谱
在众多金融类业务的应用中,知识图谱主要应用于金融行业的语义理解、知识搜索和数据分析中,为金融领域的精准获客、贷前授信、贷中评估、贷后监管等需求提供技术支撑。越来越多的金融机构及企业已经在积极探索构建金融领域知识图谱,希望能将海量非结构化信息自动化地利用起来,为金融领域提供更精准、更可靠的决策依据。
(5)医疗类知识图谱
在众多医疗类业务的应用中,已经有多家科研机构及企业对医疗知识图谱进行了深入研究,并推出了集成大规模、高质量医学知识基础集的医疗知识图谱。借助医疗知识图谱,医疗决策支持系统可以根据患者症状描述及化验数据,给出智能诊断、治疗方案推荐及转诊建议,还可以针对医生的诊疗方案进行分析、查漏补缺,减少甚至避免误诊。医疗知识图谱的研究也包含健康管理、疾病风险预测、辅助诊疗、病历结构化等应用。
以上众多领域、不同功能的知识图谱的构建不是一蹴而就的,而是经过漫长的发展与优化才形成如今覆盖众多行业的知识图谱应用。在知识图谱广泛应用的背后,是一批批知识图谱工作者们漫长而又坚实的研究与探索。
1.1.4 知识图谱发展阶段
知识图谱始于20世纪50年代,至今大致分为3个阶段[2],如图1-2所示。
图1-2 知识图谱的发展历程
下面主要介绍一下第三阶段(2012年至今)。在这一阶段,谷歌提出了Google Knowledge Graph,通过知识图谱技术改善了搜索引擎性能。伴随着人工智能的蓬勃发展,知识图谱涉及的知识抽取、表示、融合、建模、推理等关键问题得到一定程度的解决和突破,知识图谱成为知识服务领域的一个新热点,受到学术界和工业界的广泛关注。尤其是在工业界,阿里巴巴、腾讯、百度、美团、字节跳动、华为、科大讯飞等科技公司都在各自领域搭建并成功应用了知识图谱。