第2章 开放网络知识
2.1 概述
在网络大数据中包含着大量有价值的信息,这些有价值的信息往往会通过某些属性或关系互相关联,但这些反映相互关系的链接整合起来就是一个网络[2]。这个网络中的数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强。数据自身的信息、数据间的关联信息以及网络的结构特征等都隐藏在这样的数据网络中,网络大数据往往以复杂关联的数据网络这样一种独特的形式存在。有效利用网络大数据价值的主要任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识,对大数据网络后面的知识进行深入分析。社交网络中蕴含了丰富的用户的交友模式,用户的情感演化以及用户间消息的传播规律等知识;电子商务网站,如Amazon等拥有的用户浏览、购买和评论商品的信息中揭示了用户的购买行为规律;搜索引擎服务商存储的大量的用户日志信息中隐含了用户的查询意图和查询请求,这些真实的查询记录能够帮助搜索引擎提供商深入理解用户真正关注哪些实体,想查询哪些实体以及对于每个实体,用户真正感兴趣的属性有哪些。
传统的信息检索技术致力于从海量数据中过滤对用户有用的信息,然后将这些过滤结果或称为知识返回给用户,但是这些结果间存在的内在关联并没有被很好地挖掘和解析出来,缺乏从语义角度去挖掘深层次的规律和知识的能力。用户只能从结果中自己去理解和筛选知识,更何况检索技术本身也存在缺陷,如查全率和精确度不高,仍然不能满足用户的需求,效果远不能使人满意。值得欣慰的是,目前搜索引擎正在从基于关键字或者基于文本内容检索这一浅层次的知识理解和挖掘工作,向表达和理解语义和关系这些深层次的知识挖掘方面发展。互联网的创始人Tim[3]在XML 2000国际会议上正式提出语义Web的体系框架。而语义Web中“语义”的核心就是知识共享,包括计算机与计算机、人与计算机之间的共享。在计算机与计算机、人与计算机之间以无偏差的方式传递信息[4]。传统的Web资源中的语义信息或领域知识以机器难以处理的自由文本的方式存在,资源间的语义关系是以一种隐含的方式存在,这些语义信息由于缺乏明确的描述而丢失。
本体(ontology)是语义Web的基础[3],语义Web在本质上是基于本体的Web,本体可以有效地进行知识表达、知识查询,或不同领域知识的语义消解。本体还可以支持更丰富的服务发现、匹配和组合,提高自动化程度[5]。本体[6]是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的、可共享的。“明确”意味着所采用概念的类型和它们应用的约束实行明确的定义;“形式化”是指本体是计算机可读的(即能被计算机处理);“共享”反映知识本体应捕捉该领域中一致公认的知识,反映的是相关领域中公认的概念集,即知识本体针对的是团体而非个体的共识。本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Neches认为:本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。
基于本体构建的开放网络知识库是一个面向开放网络的、动态的、可增量的知识库。开放网络是指知识的来源是多元化的,包括来自互联网的非结构化多语言文本数据(如时事新闻、电子邮件、微博、社交媒体网站的帖子、即时通信以及可以转换成文本的信息等)、半结构化的在线百科知识库、机器可读的结构化语言知识库(如各类词库、专名库、主题词表、标注语料库等)。动态是指领域知识和语言知识的要素之间关系以及知识本身的属性是动态变化的,为了把握这种动态变化的规律与机理就需要采用概率化等计算方法判定其不确定性。可增量是指知识的规模可以满足用户对于知识获取的实时性要求而进行动态的扩展。
基于开放网络大数据构建知识库是国内外工业界开发和学术界研究的一个热点。目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库或应用系统有KnowItAll[7,8],TextRunner[9],NELL[10],Probase[11],Satori[12],PROSPERA[13],SOFIE[14]以及一些基于维基百科等在线百科知识构建的知识库DBpedia[15],Yago[16,17,18],Omega[19],WikiTaxonomy[20,21]。除此之外,一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台,如Evi公司的TrueKnowledge知识搜索平台、美国官方政府网站Data.gov、Wolfram的知识计算平台wolframalpha、Google的知识网络(knowledge graph)、Facebook推出的类似的实体搜索服务graph search等。其中,就规模而言,拥有概念最多的知识库是Probase,目前核心概念约270万,概念总量达到千万级。包含实体最多的是wolframalpha,有10万亿个实体。近年来,影响力比较大的知识库或知识搜索服务有Google的知识网络,目前规模是5亿个实体对象和350亿条实体间的关系信息,而且规模在随着信息的增长不断地增加;Probase也是近几年比较热门的知识库。它是基于概率化构建的知识库,支持针对短文本的语义理解。除此之外,比较有特色的还有国内搜狗的知立方系统,侧重于基于图的逻辑推理计算。包括利用语义网的三元组推理补充实体数据、对用户查询词进行语义理解以及句法分析等。