3.4 从大数据到大规模知识库
受益于过去几十年来数字化和网络化蓬勃发展,来自互联网、社交媒体、摄像头、工业物联网、可穿戴设备的各类型数据急剧膨胀:一方面为数据驱动的连接主义人工智能发展提供了优良的土壤;另一方面海量数据本身所具备的多源、异构、多模态、不连贯语义等非结构性特征,给数据的存储、处理和分析也带来了新的技术挑战,对承载海量数据汇聚的大数据中心提出了迫切需求。
大数据技术于21世纪初兴起发展。2003年以来,Google陆续发表“Google File System”“MapReduce”“Bigtable”三大论文,为当前主流大数据分布式系统奠定了基础架构。在此基础上,2006年Apache基金会推出hadoop软件框架,推动大数据技术快速走向商用。之后,由加州伯克利大学开发的Spark、由Twitter开发的Storm等新技术,不断将大数据应用领域和技术成熟度推向新的阶段。
大数据处理需要高性能软硬件支持,通常要工作于集群上。这就需要大数据中心高性能的计算引擎、分布式计算平台甚至基于数据流的实时计算模式的强大支撑。在当前大数据驱动的主流智能计算形态下,海量数据的处理与分析是不可或缺的关键环节,大数据中心作为底层基础设施也是各类智能系统的重要支撑。
智能化的持续推进带来越来越庞大的数据处理需求,对优质数据中心资源的需求增长旺盛,数据中心大型化、规模化趋势仍在延续。未来大数据和大数据中心将长期成为支撑产业数字化、智能化转型的支柱型技术,也是未来智能社会和智能经济的关键基础设施。
与此同时,当前的人工智能感知能力较强,但认知、综合决策和规划行动能力还很弱。当人工智能在解决了感知问题而向认知智能跨越的时候,实现对于知识层面的处理和推理将成为未来重点和面临的主要挑战。深度学习模型要想突破现有能力局限,需要实现实体概念的理解能力和知识建模推理能力,以拓展深度学习的适用范围。中科院计算所研究员山世光认为,曾被誉为人工智能三驾马车的算法、算力、数据,到了需要反思的时刻,特别是深度学习在学术前沿后续发展乏力,恐难支撑AI能力继续升级。
从人工智能产业化落地面临的困难来看,人工智能产业化建模,都需要依靠对行业自身规律的把握,对业务机理的理解,需要与行业知识紧密结合才有效,而这些行业知识和规律的融入,就需要人工智能具备基于知识的建模能力。Watson作为当前比较有代表性的医疗领域人工智能认知平台,其智能的形成也严重依赖医疗行业知识。所有的疾病诊断、分析与建议,均来自其内部储存的海量知识库,包括全球权威的医学期刊、教科书及医疗机构、医药公司等的行业数据。垂直行业领域的专业知识成为Waston发展的核心资源之一。
知识库是人工智能发展历程的第二次热潮期间发展起来的,但当时的知识库更多的是人工构建的小规模的知识库,把很多显性化的人类知识电子化、数字化之后存入计算机,支撑了以专家系统为代表的基于人工规则的符号主义人工智能在20世纪八九十年代的发展。
数据抽取和知识表示技术的最新发展也正在帮助我们从数据中自动生成大规模的显性知识。与传统知识库通过专家自上而下获取人类知识的方式不同,基于大数据通过知识抽取方式,实现自下而上从数据中自动挖掘知识、抽取知识,就可构建蕴含大量机器知识的大规模知识库,从而由知识规模上的量变带来知识效用上的质变,将为认知智能模型设计和算法开发提供强大支持。基于互联网大数据或行业大数据,通过知识自动化的方法,能够实现大规模知识库的高效构建。群体智能技术建立起基于不同互联网个体的知识汇聚新能力,像群体编辑的维基百科等众包式知识协作模式,也将有效提升大规模知识库的构建速度。
借助各领域专业化知识图谱的支撑,智能算法在知识表示、理解、推理能力方面能够实现实质性提升。2019年6月,以色列海法的IBM研究中心发布了一款能够预测患者一年内恶性乳腺癌发展情况的人工智能模型。同行评议结果表明,他们的系统正确预测了87%的癌症和77%的良性病例的发展。未来基于大规模知识库的海量知识,借助新的计算架构和大算力能力爆发,有可能催生一批全新的知识推理的理论方法,推动认知智能的进一步突破。
在当前“大数据+深度学习”的感知智能计算范式下,大数据中心发挥着基础性作用,快速获取大量数据的能力成为关键,基于高通量计算的数据中心、跨业务领域的数据中台,都是开展感知智能技术创新的基础设施。未来基于知识计算的认知智能计算范式,也必然需要新的基础能力支撑。
不同于传统关系数据库,图数据库是以图这种新型数据结构存储数据的数据库。大量人工智能场景数据自身具有图的结构,如社交关系、城市交通路径等,使用图数据库可提升存储和计算效率。图数据库也可能激发基于知识的机器学习方法创新,基于图数据库进行数据库内机器学习模型训练,模型大小不受内存容量限制,为智能计算提供了新的模式。节点的中心性、集聚度等图特征分析以及各类图算法,为复杂问题的最优路径求解提供了很好的途径,也可以很方便地用于识别诸如电信欺诈电话等场景。图数据结构可以方便地存储知识图谱中的关键词—语义关联,并基于图计算进行高效的语义分析和知识推理,图数据库有可能成为未来大规模知识库的重要载体。
在交通、教育、医疗等领域认知智能的突破和发展,可能会越来越依赖知识库和知识共享平台。目前需要有一批致力于公共知识图谱和知识模型研发的团队,汇聚人类知识和机器知识构建可同享的通用知识单元,在此基础上建设一批汇聚海量专业知识的万亿级大规模知识库,推动大数据向大知识提升,将为下一阶段学术理论探索和产业技术创新聚能蓄力。