工程科技领域大数据知识服务——中国工程院科技知识中心建设与应用
(中国工程院)
摘要
中国工程科技知识中心(China Knowledge Centre for Engineering Sciences and Technology,CKCEST)旨在发挥中国工程院学科分布优势和工程科技领域的示范引领作用,构建知识服务协同创新体系,支撑国家战略决策和高端智库建设,落实我国大数据战略,服务科技强国建设。CKCEST重点针对高端智库和工程科技人员两类用户,聚焦工程科技领域多类型、多来源、跨领域数据资源,与国内信息技术领先企业、权威数据服务机构等共同形成知识服务协同创新体系,通过体制创新、技术创新、知识创新与服务创新,创建了多领域知识服务联盟机制,制定了工程科技知识服务标准规范,开拓了国家大数据应用与知识工程,形成了高端智库支撑与知识服务体系,培育形成了庞大的国际、国内用户群体,取得了显著成效。本文结合CKCEST九年的建设过程,系统分析其建设背景和意义、实施框架和建设成果,并对未来运营和建设方向进行展望。
关键词
中国工程科技知识中心;工程科技;大数据;知识服务
Abstract
China Knowledge Centre for Engineering Sciences and Technology (CKCEST) aims to make full use of playing the advantages of discipline distribution and the leading role on engineering science and technology,build the knowledge service collaborative innovation system to support the proposal of the national major strategic policy and the construction of high-end think tank,and serve the Chinese strategy on the big data industry.CKCEST focuses on approaching two types of users,namely high-end think tank and engineering scientists,and collecting multi-type,multi-source and cross-domain data resources in the field of engineering science and technology,forming a collaborative knowledge service innovation system with domestic information technology giants and authoritative data service institutions,etc.Based on the innovation derived from system,technology,knowledge and service,CKCEST has created a multi-disciplinary knowledge service alliance mechanism,formulated the standard specification of engineering science and technology knowledge service,explored national big data application and knowledge engineering,shaped the advanced talent supporting structure and knowledge service system,cultivated the worldwide user group and achieved remarkable results.This paper combines the nine-year construction process of CKCEST,systematically analyses the concept,framework,result and experience on its construction and provides an outlook on the future operation and construction direction.
Keywords
CKCEST;Engineering Technology;Big Data;Knowledge Service
1 建设背景、意义和目标
1.1 建设背景
科学技术迅猛发展带来的知识革命,在世界范围内对经济和社会发展产生了深刻的影响。以科技信息资源为代表的知识资源的占有、配置、创造和利用方式的优劣,日益成为决定国家竞争力强弱的关键因素。以期刊论文、专利数据、科研项目、科技报告、新闻资讯等多源数据融合的大数据服务平台已经成为竞相追逐的知识服务高地。众多国内外情报服务机构及智库研究团队构建了“人工智能+信息资源”的知识服务模式。根据知识服务平台的服务模式的不同,可以分为三类:基于泛需求的数据发现平台、基于特定主题的专题知识服务平台、面向个性化需求的知识分析平台。
基于泛需求的数据发现平台是指基于科技大数据知识仓储和语义知识网格、语义搜索和情境感知等关键技术,实现特定领域普适性的智能知识搜索引擎,提供专业知识一站式搜索、多维聚类、精准发现、智能推荐、知识关联、可视化分析及知识可靠获取等服务,帮助用户在海量资源中快速发现有价值的知识。这类知识服务平台有基于AI的Yewno知识发现平台、Semantic Scholar学术搜索、基于AI的Magi搜索及ELIXIR-数据平台等。
基于特定主题的专题知识服务平台指面向不同学科、产业方向、重大战略、专业热点,以及不同服务群体的差异化、精细化需求,基于专题快速构建工具,构建特色专业知识专题,实现线上专题中各类知识资源的有效打通和聚合服务,如联合国教科文组织TAIR拟南芥信息资源服务平台、ELIXIR互操作性平台(EIP)。
面向个性化需求的知识分析平台是指基于“数据+人+工具”的个性化知识应用平台,面向应急性、复杂性、交互性、开放性等需求提供知识服务,包括专家学术圈、知识脉络分析、科技动态监测等,如医景网——工具类。
面对国内外工程科技快速发展形势及大数据发展趋势,中国工程院诸多院士认为应建设中国工程科技界的数字图书馆,为国家工程科技思想库建设提供强有力的技术支撑,搭建我国工程科技知识整合平台。中国工程院重大咨询研究项目“建设中国工程院数字图书馆调研和实施方案设计论证研究”于2011年正式立项。经过项目组深入调研并充分讨论,认为中国工程院应建设“中国工程科技知识中心”,而不是传统意义上的“数字图书馆”[1]。中国工程科技知识中心将对数字图书馆(信息)进行完全重组和提炼,促使用户更加活跃地加入知识的创造中去,从获取信息转变到共享知识和创造知识中去。2012年3月,中国工程科技知识中心(以下简称知识中心)建设项目应运而生。
1.2 建设意义
知识中心由中国工程院联合国家级研究院、各部委情报所、高等院校、行业信息中心及大型企业等共同建设,协同开展领域资源建设和专业知识服务。其建设意义体现在:
(1)满足战略咨询研究和国家工程科技思想库建设的需要。开展战略咨询研究是中国工程院的中心任务,其中最基础的工作是对数据与资料进行分析与研究,深度挖掘出数据潜在价值。建设知识中心,可以提供“数据—信息—知识—价值”的深度服务,这正是开展战略咨询、建设国家工程科技思想库的基础性工作。
(2)满足国家实施创新驱动发展战略的需要。创新需要人才、平台、技术和信息,知识中心将通过整合国内外工程科技资源,传播科技知识和科学思想,促进工程科技学术交流,实现工程科技创新和发展,培养创新型人才队伍。
(3)满足国家工程科技战略长期发展的需要。工程科技的创新发展离不开科技信息资源的支撑保障,知识中心的建设与服务可提升国家科技信息资源基础设施水平,对我国科技信息资源进行战略布局。同时,整合国际工程科技数据资源,推动国际工程和科学技术知识库的建设,争取在新一轮大数据浪潮中占得先机,为提升国家经济和科技国际竞争力发挥重要作用。
1.3 建设目标
知识中心是经国家批准建设的首个以跨领域专业数据融合与深度知识挖掘为目标的公益性、开放式的资源集成和知识服务平台。它以满足国家经济科技发展需要、提高国家自主创新能力为总体目标,以为国家工程科技领域重大决策、重大工程科技活动、企业创新与人才培养提供信息支撑和知识服务为宗旨,最终建设成为国际先进、国内领先、具有广泛影响力的工程科技领域信息汇聚中心、数据挖掘中心和知识服务中心。
知识中心的建设聚焦以下目标:推动数据汇聚与资源共享,实现科学配置和高效互通;推动技术创新与能力开放,实现知识融合和生态繁荣;推动知识增值与特色服务,实现智慧引领和价值创造;推动运营统筹与创新实践,实现合作共赢和持续发展。
2 建设理念和实施框架
2.1 建设理念
以服务为宗旨。知识中心是国家工程科技思想库中独具特色的重要组成部分,其建设要以服务为宗旨,服务于国家工程科技思想库的建设和系统应用,服务于广大科技工作者,服务于工程科技的发展。
以创新为灵魂。创新是引领发展的第一动力。知识中心的建设必须与创新紧密结合,在平台联盟建设、关键核心技术研发应用、跨领域资源融合服务等方面,不断进行理念创新、技术创新、管理创新和服务创新。
以开放为特色。要把开放作为知识中心建设的主要特色和主要优势,按照“互惠互利,优势互补,共建共享,共同发展”的开放思路,加强国内、国际间的开放合作,尤其要以全球化的视野,推动国际工程科技知识中心(International Knowledge Centre for Engineering Sciences and Technology under the Auspices of UNESCO,IKCEST)建设[2]。
2.2 实施框架
2.2.1 组织架构
在组织管理上,知识中心主要依托中国工程院项目领导小组、专家委员会、项目管理办公室、技术专家组、各分中心及技术研发中心开展工作,逐渐形成了完善的组织架构(见图1)。在知识中心项目管理办公室的统筹协调下,由总中心、技术研究中心、专业分中心分工协作共同推进项目建设。
图1 知识中心组织架构
总中心是贯彻执行各项规范标准、汇聚融合专业领域数据资源、研发和推广应用技术、集成各种专业知识服务应用、维护知识中心日常运行的核心机构。总中心的基础设施包括总平台、应用系统平台和共享平台,总平台汇聚各分中心领域资源,提供门户网站服务、跨领域服务和泛在服务,应用系统平台侧重于系统设施支撑,共享平台侧重于数据资源支撑。
技术研究中心是知识中心关键共性技术和前沿新技术的研发机构,其核心任务是为知识中心持续发展和技术升级提供有效的需求对接及技术研发支撑。
专业分中心是特定工程科技专业领域建设的子系统,是知识中心全面覆盖工程科技各个专业领域的重要组成部分。分中心承担本专业领域资源的整体规划,全面负责厘清本领域内数据资源脉络以及数据加工组织与整合,研发专业知识服务系统,构建专业领域分平台,开展专业领域用户群体的知识服务,并提供分中心系统运行与维护支持。
2.2.2 建设框架
知识中心建设内容主要包括云基础设施环境、资源体系、技术体系、产品体系、运营体系、管理体系及知识中心门户系统等(见图2)。其中,云基础设施环境是指整个知识中心的基础计算、存储和网络环境;资源体系建设重点是汇聚中国工程科技领域知识资源,建立资源汇聚、资源组织、资源管控一体化的数据治理服务体系;技术体系建设主要涉及能力开放与数据流通、数据处理、知识组织与计算以及应用与服务支撑等;产品体系建设主要涉及跨领域知识服务、专业领域知识服务和国际工程科技知识服务等;运营体系建设重点主要包括运营机制、运营模式、评价体系、宣传推广和运维保障;管理体系建设主要包括标准规范、网络安全、知识产权、人才队伍等。
图2 知识中心建设框架
2.3 技术方案
云基础设施环境建设。云基础设施环境建设重点是完善基于云的计算、存储设施和网络运行环境。搭建知识中心公有云和私有云相结合的混合云,建成灾备中心,为知识中心总平台及各领域知识服务平台提供统一的云资源服务,实现不同种类及重要等级数据的分类存储。
大数据处理环境建设。建立不同类型资源的元数据标准规范体系,支撑资源汇交、关联融合和服务;建立完善的大数据治理体系,实现多源异构数据全过程管理;制定知识中心工程科技分类,对资源进行分类标注,支持深度智能搜索;建设数据库资源台账系统,对资源数据监控、数据质量统计和统计分析,实现对多源异构数据资源的全过程精细化管理。
资源体系建设。通过自建、联盟、采购、开放获取等多种方式,汇聚工程科技领域知识资源。建立资源汇聚、资源组织、资源管控一体化的数据治理服务体系。在总中心的统一管理下,分中心组织汇聚本领域的各类数据资源到总中心,扩充工程科技领域的公共基础数据资源,推进各领域特色资源建设与数据汇交,促进多来源数据资源的融合与拓展,实现工程科技元数据的整合、优化与持续更新。
知识组织与计算技术体系建设。推进知识计算关键共性技术的集成创新和自主研发,研发数据汇聚与标引技术、知识加工与知识重组技术、深度搜索与多维导航技术、协作众包技术、大数据可视化分析技术、知识网络技术、智能问答技术等,开展关键技术集成测试与参考系统构建,开展专业知识服务系统参考模型、专业知识服务系统支撑软件KS-Studio建设;推动知识计算技术工程化及应用,实现命名实体识别和链接、层次概念标引、实体属性及关系抽取,实现多源数据的融合,实现专家群体智慧和知识计算工具的高效协同和深度共融[3],建设一站式人机协同知识加工众包服务系统;开展知识组织方法工具的研究和构建工作,建成知识组织体系构建管理系统,构建中国工程科技词表,开发知识图谱的构建及配套技术工具、新词发现工具和关系推荐工具,有效支持工程科技资源加工和知识应用构建[4]。
智能搜索服务研发。知识中心打造开放的技术集成环境,与百度开展搜索引擎技术合作,融合清华大学、浙江大学等国内高校及机构的人工智能技术、知识图谱技术,打造国内领先的知识搜索引擎;与百度学术开展资源合作,建立国内最大的工程科技搜索资源库,协同开展工程科技原文资源加工、前端产品开发等工作,共同建设更加专业的智能搜索服务;持续优化敏感词管理、日志管理、原文服务、权限管理等用户管理系统;持续探索知识图谱在搜索中的应用,基于知识图谱,从搜索广度和深度、搜索效率和搜索质量等方面进行优化和提升,提高检索结果的准确性和全面性;基于语义理解和知识关联,提升工程科技各领域数据融合的知识揭示;实现用户单点登录全网跨平台无障碍漫游、全站跨领域资源高效率发现、原文及实体数据的便捷获取,向用户提供“所需即所在、所见即所得”的一站式发现服务。
知识服务体系建设。建立总中心综合性服务与分中心专业性服务协同的知识服务体系。建立专业知识应用,从大数据中发现知识,汇集群体智慧,为用户提供深层次知识服务;面向高端智库和战略咨询提供高价值数据一站式发现、全生命周期信息化支撑、智能化工具支撑、报告自动撰写、高价值情报推送等系列服务;面向工程科技界持续聚焦科研需求,做优做强知领系列精品服务;聚焦国家战略,应对突发事件,持续丰富各个专业领域知识应用。
产品体系建设。通过打造智库支撑平台、智库观点、战略咨询智能支持系统等产品,为战略咨询与研究提供强大的知识和应用服务,初步实现从资料收集到数据分析,再到报告协同撰写的全流程支撑,基本形成以专家为核心、流程为规范、数据为支撑、交互为手段的工程科技战略咨询支撑服务体系。
标准规范体系建设。针对知识中心多类型数据资源,围绕资源创建、描述、组织、检索、服务和长期保存的整个生命周期,提出知识中心总体标准规范架构,包括数据资源规范、技术规范、应用服务规范、安全规范及运行管理规范等。
运营管理体系建设。从多方面制定了相应的管理办法及制度。例如,在综合管理制度方面,制定《知识产权管理办法》《网络信息安全管理办法》等;在资源建设制度方面,制定《资源建设方案》《资源共享管理办法》《资源安全管理和长期保存管理办法》等;在服务管理制度方面,制定《知识服务管理办法》《平台运行服务管理办法》等。在宣传推广方面,联合各方力量,创新运营机制,打造统一的知识服务品牌,推动生态合作,形成覆盖工程科技领域的服务运营推广体系。
3 建设成果
3.1 创立完善的多领域知识服务联盟机制
中国工程院与各协建单位采取联盟的机制,共同建设知识中心。联盟机制的实行,使知识中心工作决策实现了领域研究人员与文献信息专家的结合。通过权利与义务的规定,较好地解决了联盟单位与项目整体目标、联盟单位之间的关系,开拓了一种数据与应用共建共享的全新管理模式。截至2021年年底,中国工程院已实现与涵盖各部委情报所及行业信息中心、国内顶尖高校、国家级科研院所、国内信息技术领先企业、权威数据服务机构等50多家信息服务单位的联盟,联合产、学、研、用各方力量,共同构建工程科技领域大数据产业生态。
3.2 建成工程科技知识服务标准规范与管理体系
知识中心根据业务与管理需要,制定并完善了相应的标准规范及必要的规章制度,既促进了跨领域数据的有效融合,也保证了以联盟为机制、多机构参与的知识中心的高效运行。构建了知识中心总体标准规范架构(见图3),包括应用服务规范、数据规范、技术规范、安全规范及运行维护规范。知识中心已制定通用元数据规范24项、特色资源元数据规范95项。
图3 知识中心总体标准规范架构
3.3 打造海量工程科技资源体系
截至2021年年底,知识中心资源总量达到73亿条,体量达到100TB,工程科技领域一级学科覆盖率达100%,二级学科覆盖率达90%。协同总、分两级,构建了34个专业领域大数据知识服务平台,集成各领域高质量的专业特色数据集近3000个。总分中心联合构建工程科技领域的知识库和专业词表系统,总表核心词条达到19.6万条,扩展词条达320万条,分领域词条超过60万条,构建了973个大类和620个子类的知识中心分类体系。建成了中医药、水利和油茶等领域的知识图谱,构建了专家、学者、项目与成果的工程科技知识图谱。
3.4 开创大数据应用与知识工程技术路径
知识中心在一体化基础设施建设和技术环境、知识组织与计算技术、大数据挖掘与知识发现等方面的系列技术支撑工作及成果,为促进跨组织多领域协同,推动资源汇聚、关联融合、大数据挖掘与知识服务,实现从数据到信息到知识,形成了开创性实践和示范效应。一体化技术环境、标准规范建设和大数据处理环境,为各领域知识服务平台基础环境及支撑提供了保障能力,打通了跨单位的组织藩篱,确保了跨领域数据资源的横向流动,确保了用户跨平台访问的无障碍漫游和一致性体验;知识组织体系建设、语义标注提升了工程科技各领域数据融合的知识揭示能力;大数据挖掘、知识计算、跨媒体计算和深度搜索技术,为建设智能化、个性化、特色化的工程科技数据服务平台提供了保障。
3.5 形成网格化工程科技知识服务体系
知识中心面向各级各类用户开展了基础服务、深度服务、特色服务、定制服务等多个层面、多种类型的知识服务,基本形成了立体化和网格化知识服务体系。总中心主要提供工程科技领域基础知识服务和所有知识服务的总集成,提供工程科技领域一站式知识发现服务,集成专业分中心访问入口,建设并集成“院士馆”“专家库”“一带一路”“知领直播”“知领视频”等综合性知识服务产品。专业分中心深入垂直领域提供深度知识服务,面向各自领域,提供专业资源搜索、领域特色汇聚与展示、专业知识关联展示、知识深度分析及定制化服务等。
截至2021年年底,知识中心上线服务的领域知识应用共260余个。例如,地理信息分中心的版图智检工具为科技工作者撰写技术报告或学术论文插图自检提供参考;地理资源分中心的科教文卫专题特色知识应用,展示了中国改革开放40多年来科教文卫的时空分布和变化趋势;海洋分中心的动力环境专题产品,为航运及沿海的渔业等生产方面提供了环境支撑保障;环境分中心的环保产品应用服务,提供了多维度环保产品当前数量情况分析服务;林业分中心的油茶专题知识应用产品,开发了油茶知识图谱应用系统;水利分中心的“水问”水利专业知识图谱建设,实现了对水利主要研究对象的关系梳理和可视化展示;医药分中心的传染病智能分析服务,实现了我国近年来28种常见甲乙类法定报告传染病数据的比较和可视化分析。
3.6 建成国家高端科技智库服务支撑体系
通过打造智库支撑平台、智库观点、战略咨询智能支持系统等多类型智库知识产品,构建了工程科技战略咨询支撑服务体系。将线下服务嵌入咨询研究全流程,初步构建了领域跟踪、信息参考和数据分析相结合的智库信息服务模式。提供针对不同需求的智能化支撑工具,以数据驱动新型智库建设,全面助力高端智库建设高质量发展。
3.7 知识中心国际影响持续扩大
在UNESCO框架下积极参与国际工程科技开放服务与合作交流,构建了“1+N”布局,即建设1个总平台、4个分平台(防灾减灾、丝路科技、工程教育、智能城市),初步实现了总分一体化的管理和运营体系。在统一标准规范体系下,持续汇聚国际工程科技资源和优势领域国际特色资源。IKCEST平台数据资源量达1.3亿条,提供防灾减灾、公共卫生安全、人工智能伦理、文化遗产保护、全球工程、科技脉动、“一带一路”指数等51个在线知识应用。IKCEST为发展中国家和高等教育机构提供持续人才培训服务。2015—2021年,IKCEST共举办国际培训班93期,涉及28个主题、115个国家和地区、13000多名学员(其中,女性占比为35%),培训满意度超过90%。IKCEST致力于打造国际高端学术交流平台,举办覆盖大数据、人工智能、在线工程教育等主题领域的国际高端研讨会,为国内外知名专家和学者搭建学术交流平台。
4 未来展望
“十四五”时期是全面建成小康社会、实现第一个百年奋斗目标后,开启全面建设社会主义现代化国家新征程,向第二个百年奋斗目标进军的新起点。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称国家“十四五”规划)提出,我国需要“构建国家科研论文和科技信息高端交流平台”。《“十四五”国家信息化规划》提出,充分发挥数据作为新生产要素的关键作用,以数据资源开发利用、共享流通、全生命周期治理和安全保障为重点,建立完善数据要素资源体系,激发数据要素价值,提升数据要素赋能作用,以创新驱动、高质量供给引领和创造新需求,形成强大国内市场,推动构建新发展格局。
为全面落实国家“十四五”规划,大力实施创新驱动发展战略,知识中心将立足构建知识发现、汇聚、加工、管理与服务体系,持续推动工程科技领域资源的汇聚融合,深度挖掘数据价值,促进数据向知识的转化,建立工程科技领域知识资源体系,打造知识中心品牌;突破大数据、人工智能和知识服务等关键技术,强化知识产品自主研发,建成国际先进、国内领先的国家工程科技信息高端交流平台,面向工程科技领域提供知识搜索、智能问答、深度分析、在线交流和群体协作等全流程知识服务,成为支撑国家战略决策和科技创新的重大科技基础设施;积极融入全球创新网络,链接全球创新资源,形成开放融合的工程科技信息交流生态环境,提升国际交流能力与影响力。