2.2 流程工业大数据治理案例
2.2.1 跨国石油公司大数据治理
A公司是一家总部位于加拿大的国际石油公司,主要专注于油砂、页岩气、海上和陆上常规油气的勘探、开发、生产、贸易等,业务范围遍及北美洲、中美洲、欧洲和非洲。A公司多年来一直致力于利用信息技术提升专业研究、业务运行和企业管理能力,已经建成覆盖所有业务领域的业务和管理系统数百个,其中有部分系统是通过业务并购所获得的系统。由于信息系统建设年代不一、来源多样,A公司在进行业务整合、系统集成时,面临数据标准不统一、数据质量参差不齐、数据完整性缺失等多种困扰,特别是近年来越来越迫切的数据分析需求,让企业管理高层意识到数据问题迫在眉睫。为此,A公司决定启动企业范围内的数据项目,促进数据标准和数据质量整体提升。
1.数据治理现状和目标
项目初期,A公司在咨询公司的帮助下,通过数据治理成熟度评估模型(表2-1),确定了当前公司数据治理水平,并利用该模型明确了数据治理目标。
表2-1 数据治理成熟度评估模型
经过评估,A公司确定当前的数据治理成熟度为1.5,如图2-1所示,处于1级和2级之间。主要特征为企业已经初步基于PPDM标准制定了自身数据标准,但需要在企业范围内进行推广,并形成持续有效的数据质量管理能力。
图2-1 A公司数据治理成熟度
同时,A公司明确在未来5年内要达到数据治理成熟度4级,并确定了具体的工作目标。
● 定义并建立数据治理模型和方法,确定数据质量标准。
● 制定业务流程图、流程检查点、业务规则和数据规则,确定质量检查要求。
● 根据业务影响、业务准备情况和数据准备情况,为数据治理确定数据类型的优先级。
● 为实施数据治理所需的各种人员建立组织模型,并定义角色。
● 完成支持数据治理所需实现的存储库和技术。
● 达成与外部组织之间的积极协作和流程、技术的融合,从而充分利用办公机构之间的数据治理活动。
● 实施与数据治理类型相关的手动操作工作流程、业务规则、数据规则和软件度量。
2.数据治理框架和组织
A公司认为数据治理的最终目标是,确保数据在业务生命周期内流转时具备高质量和完整性以支撑各类数据应用。为此,需要建立完善的治理框架,构建合理的组织权责、清晰有效的工作流程及高效的技术保障,通过一系列标准和规范来确保数据可查、可用和可信,如图2-2所示。
图2-2 数据治理框架
组织权责的确立是开展数据治理工作的首要条件。A公司的数据治理组织包含以下三个层面。
(1)数据治理委员会:由跨业务板块的高层管理人员组成,提出各个业务领域在数据治理方面的诉求,确定企业级的治理目标和策略,为数据治理工作配备合理资源,就重大决策在企业层面达成共识。
(2)数据治理办公室:由跨专业领域的专家或专业管理人员组成,负责数据标准、规则和绩效指标的审批,提出数据质量要求,推动数据治理工作开展。下设角色包括数据所有者和数据SME。
(3)数据治理团队:由数据治理支持团队、数据治理实施团队、数据治理分析团队、数据治理架构团队构成,负责具体数据治理相关的标准、流程、技术的设计、实施和运行维护。
● 数据治理支持团队:负责对数据标准的维护和监督,监控数据质量指标及数据质量改进措施,并在数据全生命周期中协调各方人员积极参与数据治理工作,提升数据质量。下设角色包括数据治理维护组、数据保管者、数据治理协调人。
● 数据治理实施团队:负责开发和实施数据治理相关标准、规则、度量指标,并监督标准遵从情况。下设角色包括数据管家和数据治理实施组。
● 数据治理分析团队:对数据治理工作进行分析,为数据治理委员会、办公室,以及数据治理维护组和实施组提供数据治理方法和流程指导。
● 数据治理架构团队:负责数据治理技术平台架构设计和实施。
在组织构成方面充分体现了 A 公司关于数据治理的理念—“业务驱动数据治理”,业务部门充分认识到高质量数据对于业务的重要性,业务管理人员和专业领域人员的积极参与为数据治理开展提供了保障,数据治理组织架构和角色如图2-3所示。
图2-3 数据治理组织架构和角色
3.数据治理实施流程和策略
A公司在数据组织资源到位的前提下,开展数据治理工作。对于数据治理,无论是业务部门还是IT部门都需要投入较多力量,因而,在实施策略上,采用分区分类、逐步覆盖的稳步推进方式,以减少对正常业务的影响;同时,充分利用数据治理工具,提升治理效率,巩固治理效果。数据治理实施流程如图2-4所示。
图2-4 数据治理实施流程
4.数据治理平台
“工欲善其事,必先利其器”。面对庞大复杂的数据,必须提供有效的技术解决方案以固化标准、规则,提升流程自动化和强制化水平,通过系统工具对数据质量进行持续监控。只有引起管理层和相关人员的普遍关注,数据治理才能够获得较好的效果。数据治理技术解决方案架构如图2-5所示。
图2-5 数据治理技术解决方案架构
A公司以 Collibra数据治理系统为基础,构建了自己的数据治理平台。Collibra在Gartner数据管理和分析产品报告中处于领导者象限。它定义的数据资产包括以下4种。
● 传统的数据领域(如客户、产品、供应商、会计科目等)。
● 数据集(如社交网络数据、聊天日志、RFID数据等)。
● 关键数据元素(如电话号码、产品目录等)。
● 数据平台(如Hadoop、Cassandra、企业数据仓库、传统关系型数据库等)。
对4种数据资产实现多种数据治理功能,包括数据治理政策定义、数据标准、数据所有权管理、元数据管理等,可进行增强语义层大数据分析,优化大数据治理模型,利用参考数据进行大数据查询等。A公司利用Collibra提供的功能重点进行元数据管理、数据治理审批流程管理、业务流程管理,数据治理技术解决方案如图2-6所示。
(1)元数据管理。
● 构建层级结构管理数据对象关系。
● 管理用户角色和职责。
● 管理业务社区。
● 数据类型包括业务流程定义、业务规则、数据规则、其他数据治理元数据。
● 参考数据管理包括业务术语、数据字典。
(2)数据治理审批流程管理,包括业务流程、业务规则、数据规则的定义和审批流程。
(3)业务流程管理,通过Collibra加电子邮件的方式实现流程自动化覆盖。
● 数据治理规则管理。
● 存储客户化规则引擎SQL执行语句。
● 提供用户界面配置客户化规则引擎和元数据结果库。
图2-6 数据治理技术解决方案
A公司的数据治理提供了3种不同治理场景应用,分别针对手工采集的规则、第三方不复杂质量规则、复杂质量规则。
● 手工采集的规则:通过Collibra提供的规则引擎进行业务流程定义。
● 第三方不复杂质量规则:引入第三方专业库的规则引擎,如斯伦贝谢的 ILX 可以对Petrel Studio或Geolog中的数据进行质量检核。
● 复杂质量规则:通过定制化引擎自定义复杂的数据质量规则。
通过以上方式,基本可以实现对重要系统数据质量检核全覆盖,定期进行数据质量扫描,将质量检核结果存放在结果库中,通过Oracle Viewer或Map Service发布出去,用户和管理者可通过管理看板、邮件等多种方式看到结果。质量报告将根据情况发送给相关责任人,进行质量改进。
5.建设与应用成效
数据治理是一个长期且持续的过程,经过5年努力,A公司已经基本完成当初预设目标,采用系统的数据治理方法,构建起完善的数据治理组织架构,组建了一支超过20人的专业数据治理团队,数据质量和数据完整性得到很大提升,为进一步开展数据分析和应用打下良好基础。
2.2.2 国内石油公司大数据治理
1.案例背景
国内某综合性能源集团公司自“十二五”以来,企业信息化建设取得快速发展,成效显著。在集团公司信息管理部统一规划下,勘探与生产分公司围绕上游业务,落实“共享石油”发展战略,目前结合“十三五”信息发展规划,提出了建设企业上游业务信息与应用共享平台的宏伟蓝图,旨在消除信息孤岛,实现勘探开发数据互联互通,搭建集科研、生产、管理于一体的统一共享平台,实现勘探生产、开发生产、协同研究及经营管理等方面的综合应用,提升上游业务运营能力。上游业务信息化建设蓝图主要是基于统一数据库、统一技术平台,实现勘探生产、开发生产、协同研究、经营管理及大数据分析等集成应用,具体内容如下。
(1)统一数据库—通过数据联邦,构建上游业务统一数据库,实现数据即服务(DaaS)的应用机制,支持跨专业、跨机构的数据共享应用。
(2)统一技术平台—构建统一技术平台,为上游业务应用开发建设提供统一的支撑与治理平台(PaaS),为各专业业务用户提供统一的应用入口,改变传统“烟囱式”信息系统建设模式,实现对业务应用需求的敏捷支撑。
(3)通用业务应用—以统一平台为支撑,构建勘探生产管理、开发生产管理、协同研究、经营管理与决策四大领域应用,完整覆盖上游业务,支撑科研、生产、管理、决策一体化协同。
(4)实现愿景—逐步完成统建系统业务应用向统一平台的迁移与改造,最终构建上游业务统一的信息与应用共享平台,完整支撑上游业务运行与持续优化创新。
通过搭建统一平台,集成数据及专业软件,构建勘探、评价、开发全过程综合研究支撑环境,为实现上游业务信息化总体蓝图奠定基础。
2.勘探开发数据模型
该集团公司应用数据联邦技术,对各统建库、油田自建库进行整合,实现勘探开发相关数据的一体化管理;采用的勘探开发数据模型基于统一数据标准,面向集成应用建立勘探开发一体化数据库,实现对勘探开发数据的统一管理与治理。统一数据库技术架构如图2-7所示。
图2-7 统一数据库技术架构
统一数据库主要包括三方面:数据标准建设、勘探开发数据库一体化建设、勘探开发数据综合管理与治理。其中,数据标准建设主要是根据实际业务和应用需求,对已有模型标准进行扩展;勘探开发数据库一体化建设主要是实现相关统建和油田自建系统的多源数据集成与整合;勘探开发数据综合管理与治理主要包括主数据管理、元数据管理、质量控制、模型管理,从而基于主数据、元数据实现多源数据的统一管理,支持各类数据库互联互通。
勘探开发数据模型是该公司统建项目重要成果,模型涵盖上游业务,支持技术与管理数据、静态与动态数据一体化管理,在各油田广泛应用,如图2-8所示。
图2-8 勘探开发数据模型
3.勘探开发数据湖建设
数据湖是一项与大数据息息相关的技术,是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。建设统一的数据湖,可实现数据的逻辑统一和共享。本节主要介绍勘探开发相关业务的数据湖,将从数据标准、数据质量、数据安全及数据集成4方面进行详细阐述。
1)数据标准
数据标准建设以井、井筒、作业阶段为主线,实现对钻、录、测、试等业务在资料采集、资料处理、资料解释阶段产生的技术数据的存储与管理,并通过井、井筒和组织机构、项目的关联关系,与日报数据、工程实时参数、气体实时数据等动态数据和人员管理、监督管理、队伍管理、资质管理等管理数据进行关联,从而实现技术与管理数据、静态与动态数据一体化管理。数据库中的数据包括实体数据、技术数据和生产数据三部分。
(1)实体数据。
管理实体:项目、组织机构。
技术实体:工区、地质单元、站库、井、井筒、设备、管线。
(2)技术数据。
工程数据:物探、钻井、录井、测井、试油、井下。
综合研究:区域地质、单井地质、样品实验、综合研究成果。
(3)生产数据。
开发生产:开发生产(油、气、水)、动态监测。
采油工艺:采油工程、地面工程。
生产管理:资源管理、设备管理、队伍管理、生产动态。
2)数据质量
在数据质量管理方面,基于可定制的业务规则库,数据集成过程对数据质量进行扫描,保障联邦数据库数据质量;同时,定期生成数据质量公报,辅助推进数据质量提升。数据质量管理架构如图2-9所示。
图2-9 数据质量管理架构
3)数据安全
在数据安全方面,该系统作为实时的生产运行管理系统,需要7×24小时不间断运行,所以必须做好系统的数据安全工作,具体如下。
(1)数据传输。
● 集团公司与油田公司之间、油田自建库与上级平台之间通过广域网内网传输数据,在各链路节点对源区域、源地址、端口、协议设置防火墙安全策略,保证数据传输安全。
● 针对用户通过Internet访问系统过程中存在的安全隐患,采取SSL安全协议,对远程用户访问过程及数据传输过程进行安全保护。
● 核心数据在传输过程中进行加密处理,加密算法包括对称加密算法、非对称加密算法、不可逆加密算法。
● 除必要的技术手段外,还要采取以下措施:建立、健全数据安全管理制度;标准化安全管理控制流程;加强系统操作人员信息保密方面的培训,增强业务人员的信息安全意识;对系统的数据资源提供必要的控制手段等。
(2)系统备份。
数据安全在于防止涉密数据泄露和人为恶意破坏,对策是采用严格的用户管理机制和统一的防病毒软件。为防止数据丢失,应进行有效的数据备份,其中包括对操作系统、应用软件和数据库定期的停机备份、在线联机备份、日志备份、升级备份等。
系统数据依托存储区域网络实现备份,通过本地备份和异地容灾备份,保证数据的安全性和可靠性。当系统出现故障或数据丢失时,应提供恢复系统所需的数据,保障生产正常运行。
通过备份软件、备份服务器端/客户端、SAN 和存储设备建立一套完整的备份系统,对备份数据进行统一管理和维护。在备份服务器端,制定备份策略,确认备份内容、备份时间及备份方式;在备份客户端,设置备份脚本,定时启动备份进程,将存储在磁盘阵列中的生产数据通过SAN备份至备份存储设备中,及时监控备份作业执行情况,系统备份架构如图2-10所示。
4)数据集成
在数据集成方面,应用数据联邦技术,通过映射集成、数据缓存、数据连接等机制,集成统建及油田自建数据库,实现基于主数据、元数据的统一数据管理,支持各类数据库互联互通,建立面向应用的联邦数据库。数据集成架构如图2-11所示。
图2-10 系统备份架构
图2-11 数据集成架构
对于主数据、元数据,采用数据同步工具进行同步集成;对于地震数据、井筒数据、研究成果等业务数据进行逻辑集成;对于实时数据,采用基本的数据连接方式进行访问,保证数据的实时性。
通过域名解析、访问策略、数据缓存,建立跨专业、跨层级(油田/总部)的联邦数据库统一访问入口,实现数据就近访问的高效应用机制。采用域名方式访问数据库,域名服务器根据客户 IP 地址解析出附近的数据服务地址;通过访问策略,选择相应油田(或总部)的虚拟数据库,如图2-12所示。
图2-12 数据库应用入口示意图
4.建设与应用成效
该集团公司构建了统一数据湖和统一技术平台,支持油气勘探、开发生产、协同研究、生产运行及经营管理,实现了上游全业务链的协同共享,应用成效明显。
(1)针对油井物联网建设和应用存在的几项关键技术难题,依托勘探开发系统平台,创新开发出基于电参数大数据分析的抽油机井智能工况诊断。
(2)“石油大脑”是该公司基于勘探开发平台构建的油气生产作业AI赋能系统,通过提供行业人工智能模型算法服务、工作平台、边缘计算和防爆终端系统,帮助企业快速构建面向生产作业场景的应用解决方案,用以提高现场工作效率和质量,减少人工作业,保障安全。
(3)基于勘探开发统一数据湖和云平台,在油藏数值模拟结果的基础上,采用可视化技术进行新区自动步井和老区井网加密,最大限度控制含油面积,实现交互式井网部署,为油田开发方案编制提供便捷的应用工具。
(4)为了更好地为风险井位科学决策提供支撑,优化了网络速度,打通了软件集成平台连接通道,并利用多媒体超链接功能,实现了多媒体汇报与云平台交互联动功能,将“跨地域全天候协同办公”的构想变为现实。
目前,通用的协同研究环境应用取得预期效果,已应用于上百个勘探研究项目,数据准备时间由5小时缩短到1分钟以内,可通过“一键式”成图几秒钟完成图件自动生成,实现了勘探业务研究工作由线下到线上、由单兵到协同、由手工到自动的转变,有效优化了工作流程,大幅提升了工作效率与决策水平。