数据血缘分析原理与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.5 数据血缘的特征

数据血缘具有5个特征,包括稳定性、归属性、多源性、可追溯性和层次性。

1.数据血缘具有稳定性

数据血缘关系相对稳定。一旦数据来源发生变化,就意味着需要调整数据逻辑。因此,一旦数据血缘关系收集完毕,通常不会再有大的变化,这有助于进行数据分析。例如,在零售公司中,每日销售额分为线上和线下两种,两者联合形成总指标并传递给下游。只要这个场景不发生变化,数据血缘关系将持续存在。但是,如果某一天增加了代理商分类,导致数据来源发生变化,那么取数逻辑就需要调整,需要更改数据血缘上游节点。

2.数据血缘具有归属性

数据血缘具有归属关系。通常情况下,数据血缘的起点是源数据,源数据反映了数据的来源或数据归属者。企业中不同的业务部门创建和管理不同的数据,这些数据都有归属方,可以归属于特定的组织或个人。当这些数据从生产方流转到消费端时,数据的归属关系依然存在。尽管归属关系仍然存在,但数据的管理不再受源头方控制。因此,需要制定相应的管理要求和机制,并借助技术手段,确保生产出的数据在使用时安全准确。

举例来说,假设A公司的年销售额为5000亿元,不同部门可能会有不同的输出口径。销售部门可能有对外销售口径,财务部门可能有对外上市输出口径。年销售额是通过每个月的销售额汇总得出的,每个月的销售统计由销售部门负责。因此,最终汇总形成的数据应该由销售部门(归属方)输出,因为这个数据来源最准确。成本和财务部门可以获取和使用这些数据,但都依赖于数据源的授权和传递。

3.数据血缘具有多源性

一个数据可以来自一个或多个数据源,并经过一定的计算方式进行加工。类似于人类的血缘基因来自父母双方,即父亲的XY染色体和母亲的XX染色体,最终形成XX或XY染色体类型,这是相对稳定的。数据的多源性意味着一个数据可以由多个数据源组合而成。

举例来说,当需要评估企业的利润总额时,利润总额的计算公式包括多个数据项,如营业收入、营业成本、税金及附加、销售费用、管理费用、财务费用、资产减值损失、信用减值损失、公允价值变动收益(损失取负值)、投资收益(损失取负值)、其他收益等。计算企业的利润总额通常需要多个数据源的数据,并通过计算公式得出最终的结果。

4.数据血缘具有可追溯性

可追溯性指的是可以追溯事物的历史来源、使用情况或所处位置的特性。数据血缘的可追溯性意味着可以追溯数据的整个生命周期,从数据产生到消亡的过程都可以进行直观记录和查询。

举例来说,以银行的财务指标为例,利息净收入等于利息收入减去利息支出,而利息收入可以进一步细分为对客业务利息收入、资本市场业务利息收入和其他业务利息收入。对客业务利息收入又可以细分为信贷业务利息收入和其他业务利息收入,而信贷业务利息收入又可以细分为不同业务线和业务板块的利息收入。

通过追溯数据血缘关系,可以从财务指标一直追溯到原始业务数据,例如客户加权平均贷款利率和新发放贷款余额。如果发现利息净收入指标存在数据质量问题,可以通过数据血缘追溯图直观地发现根本原因,如图1-4所示。

数据血缘的可追溯性不仅体现在指标计算上,还可以应用于数据集的血缘分析上。不论是数据字段、数据表还是数据库,都可能与其他数据集存在血缘关系。分析数据血缘关系不仅对提升数据质量有帮助,还对评估数据价值、提高数据质量以及管理数据生命周期具有重要意义。

数据血缘的可追溯性可以帮助组织了解数据的源头、流动路径和加工过程,以及数据之间的关系。通过追溯数据血缘,可以识别数据质量问题的根本原因,帮助组织改进数据采集、处理和存储的流程。同时,追溯数据血缘还有助于满足合规性要求,如数据隐私保护、数据可追溯性要求等。

5.数据血缘具有层次性

数据的血缘关系具有层次性,这种层次性体现在数据的分类、归纳和总结过程中形成的不同层次的描述信息中,呈现出了数据的层次结构。以传统关系数据库为例,用户是最高级别,其下依次是数据库、表和字段。用户拥有多个数据库,每个数据库中包含多张表,而每张表则由多个字段组成。这些层级之间有机结合,形成了完整的数据血缘关系。

学生管理系统ER图如图1-5所示。学生信息表由学生的学号、姓名、性别、出生日期、联系方式等字段组成。学生信息表、考勤信息表和请销假表等通过一个或多个关联字段相互连接,形成了整个学生管理系统后台的数据库。

一般而言,数据都属于某个组织或个人,都有其所有者。数据在不同所有者之间流转和融合,形成了数据所有者之间通过数据联系起来的关系,这也是数据血缘关系中的一种层次结构。这种层次结构能够清晰地展示数据的提供者和使用者之间的关系。

数据血缘关系是一种典型的具有层次结构的血缘关系,针对不同类型的数据,如数据库、表和字段,它们都是数据的存储结构,不同类型的数据拥有不同的存储结构。存储结构决定了血缘关系的层次性,因此不同类型数据的血缘关系的层次结构也存在差异。

对于数据管理和数据分析团队来说,深入理解数据血缘特征是至关重要的。稳定性、归属性、多源性、可追溯性和层次性相互作用,共同构成了数据血缘的全貌。通过充分利用数据血缘特征,组织可以更好地管理数据资产,优化数据流程,提高数据的可信度和可用性,从而为决策和业务创新提供坚实的基础。

图1-4 数据血缘追溯图

图1-5 学生管理系统ER图