数据血缘分析原理与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.4 什么是数据血缘可视化

数据血缘可视化是利用计算机图形学和图像处理技术将数据血缘转换为图形或图像,并在屏幕上进行显示和交互处理的理论、方法和技术。它涵盖了计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,综合了研究数据表示、数据处理、决策分析等一系列问题的综合技术。数据血缘可视化的优点如下。

用户接受度更高。使用图形来表示复杂数据可以使用户更快地理解数据之间的关系,因此也更容易被接受。

增强用户互动。数据血缘可视化能够突出关注点和风险问题。与静态图表不同,可视化应用可以进行动态操作,使数据血缘更加清晰易懂。

强化数据关联。通过数据图表的形式描绘直接或间接关联的数据组之间的关系,可以更紧密地呈现数据之间的各种联系方式。

在完成数据血缘分析后,需要依靠可视化技术将分析结果清晰直观地传递给用户,帮助他们进行二次分析和具体应用。数据血缘图谱是血缘分析中常用的可视化方案之一。

业务需求的差异将决定数据血缘分析的层次和数据血缘层级的差异,这些差异会在数据血缘图谱中得到体现。因此,数据血缘图谱可能需要根据不同的血缘层级进行分层展示,以直观地展示应用级、数据级和字段级之间的数据血缘关系。在具体应用中,虽然业务需求和可采集分析的血缘信息会影响数据血缘图谱的呈现方式,但各类数据血缘图谱的整体形态基本一致。比如,可以以某个数据为核心节点,展示该节点的数据来源、数据去向、流转路径以及路径中的处理方式。

因此,数据血缘图谱应至少包含以下元素。

1)数据节点:标记数据的具体信息,例如所有者、层次信息、终端信息等。根据不同的数据血缘层级和业务需求,数据节点的信息可能有所差异。根据数据类型的不同,数据节点可以分为以下几类。

主节点:主节点是数据血缘图谱的核心,代表当前需要研究的数据。它位于图谱的正中心,围绕它展现数据的血缘关系。可视化时,我们只看到与该主节点相关的血缘关系,而与该节点无关的血缘关系不在图形上展示,以确保图形简洁清晰。

数据流入节点:数据流入节点是主节点数据的来源,也是主节点的父节点。它可能有多个甚至多层级结构。数据流入节点也称为上游节点,如果是第一个节点,则是源头数据,否则可能是数据流转节点。

数据流出节点:数据流出节点表示主节点数据的去向,是主节点的子节点。它也可能有多个或多层级结构。数据流出节点位于图形的右侧。终端节点是一种特殊的数据流出节点,表示数据不再向下流转。

通过在数据血缘图谱中呈现这些元素,可以直观地展示数据节点之间的关系、流转路径以及相关的处理方式。

2)数据流转线路:用于标记数据的流转路径,通常是从流入节点汇聚到主节点,然后从主节点扩散到流出节点。数据流转线路可展现3个维度的信息:方向、数据更新量级和数据更新频次。方向的表现方式通常默认为从左到右;数据更新的量级通过线条的粗细来表示,粗线表示数据量级大,细线表示数据量级小;数据更新的频次通过线段的长度来表现,短线段表示高频更新,长线段表示低频更新。如果线条是实线,表示数据仅流转一次。

3)数据标准规则:数据标准规则用于表现数据流转过程中的筛选标准。由于海量数据有不同的来源,数据需求方根据业务场景和规范定义数据接入的范围和质量要求。这些要求形成了数据标准规则,后续可以利用这些规则进行数据清理工作。

数据标准规则可以用不同的方式呈现,例如用大写字母或文本标注。在可视化图形上,可以用标有大写字母“E”的圆圈来表示标准规则。通过单击或将鼠标移动到标有大写字母“E”的图标上,可以自动显示该节点中的数据标准规则清单。数据标准规则的简略图形位于某条数据流转线路上,表示该线路上流转的数据需要符合这些规则才能继续流转。

4)转换规则节点:转换规则节点用标有大写字母“T”的圆圈表示。它位于数据流转线路上,用于表示数据流转过程中发生的变化和转换。

在数据提供方提供的数据中,有时需要进行特殊处理才能满足数据需求方的要求。这些处理可能很简单,例如截取源数据的前4位,也可能非常复杂,需要使用特殊的公式。为了保证可视化图形的简洁清晰,要对转换规则节点进行简化处理。要查看数据应用了哪些转换规则,只需将鼠标移动到标有大写字母“T”的圆圈上,就会自动显示转换规则清单。

5)数据归档/销毁规则节点:数据具有生命周期,当数据不再具有使用价值时,它的生命周期就结束了,需要进行数据归档或销毁。判断数据是否还具有使用价值是困难的,因此需要定义一些条件。当满足这些条件时,就可以认为数据不再具有使用价值,可以进行归档或销毁。

如图1-3所示,在可视化图形中,我们设计了一个标有大写字母“R3”的圆圈,用来表示数据归档和销毁规则。当鼠标移动到标有大写字母“R3”的圆圈上时,会自动展示归档和销毁规则清单。

图1-3 数据血缘示例

数据血缘关系的可视化是一个相对复杂的过程,目前还没有成熟的可视化图形可供参考。只要我们设计的数据血缘关系可视化图形组件能够清晰地展现数据的血缘关系,对组织的数据治理有帮助即可。它要以某个数据为核心节点,通过可视化方式呈现该节点的数据来源、数据去向、流转路径以及路径中的数据处理方式和处理规则,帮助用户理解数据的血缘关系,进行二次分析和具体应用。