5.2 最小化数据可用性耗时_数据自助服务实践指南：数据开放与洞察提效-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

5.2　最小化数据可用性耗时

数据可用性耗时主要花在本节讨论的4个活动上。数据迁移服务的目标是尽量减少这些步骤花费的时间。

5.2.1　数据接入配置和变更管理

数据必须从源数据存储中读取并写入目标数据存储中。我们需要一个特定技术的适配器来对数据存储进行读写。管理数据存储的源团队需要通过配置来开放数据读取功能。通常，必须解决与源数据存储的性能影响相关的问题。这个过程在JIRA ticket（一个项目管理平台）中进行跟踪，可能需要几天时间。

经过初始配置之后，源数据存储和目标数据存储可能会发生模式和配置的更改。这些更改可能会破坏下游ETL和机器学习模型对特定数据属性的依赖，而这些数据属性可能已经被弃用，或者更改为表示不同的意义。这些更改需要主动协调。除非数据迁移是一次性的，否则需要进行持续的变更管理，以确保源数据在目标中正确可用。

5.2.2　合规

在跨系统迁移数据之前，必须先验证数据是否合规。例如，如果源数据存储受PCI（https://oreil.ly/j8aBX）等监管合规法律的约束，那么数据迁移必须以明确的业务理由记录下来。带有PII属性的数据必须在传输过程中和在目标数据存储上进行加密。新出现的数据权利法律，如《通用数据保护条例》（GDPR）（https://oreil.ly/K7Yqz）和《加州消费者隐私法》（CCPA）（https://oreil.ly/eIBY6），进一步限制了数据迁移。根据适用的法规，合规性验证可能会花费大量时间。

5.2.3　数据质量验证

数据迁移需要确保源数据和目标数据的一致性。在实际部署中，质量问题可能由于多种原因导致，例如源数据错误、适配器故障、聚合问题等。为了确保数据质量问题不影响业务指标和机器学习模型的正确性，必须在迁移数据期间监控数据一致性。

在数据迁移过程中，目标数据可能是源数据经过过滤、聚合或转换后得到的，因此与源数据并不完全一致。例如，如果应用程序数据跨多个集群分片，则可能需要在目标数据上使用一个聚合的具体化视图。在部署到生产环境中之前，需要对转换进行定义和验证。

虽然目前有多种商业和开源的解决方案，但在实现数据迁移服务方面还没有通用的解决方案。本章的其余部分将介绍建立数据迁移服务的需求和设计模式。

本周热推：

一本书读懂区块链（第2版）大数据技术入门 SQL Server 2012 数据库教程（第3版）Access 2016数据库应用基础 Hadoop应用实战