算法与数据中台:基于Google、Facebook与微博实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 算法与数据中台的技术体系

毫无疑问,算法与数据中台是一个庞大而宏伟的系统,它受到了计算机领域里众多分支的影响。不仅如此,它也会随着互联网技术的发展而不断地进行演进和迭代。为了不至于迷失在冗杂的细节中,我们可以用图 1-3 来展示算法与数据中台的通用技术体系。

图1-3 算法与数据中台的通用技术体系

从图1-3中我们可以看到算法与数据中台的整体轮廓。概括地讲,它包括如下几个重要的组成部分。

● 基础设施平台:严格地说,它属于技术中台的组成部分。正所谓“工欲善其事,必先利其器”,高效且便利的基础设施不但对于业务系统而言是至关重要的,它对于搭建算法与数据中台这样一个庞大的技术体系而言也是必不可少的。鉴于其特殊性和重要性,并且为了对技术脉络有一个相对完整的叙述,我们会在后续章节中先对基础设施平台中的核心技术进行介绍。

● 大数据平台:随着信息技术和互联网,特别是移动互联网的蓬勃发展,用户数据、企业数据和社会数据都得到了爆发式的增长。面对数据规模庞大、数据种类繁多、数据价值密度和质量相对较低,以及数据时效性强等一系列新的挑战,大数据平台应运而生,它利用全新的模式和技术对这些海量数据进行分析与处理,以便将其转化为强大的洞察能力、决策能力和优化能力。毫不夸张地讲,大数据技术是提升核心竞争力的重要手段,它深刻地影响着各个行业的发展,并成为催生社会变革和创造社会经济价值的核心生产力。

● 分布式数据库平台:它在算法与数据中台中占有极其重要的地位,分布式数据库平台为业务系统、决策系统和在线服务提供了进行数据访问的基础设施。相较于大数据平台偏重于对海量数据进行分析和洞察的特性而言,分布式数据库平台往往需要在响应时间内来提供数据的快速访问能力,以便支持实时决策。此外,分布式数据库是一个极其活跃且充满挑战性的技术领域,它涉及分布式计算理论、分布式一致性协议、分布式事务、数据模型设计、数据分片策略以及数据复制机制等方方面面的内容。

● 机器学习平台:正如上文中所提到的,算法特别是机器学习算法是挖掘数据的内在规律以及发挥数据的潜在价值的关键手段。机器学习平台对样本处理、特征工程、模型训练、调参辅助等机器学习中的核心流程进行统一管理,以便实现对算法能力的高效率、低成本和通用化的输出。尤其是深度学习框架,在机器学习平台的技术栈中扮演了最为关键的角色,它是各大科技公司的重点技术攻关方向。

● 在线算法平台:它在很大程度上承担了算法与数据中台对上层业务进行赋能的角色,因此在线算法平台是实现数据智能的一个重要能力输出口。概括地讲,在线算法平台包含了数据检索、模型预测、策略执行以及效果评估等核心工作。此外,在面对高并发流量的环境中,它还需要依赖分布式架构和异构设备来满足我们对系统可靠性和服务性能的要求。

在后续章节中,我们会基于这个技术体系,对以上的核心组成部分进行深入探讨并分析其背后的设计原则和架构思路。此外,我们还会结合实践来进行具体的案例剖析。