上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.4.2 什么是云数据湖架构
正如1.1节提到的,大数据场景远远超出了传统企业数据仓库的范围。云数据湖架构旨在解决这些确切的问题,因为它们旨在满足数据及其来源爆炸式增长的需求,而无须对数据的来源、格式、大小或质量做出任何假设。与传统数据仓库采用的问题优先方法相比,云数据湖采用数据优先的方法。在云数据湖架构中,所有数据都被认为是有用的——无论是立即满足当前需求还是满足未来需求。云数据架构的第一步是以原始自然状态摄取数据,而不受数据源、大小或格式的任何限制。这些数据存储在云数据湖中,云数据湖是一个高度可扩展的存储系统,可以存储任何类型的数据。这些原始数据的质量和价值各不相同,需要更多的转换才能生成高价值的见解。
如图1-5所示,云数据湖上的处理系统处理存储在数据湖中的数据,并允许数据开发人员按需定义架构,即在处理时描述数据。然后,这些处理系统对低价值的非结构化数据进行操作,以生成高价值数据,这些数据通常是结构化的,并且包含有意义的见解。之后,这些高价值的结构化数据要么被加载到企业数据仓库中以供使用,要么直接在数据湖中使用。如果所有这些概念看起来都很复杂,不用担心,第2章和第3章将详细介绍这一过程。