Greenplum构建实时数据仓库实践
上QQ阅读APP看书,第一时间看更新

1.3 抽取—转换—装载

前面已经多次提到了ETL一词,它是Extract、Transform、Load三个英文单词首字母的简写,中文意为抽取、转换、装载。ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节,一般会占到整个数据仓库项目工作量的一半以上。

● 抽取:从操作型数据库获取数据。

● 转换:转换数据,使之转变为适用于查询和分析的形式和结构。

● 装载:将转换后的数据导入到最终的目标数据仓库。

建立一个数据仓库,就是要把来自于多个异构的源系统的数据集成在一起,放置在一个集中的位置用于数据分析。如果一开始这些源系统数据就是兼容的,当然最好,但情况往往不是这样。ETL系统的工作就是要把异构的数据转换成同构的。如果没有ETL,就不能对异构的数据进行程序化的分析。