1.1 什么是数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DWH或DW。数据仓库,是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合,是出于分析性报告和决策支持的目的而创建的。
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库的概念由数据仓库之父Bill Inmon在1991年出版的Buiding the Data Warehouse一书中提出。
1.面向主题的
传统的操作型数据库的数据是面向事务处理任务组织的,而数据仓库中的数据是按照一定的主题组织的。主题是一个抽象的概念,可以理解为与业务相关的数据的类别,每个主题基本对应一个宏观的分析领域。例如,一个公司要分析销售相关的数据,需要通过数据回答“每季度的整体销售额是多少”这样的问题。此时,就是一个销售主题的需求,可以通过建立一个销售主题的数据集合来得到分析结果。
2.集成的
“集成的”是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是需要经过一系列加工、整理和汇总的过程。因此,数据仓库中的信息是全局集成的数据。数据仓库中的数据通常包含大量的历史记录,这些历史数据记录了企业从过去某个时间点到当前时间点的全部信息,通过这些信息,可以对企业的未来发展做出可靠分析。
3.相对稳定的
数据一旦进入数据仓库,就不应该再发生改变。操作系统中的数据一般会频繁更新,而在数据仓库环境中的数据一般不进行更新。当有改变的操作型数据进入数据仓库时,会产生新的记录,而不是覆盖原有记录,这样就保证了数据仓库中保存了数据变化的全部轨迹。这一点很好理解,数据仓库中的数据必须客观地记录企业的数据,一旦数据可以修改,那对历史数据的分析将没有意义。
4.随时间变化的
在进行商务决策分析的时候,为了能够发现业务的发展趋势、存在的问题、潜在的发展机会等,需要对大量历史数据进行分析。数据仓库中的数据反映了某个时间点的数据快照,随着时间推移,这个快照自然是要发生变化的。数据仓库虽然需要保存大量的历史数据,但是也不可能永远驻留在数据仓库中,数据仓库中的数据都有自己的声明周期,到了一定的时间,数据就需要被移除。移除的方式包括但不限于将细节数据汇总后删除、将旧的数据转存到大容量介质后删除或者直接物理删除等。