上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.1 数据框架
图3-1是数据分析的架构,包括数据采集层、数据存储层、数据处理和分析层、应用层。应用层大多是由BI报表承载的,我们熟知的数据产品也是BI报表的一种展现形式。
(1)数据采集层:确定要采集的数据字段、采集的周期、采集的规范等细节。
(2)数据存储层:对于结构化的数据,存储在结构化的数据库中,如MySQL、MS SQL等。而诸如图片、音频等非结构化的数据,要存储在非结构化的数据库中,如MongoDB、NoSQL、Hadoop等。
(3)数据处理和分析层:大多数分析师都活跃在这一层,数据处理和分析是分析师的主要工作内容。
● 数据清洗(数据预处理):区别于建模前的数据清洗,将数据处理成结构化的数据,为分析做准备,并且要充分理解指标,必要时还需要计算出新的(派生)指标。
● 数据可视化:包含描述性统计分析[1]和数据理解,通过对字段的变换透视、可视化来理解数据。如果是多张有关联的表格,则需要建立关系模型,全方位地分析数据。
● 算法建模:算法建模不同于关系建模,算法模型来自于应用数学[2],基于数学方法,将显示问题抽象成数学问题并予以解答。在建模前需要对数据进行变换,让数据符合算法预设的结构和类型。
(4)应用层:业务人员基于IT(互联网技术)、DT(数据技术)部门设计好的数据产品进行实务操作应用,如BI分析、商业预测和客户分析等。