轻松学大数据挖掘:算法、场景与数据产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4.1 构建的初衷

目前绝大多数公司的数据分析体系比较单一,如果数据分析人员要做一份专题业务报告,需要进行以下6个步骤。

(1)规划专题业务分析方向或者数据需求。

(2)梳理业务体系,确定数据的来源。

(3)在集群环境编写HQL进行数据查询、数据下载和数据清洗,才能将需要分析的数据存放在Excel或SPSS中进行分析处理。

(4)通过Excel进行简单的数据统计分析、数据透视应用、简单的统计函数使用及图标描述。

(5)如果涉及深层点,需要导入数据到SPSS中进行聚类分析、相关性分析,以及缺失值和异常值处理等。

(6)将分析数据报告或者数据需求,通过邮箱发送给业务方。

以上分析体系,存在以下3点不足。

(1)公司线上生产环境有安全限制,导致数据采集需要登录到集群环境进行下载和清理,长期以来,耗费分析人员的时间。

(2)对于应用的数据分析工具,无论Excel还是SPSS,都是比较基础级的分析工具,而且功能各有所长。因此,需要变化不同的数据分析工具,而针对这一点,完全可以使用Python替代,甚至使用更深层次的应用。

(3)对于每次数据提供的途径,通过邮箱处理,会耗费分析人员的时间,用Python可以做到自动发送邮件。