从零进阶!数据分析的统计基础(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据分析六部曲

概括地讲,数据分析的过程主要包括:明确分析目的和内容、数据收集、数据预处理、数据分析、数据展现和报告撰写六个步骤,如图1.1所示。

图1.1 数据分析过程

1.2.1 明确分析目的和内容

在进行数据分析之前,数据分析师应对需要分析的项目进行详细了解,或者自己本身就对此分析项目所涉及的行业有比较深刻的了解,即使对其内部的运行规律做不到了如指掌,至少也要了解整体框架。数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?数据分析师对这些问题都要了然于心。对数据分析目的的把握,是数据分析项目成败的关键。只有对数据分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因为不同的数据分析目的所选择的数据分析方法是不同的。在企业中做数据分析时首先要明白自己想要干什么,和提出数据分析需求的部门及负责人去沟通,了解他们到底想要做什么,只有目标明确了,数据分析才能进行下去。当然,有的时候数据分析的目标不是很清晰,但肯定要有一个大致的方向,在数据分析的过程中要慢慢总结。

1.2.2 数据收集

当我们选定了数据分析的目标或大致目标之后,一个重要的问题就出现了:如何才能准确、有效地收集数据,从而客观、全面地反映所要研究的问题的真实状况。数据收集是一个按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。通常数据收集的方法包括观察法、访谈法、问卷法、测验法和数据库获取法等。在商业数据分析中,数据收集一般都来源于数据库,也就是直接到数据库中获取数据,该办法需要使用到数据库工具一一SQL语言。如今是信息化时代,任何有一定规模的企业或事业单位,都会有自己的管理信息系统,他们的商业数据都存放在数据库中,数据分析师在取得数据时,最便宜也是最方便的方法就是直接到数据库中收集数据,这就需要掌握SQL语言,它是数据分析中最重要的一个工具。

讲到SQL语言就不得不提数据库管理系统了,数据库管理系统包括两个部分,一个是数据的存储,另一个是数据的服务。数据存储一般涉及计算机领域的内容,数据分析师不用过多涉及;而对于数据的服务,数据分析师则需要了解一些基础的知识。由于数据库提供数据的服务,提供服务肯定要有服务员,而和服务员对话就需要用语言,所以SQL语言就是数据库提供服务的服务员所能理解的语言。这种语言有其特定的语法,学习SQL语言就要学习它特有的语法结构。SQL语言的语法有很多,例如建立数据库、新建数据表、插入数据、查询数据、删除数据等,对数据分析师来讲,只需要掌握如何查询数据的语法就可以了,至于具体的查询语法这里就不叙述了,读者可查询相关书籍。也就是说,数据分析师在学习SQL语言时,只需要关注学习的重点,即重点学习SQL语言的查询语法,而无须完全掌握所有SQL语言的语法,即不需要成为一名优秀的数据库工程师。最后再次强调数据分析师一定要掌握SQL语言的查询语法,因为许多企业在招聘数据分析人才时都对这方面的技能有要求,而这也是数据收集一个非常重要的手段。

1.2.3 数据预处理

数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。数据预处理的过程概括起来包括数据审查、数据清理、数据转换和数据验证四个步骤。

第一步:数据审查

该步骤检查数据的数量(记录数)是否满足分析的最低要求,变量值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值或空值个数等。

第二步:数据清理

该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,保证后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。

第三步:数据转换

数据分析强调分析对象的可比性,但不同变量值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,则容易引起分析结果出现较大误差,再加上分析过程中其他的一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等。

第四步:数据验证

该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。

上述四个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(例如数据记录个数、最大值、最小值、缺失值或空值个数等),接着对发现的问题进行处理,即数据清理;然后提高数据的可比性,对数据进行一些变换,使数据在形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等,确保优质的数据进入分析阶段。数据预处理阶段在整个数据分析过程中占据极为重要的位置,从工作量上看,它占数据数据分析全部工作量的30%~50%,因为在做数据分析时,我们根据数据分析的目标,不是一次性就能把问题解决的,而是需要反复去取数据、清洗数据,将业务逻辑转变成可被分析的量化的数据。一般的统计软件都会提供相应的功能进行数据预处理,例如SPSS软件中的数据探索功能。

1.2.4 数据分析

到了这个阶段,要想驾驭数据、分析数据,就需要选用特定的数据分析方法,熟练操作数据分析工具,实现从数据到知识的分析过程,从而解决商业问题。其一要熟悉常用的数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的解释;其二要熟悉“1+1”种数据分析工具,其中的一种数据分析工具是指Excel,Excel是一个最常用也是最简单的数据分析工具。现在许多公司都以Excel结合SQL做数据分析。当我们对Excel增加新的插件后,就可以进行数理统计和数据挖掘了。然而,由于Excel是一个大众化的数据分析工具,使用它进行数据分析有较多不严谨的地方,一般在学术研究中很少使用它。另一种数据分析工具是指要熟悉一个专业的分析软件,便于进行专业的数据分析、数据建模等。专业的数据分析工具主要包括SPSS、SAS、MATLAB、R等。

SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它几乎将所有的功能都以统一、规范的界面展现出来,例如使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能的选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS有两套软件,即SPSS Statistics和SPSS Modeler,两者直接的区别在于处理数据量的不同,Statistics的处理数据量有限,而Modeler的处理数据量可以是海量的,也就是现在所谓的大数据。从功能上讲两者还有很多的区别:Statistics主要就是统计分析,是以统计学的理论为主的,它侧重在统计分析功能的应用;而Modeler不仅包括统计分析的功能,同时也有机器学习和人工智能,它更侧重于挖掘潜在的知识,为业务做指导。

R软件是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言,可操控数据的输入和输出,实现分支、循环,并且用户可自定义功能。R软件因其开源性、强大的统计计算等功能而受到统计人员的青睐。R软件具备高效的数据处理和存储功能,擅长数据矩阵操作,并且提供了大量适用于数据分析的工具,支持各种数据可视化输出。R软件的一大优势是分析人员可利用简单的R程序语言描述处理过程,以构建强大的分析功能。

MATLAB是由美国MathWorks公司生产的商品化应用软件,该软件具有良好的用户界面和实时的人机交互环境,使用该软件可以进行程序设计、统计分析和数据挖掘。一般的统计分析功能都可以在MATLAB软件中实现,当然,有的时候要适当进行代码的设计。MATLAB软件的一大特色就是提供了众多的应用函数,这些函数丰富了软件的功能,也方便了用户。经过多年的改版和更新,MATLAB的用户界面越来越接近Windows的标准界面,操作也越来越简单,编程环境也更加人性化,开发者编写的程序不用编译也能运行,同时也具有良好的程序调试和纠错功能,这些都为MATLAB的广泛使用提供了重要的支持。虽然MATLAB功能强大且界面友好,但由于其商业性质不同于WEKA和R的开源性质,用户使用正版MATLAB软件时需要支付一定的费用。在MATLAB软件中,提供了随机森林算法的接口,和R软件一样,用户需要对其参数进行设置,有些应用还需要进行适当的编程才能使用该算法。

SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能仅限于统计分析,直到现在,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在1996—1997年度被评选为建立数据库的首选产品,堪称统计软件界的“巨无霸”。SAS是由大型机系统发展而来的,其核心操作方式就是程序驱动。经过多年的发展,SAS现在已经成为一套完整的计算机语言,其用户界面也充分体现了这一特点。SAS采用MDI(多文档界面),用户在PGM视窗中输入程序,分析结果以文本的形式在OUTPUT视窗中输出。使用程序方式,用户可以完成所有需要做的工作,包括统计分析、预测、建模和模拟抽样等。

1.2.5 数据展现

一般情况下,数据分析的结果都是通过图、表的方式来呈现的,俗话说“字不如表,表不如图”。借助数据展现手段,能更直观地让数据分析师表述想要呈现的信息、观点和建议。数据展现常用的图形包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图等。

1.2.6 报告撰写

最后一个阶段就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,可以把数据分析的目的、过程、结果及方案完整呈现出来,以为达成商业目的提供参考。

一份好的数据分析报告,首先需要有一个好的分析框架,并且结构清晰、主次分明、图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容。图文并茂可以令数据更加生动、活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。

另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题,否则称不上是好的数据分析,同时也失去了报告的意义,数据分析的初衷就是为了满足商业目的。