从零进阶!数据分析的统计基础(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 直方图

问题引入:如果给出400多名三国时期人物的武力数据,则如何从这些数据中随机找出50名武力相当的武将。

2.1.1 什么是直方图

面对大量的数据,人们通常希望得到数据的大致情况,为了概括数据,统计学家经常使用一种叫作直方图的图像。此图像由一批长方形构成,通过长方形的面积或高度来代表对应组在数据中所占的比例。

直方图有两种类型:当用长方形的面积代表对应组的频数与组距的比时,则称为频率分布直方图;当用长方形的高代表对应组的频数时,则称为频数分布直方图。一般情况下,由于组距是一个常数,为了画图和看图方便,通常直接用高表示频数,很多软件的直方图都是频数分布直方图,但严格统计意义上的直方图都是指频率分布直方图,而且统计意义上的直方图没有纵向刻度。如图2.1所示为三国时期人物武力频率分布直方图。

图2.1 三国时期人物武力频率分布直方图

2.1.2 如何看直方图

观看直方图的关键是看区间对应面积的大小。在频率直方图中,长方形的面积可以看成该区间中三国人物的密集程度,长方形的面积越大,说明三国人物在该区间的人数越多,因此,武力在70~80的面积最大,说明三国人物武力在70~80的人数较多,占总人数的24.34%左右。而武力在20~30的面积和武力在30~40的面积相等,因此武力介于两者之间的人数相当。

2.1.3 如何画直方图

直方图的画法包括三步:第一步对数据进行分区;第二步画一条水平轴;第三步画长方形。

在进行分区时,找出给定数据的最大值和最小值,然后根据最大值和最小值设计出合理的等距区间。本例中的三国人物一共有423个,对应有423个武力数据,最大值是100,最小值是1,因此以每10点武力为一个区间,共分10个区间,每个区间的对应比率如表2-1所示。

表2-1 三国人物武力分布表

注:小组区间包含左端点,但不包含右端点(最后一个区间包含右端点)。

对水平轴的画法需要注意平均分布,有些数据的区间分布本身就不平均,在画直方图时容易出错,如图2.2和图2.3所示。

图2.2 直方图水平轴的错误画法

图2.3 直方图水平轴的正确画法

由于小组区间的面积为区间所占总数的百分比,因此在计算小组区间上的长方形的高度时,应将百分数除以区间的长度,由此绘制出来的所有长方形的面积之和为1,其对应的刻度称为密度尺度,绘制在直方图的左边。加上密度尺度后,三国时期人物武力频率分布直方图如图2.4所示。(如果密度尺寸代表高度,那么面积就是高度×区间长度,这样算面积加起来应该是10,应该要补充说明或者修改一下。)

图2.4 三国人物武力频率分布直方图(加密度尺度)

从图2.4可以看出,在70~80的武力区间上,三国人物武力分布的面积最大,即该部分的人数也最多,因此可以从此区间中随机挑选50名武将,其武力都相差不会太大。当然,如果对武力要求不是严格限定,当某一区间的人数大于50时,都可以成为被选择的区间。

2.1.4 使用Excel 2013进行直方图的绘制

使用Excel 2013进行直方图绘制的步骤如下。

将附录中的三国人物数据录入Excel中,设置该Excel文件的文件名为“三国人物数据.xlsx”(本书后续章节中大部分的演示数据都使用该数据,或者从此数据文件中进行筛选,后面就直接叫此文件名,不再一一描述其生成过程)。将数据中人物的武力数据排成一列,范围为D1:D424。输入分组标志,本例中为M2:M11,分别是10、20、30、40、50、60、70、80、90、100,如图2.5所示。

然后利用直方图分析工具进行分析,具体操作步骤如下。

第一步:单击“工具”菜单,选择“数据分析”选项,打开“数据分析”对话框。从“分析工具”列表框中选择“直方图”选项,如图2.6所示。

第二步:打开“直方图”对话框,确定输入区域、接收区域和输出区域,选中“标志”复选框的原因是输入区域和接收区域的第一行都是“变量”名称,在数理统计中称“变量”为标志,结果如图2.7所示。

图2.5 录入数据

图2.6 “数据分析”对话框

(1)在“输入区域”输入框中输入待分析数据区域的单元格引用,若输入区域有标志项,则选中“标志”选项;否则,系统自动生成数据标志。在“接收区域”输入框中输入接收区域的单元格引用,如果该输入框为空,则系统自动利用输入区域中的最小值和最大值建立平均分布的区间间隔的分组。本例中的输入区域为$D$1:$D$424,接收区域为$M$1:$M$11。

图2.7 “直方图”对话框

(2)在“输出选项”输入框中可选择输出去向,输出去向类似于“抽样”对话框的输出去向。本例中的“输出区域”为$O$14:$T$34,即将结果保存到本工作表的某个区域。

(3)选择“柏拉图”选项可以在输出表中同时按降序排列频数数据;选择“累积百分率”选项可以在输出表中增加一列累积百分比数值,并绘制一条百分比曲线;选择“图表输出”选项可以生成一个嵌入式直方图,此处仅选择“图表输出”。

第三步:单击“确定”按钮,在输出区域单元格中可得到频数分布直方图,如图2.8所示。

图2.8 频数分布直方图

第四步:将条形图转换成标准直方图。具体做法为:将现在的频数转换为频率,即将当前的频率都除以423(此数是总的人物个数),就得到了每个区域的频率;然后求每个分区的密度尺度,由于区间大小一致,因此频率就是每个分区的密度尺度;设置直方图的间距为零,单击条形图中的任意一个直条,再右击,在弹出的快捷菜单中选择“设置数据系列格式”命令,在设置“数据系列格式”对话框中选择系列选项标签,将分类间距调节为0即可,单击“确定”按钮;最后选择修改图表标题、纵横轴标题和边框颜色选项。得到的直方图结果如图2.9所示。

图2.9 三国人物武力直方图