从零进阶!数据分析的统计基础(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5 数据分布的测定

在描述性统计中,一组数据的特征除了使用集中趋势和离中趋势来描述外,还使用其数据分布的形态来分析。什么叫数据分布?这个概念比较抽象,我们可以这样理解,数据分布就是指当把取得的数据按某种分组画出直方图后,将每个直方形的上边的中点用一根曲线连接在一起,也即拟合出一根曲线,当分组的区间越来越小时,直方图就变成了一根平滑的曲线,由这根曲线和横轴之间的面积,就组成了数据的分布。数据的分布用图示的形式显示了数据在哪个区间较多,在哪个区间较少,就像第1章中三国人物武力分布所示。各种数据有不同的数据分布曲线,在统计学中,有一个常用的数据分布,叫作正态分布,它在数轴上的形态如同一个倒钟形,曲线以平均数为中心,左右对称,曲线两端永远不与横轴相交,曲线的高峰位于正中央,即平均数所在的位置,如图2.15所示。

图2.15 正态分布图示

在描述性统计中,数据分布形态的测定主要以正态分布为标准进行衡量,一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖峭程度和对称性与正态分布曲线相比较,其测试指标包括偏态和峰度。

2.5.1 数据偏态及其测定

数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为右偏(或正偏)与左偏(或负偏)两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下,平均数、中位数与众数是合而为一的,即。在偏态分布的情况下,平均数、中位数与众数是分离的。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。右向偏态,众数的数值较小,平均数的数值较大,平均数与众数之差为正值,所以右向偏态又称为正向偏态。如果众数在右边,平均数在左边,即数据的极端值在左边,数据分布曲线向左延伸,则称为左向偏态。左向偏态,众数的数值较大,平均数的数值较小,平均数与众数之差为负值,所以左向偏态又称为负向偏态。

测定偏态的指标是偏态系数。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测定。偏态系数有多种计算方法,在统计软件中(例如Excel等)通常采用以下公式:

其中:

——数据的平均值;

xi——每一个具体的数据值;

s——数据的标准差;

n——数据的个数。

在Excel中,有具体的函数实现这个公式,读者只需要知道偏态系数是这样算出来的就可以了,至于如何计算就不用深究了。当然在有些特殊场合是需要熟悉这个公式的,例如在使用Python或R自行开发统计算法,需要用到偏态系数时,就必须将此公式通过编程实现。也就是说,就数据分析师或非统计专业的人士而言,对于本书中的公式,只需要知道其大概特征就可以了,不需要全部都背下来和推导出来,本书后面的公式大体都是这个特点。

SK的含义如下。

SK=0时,分布是对称的。

SK<0时,分布呈负偏态,SK值越小,负偏程度越高。

SK>0时,分布呈正偏态,SK值越大,正偏程度越高。

2.5.2 数据峰度及其测定

峰度是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,则称为尖顶峰度;当变量值的次数在众数周围分布较为分散,使次数分布曲线比正态分布曲线更为平缓,则称为平顶峰度。可见,尖顶峰度和平顶峰度都是相对正态分布曲线的标准峰度而言的。

测定峰度的指标是峰度系数。峰度系数(K)是对数据分布的尖峭程度的测定。峰度系数有多种计算方法,在统计软件中(例如Excel等)通常采用以下公式:

其中:

——数据的平均值;

xi——每一个具体的数据值;

s——数据的标准差;

n——数据的个数。

K的含义如下。

峰度系数K<0,与正态分布相比,该分布一般为扁平、瘦尾,肩部较胖,如图2.15所示。

图2.16 平顶峰分布图示

峰度系数K>0,与正态分布相比,该分布一般为尖峰、肥尾,肩部较瘦,如图2.17所示。

图2.17 尖顶峰分布图示

2.5.3 数据偏度和峰度的作用

在实际的数据分析过程中,偏度和峰度的作用主要表现在以下两个方面。

一是将偏度和峰度结合起来用于检查样本的分布是否属于正态分布,以便判断总体的分布。如果样本的偏度系数接近于0而峰度系数接近于3,就可以推断总体的分布是接近于正态分布的,用样本来对总体进行测定时就可以看成是正态分布,否则就可以进行否认。

二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推算。一般情况下,只要分布不是正态的,算术平均数、众数m0、中位数me三者之间都存在以下关系。

右偏时,就有:mem0

左偏时,就有:mem0

根据经验,在偏态适度时,不论是右偏还是左偏,三者之间的距离有近似的固定关系,即中位数与算术平均数的距离约等于众数与算术平均数距离的1/3。据此,可以得出三个关系式:

利用以上三个关系式就可以在算术平均数、众数、中位数这三个数中已知任意两个数的条件下推算另一个数。