Python大数据分析算法与实例
上QQ阅读APP看书,第一时间看更新

2.1.2 数据分布特征离散程度的测定

数据分布的离散程度是描述数据分布的另一个重要特征,反映各变量值远离其中心值的程度,因此也称为离中趋势,从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值。描述数据离散程度的测度值主要有异众比率、极差、四分位差、平均差、方差和标准差、离散系数等,这些指标又称为变异指标。

1.异众比率

异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度定类数据、定序数据的离散程度。

其中,∑Fi为变量值的总频数,Fm为众数组的频数。

2.极差

极差是一组数据的最大值与最小值之差,是离散程度的最简单测度值。极差的测度如下:

(1)未分组数据

(2)组距分组数据

R最高组上限-最低组下限

3.四分位差

中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。

一组数据排序后处于25%和75%位置上的值称为四分位数,也称四分位点。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。

(1)四分位数确定

设下四分位数为QL,上四分位数为QU

①未分组数据

当四分位数的位置不在某一个位置上时,可根据四分位数的位置按比例分摊四分位数两侧的差值。

②单变量值分组数据

③组距分组数据

(2)四分位差

四分位数是离散程度的测度值之一,是上四分位数与下四分位数之差,又称为四分位差,亦称为内距或四分间距(Inter-Quartile Range),用Qd表示。四分位差的计算公式为:

4.平均差(Mean Deviation)

平均差是离散程度的测度值之一,是各变量值与其算术平均数离差绝对值的平均数,用Md表示。平均差能全面反映一组数据的离散程度,但该方法数学性质较差,实际中应用较少。

(1)简单平均法

对于未分组资料采用简单平均法。其计算公式为:

(2)加权平均法

在资料分组的情况下,应采用加权平均法。其计算公式为:

5.方差(Variance)和标准差(Standard Deviation)

方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此能够准确地反映数据的差异程度。但与平均差的不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用广泛的离中程度度量值。

(1)总体的方差和标准差

①设总体的方差为σ2,标准差为σ,对于未分组整理的原始资料,方差和标准差的计算公式分别为:

②对于分组数据,方差和标准差的计算公式分别为:

(2)样本的方差和标准差

样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(自由度)去除总离差平方和。

设样本的方差为S2,标准差为S,对于未分组整理的原始资料,方差和标准差的计算公式为:

对于分组数据,方差和标准差的计算公式为:

n很大时,样本方差S2与总体方差σ2的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。

6.相对离散程度:离散系数

前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小不仅取决于数值的变异程度,还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先进行无量纲化处理,即将上述反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,再进行对比。离散系数通常用V表示,常用的离散系数为标准差系数。测度了数据的相对离散程度,用于对不同组别数据离散程度进行比较的计算公式为: