2.1.1 数据分布特征集中趋势的测定_Python大数据分析算法与实例-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

2.1.1　数据分布特征集中趋势的测定

集中趋势是指一组数据向某中心值靠拢的倾向，集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值，低层次数据的集中趋势测度值适用于高层次的测量数据；反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据。选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定。

通常用平均指标作为集中趋势测度指标。本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数3个数值型平均数。

1．众数

众数是指一组数据中出现次数最多的变量值，用M₀表示。从变量分布的角度看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的变量值即为众数。当然，如果数据的分布没有明显的集中趋势或最高峰点，众数就可以不存在；如果有多个高峰点，就有多个众数。

（1）定类数据和定序数据众数的测定

在使用定类数据与定序数据计算众数时，只需找出出现次数最多的组所对应的变量值即可。

（2）未分组数据或单变量值分组数据众数的确定

在使用未分组数据或单变量值分组数据计算众数时，只需找出出现次数最多的变量值即可。

（3）组距分组数据众数的确定

对于组距分组数据来说，众数的数值与其相邻两组的频数分布有一定的关系，这种关系可作如下理解：

设众数组的频数为f_m，众数前一组的频数为f_-1，众数后一组的频数为f₊₁。当众数相邻两组的频数相等时，即f_-1=f₊₁，众数组的组中值即为众数；当众数组的前一组的频数多于众数组后一组的频数时，即f_-1＞f₊₁，众数会向其前一组靠，众数小于其组中值；当众数组后一组的频数多于众数组前一组的频数时，即f_-1＜f₊₁，众数会向其后一组靠，众数大于其组中值。基于这种思路，借助几何图形而导出的分组数据众数的计算公式如下：

其中，L表示众数所在组的下限，U表示众数所在组的上限，i表示众数所在组的组距，f_m为众数组的频数，f_-1为众数组前一组的频数，f₊₁为众数组后一组的频数。

上述下限和上限公式是假定数据分布具有明显的集中趋势，且众数组的频数在该组内是均匀分布的，若这些假定不成立，则众数的代表性会很差。从众数的计算公式可以看出，众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的，因此众数是一个位置代表值，它不受数据中极端值的影响。

2．中位数

中位数是将总体各单位标志值按大小顺序排列后，处于中间位置的那个数值。各变量值与中位数的离差绝对值之和最小，即：

（1）定序数据中位数的确定

定序数据中位数确定的关键是确定中间位置，中间位置所对应的变量值即为中位数。

①未分组原始资料中间位置的确定

②分组数据中间位置的确定

（2）数值型数据中位数的确定

①未分组资料

首先必须将标志值按大小排序。设排序的结果为：，则：

②单变量分组资料

③组距分组资料

根据位置公式确定中位数所在的组，假定在中位数组内的各单位是均匀分布的，则可利用下面的公式计算中位数的近似值：

其中，s_m_-1是到中位数组前面一组为止的向上累计频数，则是到中位数组后面一组为止的向下累计频数，f_m为中位数组的频数，i为中位数组的组距。

3．算术平均数

算术平均数（Arithmetic Mean）也称为均值（Mean），是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。算术平均数在统计学中具有重要的地位，是集中趋势的主要测度值，通常用表示。根据所掌握数据形式的不同，算术平均数有简单算术平均数和加权算术平均数。

（1）简单算术平均数（Simple Arithmetic Mean）

未经分组整理的原始数据，其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设总体数据为X₁, X₂, …, X_n，样本数据为x₁, x₂, …, x_n，则统计总体均值和样本均值的计算公式为：

（2）加权算术平均数（Weighted Arithmetic Mean）

根据分组整理的数据计算的算术平均数，就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据（总体或样本数据）被分成K或k组，各组的变量值为X₁, X₂, …,X_K，或x₁, x₂, …, x_k，各组变量值的次数或频数分别为F₁, F_2, …, F_K，或f₁, f₂, …, f_k，则总体或样本的加权算术平均数为：

公式（2.9）中是用各组的组中值代表各组的实际数据，使用代表值时是假定各组数据在各组中是均匀分布的，但实际情况与这一假定会有一定的偏差，使得利用分组资料计算的平均数与实际平均值会产生误差，它是实际平均值的近似值。

加权算术平均数其数值的大小不仅受各组变量值x_i大小的影响，而且受各组变量值出现的频数（权数f_i）大小的影响。如果某一组的权数大，说明该组的数据较多，那么该组数据的大小对算术平均数的影响就越大，反之，则越小。实际上，我们将上式变形为下面公式（2.10）的形式，就能更清楚地看出这一点。

由上式可以清楚地看出，加权算术平均数受各组变量值（x_i）和各组权数（频率f_i/∑f_i）大小的影响。频率越大，相应的变量值计入平均数的份额也越大，对平均数的影响就越大；反之，频率越小，相应的变量值计入平均数的份额也越小，对平均数的影响就越小。这就是权数权衡轻重作用的实质。

算术平均数在统计学中具有重要的地位，它是进行统计分析和统计推断的基础。从统计思想上看，算术平均数是一组数据的重心所在，它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性结果。

算术平均数具有下面一些重要的数学性质，这些数学性质在实际中有着广泛的应用，同时也体现了算术平均数的统计思想。

（1）各变量值与其算术平均数的离差之和等于零，即：

（2）各变量值与其算术平均数的离差平方和最小，即：

4．调和平均数（Harmonic Mean）

在实际工作中，经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况，这时就要用调和平均数法计算平均指标。调和平均数是各个变量值倒数的算术平均数的倒数，习惯上用H表示。计算公式如下：

调和平均数和算术平均数在本质上是一致的，唯一的区别是计算时使用了不同的数据。在实际应用时可掌握这样的原则：当计算算术平均数其分子资料未知时，就采用加权算术平均数计算平均数；当分母资料未知时，就采用加权调和平均数计算平均数。

5．几何平均数（Geometric Mean）

几何平均数是适应于特殊数据的一种平均数，在实际生活中，通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式，而且各比率的乘积等于总的比率时，就应采用几何平均法计算平均比率。

也可以看作算术平均数的一种变形：

6．众数、中位数与算术平均数的关系

算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下：

（1）当数据具有单一众数且频数分布对称时，算术平均数与众数、中位数三者完全相等，即。

（2）当频数分布呈现右偏态时，说明数据存在最大值，必然拉动算术平均数向极大值一方靠，则三者之间的关系为。

（3）当频数分布呈现左偏态时，说明数据存在最小值，必然拉动算术平均数向极小值一方靠，而众数和中位数由于是位置平均数，不受极值的影响，因此三者之间的关系为＜M₀。

当频数分布出现偏态时，极端值对算术平均数产生很大的影响，而对众数、中位数没有影响，此时用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。算术平均数与众数、中位数从数值上的关系看，当频数分布的偏斜程度不是很大时，无论是左偏还是右偏，众数与中位数的距离约为算术平均数与中位数的距离的两倍，即：