第4章 数据的概括性度量
4.1 知识要点总结
一、集中趋势的度量
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
1.分类数据:众数
众数是一组数据中出现次数最多的变量值,用Mo表示。
众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
2.顺序数据:中位数和分位数
(1)中位数
①概念
中位数是一组数据排序后处于中间位置上的变量值,用Me表示。
中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。
②中位数的确定
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,最后确定中位数的具体数值。
设一组数据为x1,x2,…,xn,从小到大的顺序排序后为x(1),x(2),…,x(n),则中位数为:
③中位数的特点
中位数是一个位置代表值,其特点是不受极端值的影响。
(2)四分位数
①概念
四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。
四分位数是一组数据排序后处于25%和75%位置上的值。通常处在25%位置上的数值称为下四分位数,处在75%位置上的数值称为上四分位数。
②四分位数的计算
根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
设下四分位数为QL,上四分位数为QU ,根据四分位数的定义有:
注意:如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果是在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
【说明】有的教材四分位数的计算公式表示为:
3.数值型数据:平均数
平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
(1)简单平均数与加权平均数
①简单平均数:根据未经分组数据计算的平均数。
设一组样本数据为x1,x2,…,xn,样本量(样本数据的个数)为n,则简单样本平均数记为,计算公式为:
②加权平均数:根据分组数据计算的平均数。
设原始数据被分成k组,各组的组中值分别用M1,M2,…,Mk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,则样本加权平均数的计算公式为:
(2)一种特殊的平均数:几何平均数
①计算公式
几何平均数是n个变量值乘积的n次方根,用G表示。计算公式为:
②适用范围
几何平均数主要用于计算比率的平均。当所研究的变量值是比率的形式时,采用几何平均法计算平均比率更为合理。在实际应用中,几何平均数主要用于计算现象的平均增长率。
4.众数、中位数和平均数的比较
众数、中位数和平均数是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。
(1)众数、中位数和平均数的关系
从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。
对于具有单峰分布(仅有一个众数)的大多数数据而言,众数、中位数和平均数之间具有以下关系:
①如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数()必定相等,即,如图4-1(a)所示;
②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:,如图4-1(b)所示;
③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则,如图4-1(c)所示。
图4-1 不同分布的众数、中位数和平均数
(2)众数、中位数和平均数的特点与应用场合
①众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能只有一个众数,可能有两个或多个众数,也可能没有众数。
众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。
②中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
中位数主要适合作为顺序数据的集中趋势测度值。
③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。
当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。
二、离散程度的度量
1.分类数据:异众比率
异众比率:指非众数组的频数占总频数的比例,用Vr表示。其计算公式为:
式中,∑fi为变量值的总频数;fm为众数组的频数。
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;反之则说明众数的代表性越好。
异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
2.顺序数据:四分位差
四分位差(内距或四分间距):是上四分位数与下四分位数之差,用Qd表示。其计算公式为:Qd=QU-QL。
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
四分位差不受极值的影响,其主要用于测度顺序数据的离散程度;对于数值型数据也可以计算四分位差,但它不适合用于分类数据。
3.数值型数据:极差、平均差、方差和标准差
(1)极差
一组数据的最大值与最小值之差称为极差,也称全距,用R表示。其计算公式为:R=max(xi)-min(xi)
由于极差只是利用了一组数据两端的信息,因此容易受极端值的影响,并且它不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
(2)平均差
平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数,用Md表示。
①根据未分组数据计算平均差的公式为:
②根据分组数据计算平均差的公式为:
平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。
(3)方差和标准差
①方差:各变量值与其平均数离差平方的平均数。
样本方差:样本数据个数减1后除离差平方和。其中样本数据个数减1,即n-1称为自由度。
设样本方差为s2,根据未分组数据和分组数据计算样本方差的公式分别为:
②标准差:方差的平方根。
标准差的计算公式分别为:
(4)相对位置的度量
有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。
①标准分数
变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。设标准分数为z,则有。
标准分数给出了一组数据中各数值的相对位置;其具有平均数为0、标准差为1的特性。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据的平均数变为0,标准差变为1。
②经验法则
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±1个标准差的范围之内;
约有95%的数据在平均数±2个标准差的范围之内;
约有99%的数据在平均数±3个标准差的范围之内。
在3个标准差之外的数据,在统计上称为离群点。
③切比雪夫不等式
如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用。
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。对于k=2,3,4,该不等式的含义是:
至少有75%的数据落在平均数±2个标准差的范围之内;
至少有89%的数据落在平均数±3个标准差的范围之内;
至少有94%的数据落在平均数±4个标准差的范围之内。
4.相对离散程度:离散系数
离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:
方差和标准差是反映数据分散程度的绝对值;离散系数是测度数据离散程度的相对统计量,其作用主要是比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
三、偏态与峰态的度量
1.偏态及其测度
偏态系数:是测度数据分布偏态的统计量,记作SK。
(1)根据未分组的原始数据计算偏态系数的公式为:
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是非对称的。若偏态系数大于1或小于-1,被称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。
(2)根据分组数据计算偏态系数的公式为:
当分布对称时,离差三次方后正负离差可以相互抵消,因而SK的分子等于0,则SK=0;当分布不对称时,正负离差不能抵消,就形成了正或负的偏态系数SK。当SK为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差值较大,可判断为负偏或左偏。SK的数值越大,表示偏斜的程度就越大。
2.峰态及其测度
峰态系数:是测度数据分布峰态的统计量,记作K。
如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。
(1)根据未分组数据计算峰态系数的公式为:
(2)根据分组数据计算峰态系数是用离差四次方的平均数,再除以标准差的四次方,其计算公式为:
常用峰态系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰态系数进行比较而言的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,说明数据的分布更集中;当K<0时为扁平分布,说明数据的分布越分散。