第3章 集中量数
3.1 复习笔记
本章重点
ü 各种集中量数的概念和性质
ü 各种集中量数的计算方法
ü 各种集中量数的具体应用
集中趋势(ceiltral tendency)与离中趋势是次数分布的两个基本特征。数据的集中趋势就是指数据分布中大量数据向某方向集中的程度,离中趋势是指数据分布中数据彼此分散的程度。用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。这两种量数一起共同描述或反映一组数据的全貌及其各种统计特征。
对一组数据集中趋势的度量,就是确定描述一组数据这种特点的代表性的统计量。用于描述数据集中程度的统计量,即集中量数(measures oftentral tendency)有多种,包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。
一、算术平均数
算术平均数(arithmetic average),一般简称为平均数(average)或均数、均值(mean),是全组数据的重心。只有在与其他几种平均数,如几何平均数、调和平均数、加权平均数相区别的时候,才把它称为算术平均数。平均数一般用字母M表示。如果平均数是由X变量计算的,就记为(读作X杠或X拔),若由Y变量求得,则记为。
(一)平均数的计算方法
1.未分组数据计算平均数的方法
当一组数据未进行统计分类时,若想描述其典型情况,找出其代表值,可计算算术平均数,公式为:
(公式3.1)
式中,表示原始分数的总和,N表示分数的个数。
2.用估计平均数计算平均数
当数据的数目以及每个观测数据值(即数字)都很大时,可以利用估计平均数(an estimated mean)简化计算。具体方法是先设定一个估计平均数,用符号AM表示,从每一个数据中减去AM,使数值变小,容易计算。最后再在计算结果中加上这个估计平均数。计算公式如下:
(公式3.2)
式中,,AM为估计平均数,N为数据个数。
3.根据次数分布表计算平均数
根据次数分布表计算平均数,需要使用各分组区间的组中值来代表落入该区间的各个原始数据,并假设散布在各区间内的数据围绕着该区间的组中值均匀分布。基于这一假设,根据计算平均数的基本公式,推演出计算分组数据平均数的公式如下:
公式中:为各分组区间的组中值,f为各组次数,∑f为数据的总次数(等于N)。各组的频数可视为各组组中值的权重,因而被称为平均数的加权公式。
用这个公式计算分组数据的平均数时,数字往往很大,比较麻烦。如果将每一区间的组中值减去一估计平均数(一般选次数较多或位于分布表中间的分组区间的组中值),然后再将差数除以组距i,便可以使计算的数字大大缩小,最后再总的乘以i,恢复数值,计算过程会简便许多。可写作:
公式中:AM为估计平均数,i为组距,称为组差数。应用此公式计算分组数据的平均数时,切勿忘记“乘以i”这一步。公式中d的计算方法是:将AM所在区间的d记为0,然后向大数端区间依次写作1,2,3,…,向小数端区间依次写作-1,-2,-3,…即可。
需要指出的是,用原始数据及根据次数分布表计算的平均数,二者在数值上有少许差异,这是由于用次数分布表计算平均数时,先假设落入各区间内的数据均匀分布在组中值上下,而实际情况不一定是这样,这是由所造成的归组效应引起的。
(二)平均数的特点
1.在一组数据中每个变量与平均数之差(称为离均差)的总和等于0。
2.在一组数据中,每一个数都加上或减去常数C,则所得的平均数为原来的平均数加上或减去常数C,即
估计平均数的公式就是根据这一特点建立的。
3.在一组数据中,每一个数都乘以一个常数C所得的平均数为原来的平均数乘以常数c,即
4.变量值的总和等于平均数的n倍,即
5.各变量值与平均数之差(离差)的平方和最小,即设为非的任意值,则
(三)平均数的意义
算术平均数是应用最普遍的一种集中量数。它是“真值”(true score)渐近、最佳的估计值。当观测次数无限增加时,算术平均数趋近于真值。
(四)平均数的优缺点
1.算术平均数的优点
算术平均数具备一个良好的集中量数应具备的一些条件:
(1)反应灵敏。观测数据中任何一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反应出来。
(2)计算严密。计算平均数有确定的公式,不管何人在何种场合,只要是同一组观测数据,计算的平均数都相同。
(3)计算简单。计算过程只是应用简单的四则运算。
(4)简明易解。平均数概念简单明了,较少数学抽象容易理解。
(5)适合于进一步用代数方法演算。在求解其他统计特征值,如离均差、方差、标准差的计算时,都要应用平均数。
(6)较少受抽样变动的影响。观测样本的大小或个体的变化,对计算平均数影响很小。在来自同一总体逐个样本的集中量数中,平均数的波动通常小于其他量数的波动,因此它总是最可靠、最正确的量数。
2.算术平均数的缺点
(1)易受极端数据的影响。
由于平均数反应灵敏,因此当数据分布呈偏态时,受极值(extreme value score)的影响,平均数就不能恰当地描述分布的真实情况。出现这类问题时,可以使用修剪平均数来解决。修剪平均数(trimmed mean)也称截尾平均数,是从一组数据中去除一定百分比(如5%)的最大值和最小值数据后,再次计算的算术平均值。
(2)若出现模糊不清的数据时,无法计算平均数。
因为计算平均数时需要每一个数据都加入计算。在次数分布中只要有一个数据含糊不清,都无法计算平均数。在这种情况下,一般采用中数作为该组数据的代表值,描述其集中趋势。
(五)计算和应用平均数的原则
平均数能够反映总体的综合特征。但由平均数的性质可知,在统计中,科学地计算和运用平均数只有严格遵循以下原则时,才能正确发挥它的作用。
1.同质性原则
作为统计分析的重要手段,平均数只有在总体是由同类数据所组成且有足够多的数据单位时,才具有科学价值和认识意义。不同质的数据不能计算平均数。同质数据是指使用同一个观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据。
2.平均数与个体数值相结合的原则
平均数作为整个总体的综合特征,它能够用一个抽象的代表数值反映客观事物的一般水平。但一个总体是由若干个千差万别的个别事物构成的,若要全面而正确地认识这些客观事物,仅仅靠平均数是不够的。就整个总体来说,差别会相互抵消,它往往会淹没个体之间的差异,但就个体说却不是这样。如果过分看重平均数,就可能造成损失。因此,在运用平均数作统计分析时,切不要忘记结合个体数值予以参考。
3.平均数与标准差、方差相结合原则
平均数和标准差是用来描述数据总体特征的一对相互联系的统计指标。平均数表现反映的是总体数据的集中趋势。但平均数对于总体数据一般水平的代表性如何,要看各个数值之间差异的大小。数据差异大,平均数的代表性就小;差异小,平均数的代表性就大,当差异为零时,平均数就具有完全代表性。各个数值之间差异大小是通过标准差和方差来描述的。标准差和方差反映总体的离中趋势,标准差越大,平均数的代表性就越小;反之,平均数的代表性就越大。
二、中数与众数
(一)中数
1.概念
中数(median),又称中点数,中位数,中值,符号为Md或Mdn。中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。这个数可能是数据中的某一个,也可能根本不是原有的数。如果将数据依大小顺序排列,中数恰好位于中间,它将数据的数目分成较大的一半和较小的一半。中数是集中量数的一种,它能描述一组数据的典型情况,心理与教育研究工作中经常应用它。
2.中数的计算方法
中数的求法根据数据是否分组,有不同的方法。
(1)未分组数据求中数的方法
根据中数的概念,首先将数据依其取值大小排序,然后找出位于中间的那个数,就是中数。此时又分几种情况:
①一组数据中无重复数值的情况
指一组数据中没有相同的数,这时取处于序列中间位置的那个数为中数。此时又可分为两种情况:
a.数据个数为奇数,则中数为位置的那个数。如数据2、3、5的中数为3。
b.数据个数为偶数,则中数为居于中间位置两个数的平均数,即第与第位置的两个数据相加除以2。如数据2、3、4、5的中数为(3+4)/2=3.5。
②一组数据中有重复数值的情况
指一组数据中有相同数值的数据,这时计算中数的方法基本与无重复数值的单列数据相同。但根据重复数值数据在该组数据中所处的位置又细分为几种情况。当位于中间的那几个数是重复数值时,求中数的方法就比较复杂了。
a.当重复数值没有位于数列中间时,求中数的方法与无重复数值时求中数的方法相同。如:数据1、1、2、3、4的中数为位置上的2。
b.当重复数值位于数列中间,且左右权重相同时,求中数的方法与无重复数值时相同。如:数据1、4、4、5。重复数值4位于数列中间,且左右权重相同即左右均为1个4。则其求中数方法与无重复数值时相同,为(4+4)/2=4。
又如:数据1、4、4、4、5。重复数据4位于数列中间,且左右权重相同即左右均为1.5个4。则其求中数的方法与无重复数值时相同,为位置上的4。
不难发现当重复数值为于数列中间,且左右权重相同时,该数列的中数即为重复数据本身。
c.当重复数值位于数列中间,但左右权重不同时,求中数的方法与无重复数值相同,只是实际参加运算的数值是重复数据的精确上下限。需要将中间的重复数值看作一个连续体,数据个数为奇数和偶数时稍有不同。
如:数据4、4、5。重复数据位于数列中间,但左右权重不同,左边1.5个4,右边0.5个4。
本组数据为奇数个,所以中数应为位置上的第二个4的值。4的精确上下限为3.5~4.5,则每个4所占区间为1/2=0.5,第一个4的精确上下限为3.5~4,第二个4的精确上下限为4~4.5。所以第二个4的值为(4+4.5)/2=4.25,即本组数列的中数为4.25。
又如:数据4、4、4、5。重复数据位于数列中间,但左右权重不同,左边2个4右边1个4。
本组数据为偶数个,所以中数应为第与第位置的第二个4与第三个4两个数据相加除以2。4的精确上下限为3.5~4.5,则每个4所占区间为1/3=0.33,第一个4的精确上下限为3.5~3.83,第二个4的精确上下限为3.83~4.17,第二个4的值为(3.83+4.17)/2=4,第三个4的精确上下限为4.17~4.5第三个4的值为(4.17+4.5)/2=4.33。本组数据的中数为:(4+4.33)/2=4.17,恰为第二个4的下限即第三个4的上限。
(2)分组数据求中数的方法
当原始数据整理成次数分布表后,求中数的原理同根据重复数列求中数的原理一样,也是取序列中将N平分为两半的那一点的值作为中数。设有fMd(中数所在那一分组区间的数据个数)个数据均匀地落在距离为i的区间内,那么每个数据各占,那么至这一段距离为再加上该区间的精确下限值,就得到了中数值,见公式3.3a。
(公式3.3a)
公式3.3a中,Lb为中数所在分组区间的精确下限,Fb为该组以下各组次数的累加次数,i为组距。同理,也可用该区间的上限值减去至这一段距离计算中数值,公式如下:
(公式3.3b)
公式3.3b中,La为中数所在分组区间的精确上限,Fa为该组以上各组次数的累加次数,i为组距。另外,也可用累加曲线求出中位数。
(3)应用累积百分位插值法求中数
应用累积百分位插值法求中数,既可以用于未分组数据也可以用于分组数据。其基本原理是:找到中位数所在数据(或组)利用其精确上下限所对应的百分位,用插值法求50%即中位数的值。
如:上面的数据4、4、4、5。4的下限为3.5其对应的百分位为0,4的上限为4.5其对应的百分位为75,设该组数据中位数为X,则有:
解得X=4.17。
对于分组数据求中位数,计算方法一样只是组的精确上下限。
3.中数的优缺点与应用
(1)优点
计算简单、容易理解、概念简单明白。
(2)缺点
①中数的计算不是每个数据都加入,其大小不受制于全体数据;
②反应不够灵敏,极端值的变化对中数不产生影响;中数受抽样影响较大,不如平均数稳定;
③计算时需要对数据先排列大小;
④中数乘以总数与数据的总和不相等(中数等于平均数时例外);中数不能作进一步代数运算等。
(3)中数的应用
①当一组观测结果中出现极端数目时。这种情况在心理与教育科研实验中常常出现,因为心理与教育实验中的偶然因素非常复杂,有时实验中为了平衡各种误差,经常是同一种观测要在同一个被试身上反复进行多次,而只取某一个代表值作为对该被试的观测结果。这时若出现极端的数目,又不能确定这些极端数目是否由错误观测造成,因而不能随意舍去,在这种情况下,只能用中数作为该被试的代表值,这样做,并不影响进一步的统计分析。因为中数不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。
②当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。在心理与教育实验中,经常会出现个别被试不能坚持继续进行实验这一现象,有时只知个别被试的观测结果是在分布的哪一端,但具体数值不清楚,这种情况下就只能取中数,而不能计算平均数。
③当需要快速估计一组数据的代表值时,也常用中数。
(二)众数
1.众数的概念
众数(mode),又称为范数,密集数,通常数等,常用符号Mo表示。众数是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数,也可用来代表一组数据的集中趋势。
2.计算众数的方法
(1)直接观察求众数
不论是分组的数据还是未分组的数据,都可用观察法求众数。直接观察求众数的方法很简单,就是只凭观察找出出现次数最多的那个数据就是众数。
数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。依据次数分组表计算众数受分组的影响。因为,同一组数据,由于分组时组距大小不同,各区间的上下限也可能不一致,在次数分布表内,次数分布最多那一组的组中值可能不同,故众数也可能不同。
(2)用公式求众数
用公式计算的众数称为数理众数。当次数分布曲线的形式已知时,可用积分的方法求众数。这种方法较复杂,一般在心理与教育统计中很少应用,而应用较多的是皮尔逊经验法和金氏(W·I·King)插补法。
①皮尔逊经验法
皮尔逊研究了平均数、中数、众数之间的关系,发现三者之间的经验关系为:M与M。的距离,占M与Mo与之间的三分之一,而Md与Mo占三分之二,即:
由上式可导出:。
用皮尔逊经验法这个公式计算的众数,只能作为一个近似值,它不受次数分布的影响,也只能在分布接近正态的情况下应用。
②金氏插补法
式中:Lb为含众数这一区间的精确下限;fa为高于众数所在组一个组距那一分组区间的次数;fb为低于众数所在组一个组距那一分组区间的次数;i为组距。
若fa=fb,则,即次数最多那一组区间的中值。
金氏插补法适合次数分布比较偏斜的情况,比较接近正态的分布也适用。
用这两种方法对同一组数据计算求得的众数一般略有出入。
3.众数的意义与应用
(1)优点
①众数的概念简单明了,容易理解,但它不稳定,受分组影响,亦受样本变动影响;
②计算时不需每一个数据都加入,因而较少受极端数目的影响。
(2)缺点
①反应不够灵敏;
②用观察法得到的众数,不是经过严格计算而来,用公式计算所得众数亦只是一个估计值;
③众数不能作进一步代数运算;
④总数乘以众数,与数据的总和不相等;
⑤不稳定,受分组和样本变动的影响。
(3)众数的应用
①当需要快速而粗略地寻求一组数现代心理与教育统计学据的代表值时;
②当一组数据出现不同质的情况时,可用众数表示典型情况,如工资收入、学生成绩等常以次数最多者为代表值;
③当次数分布中有两极端的数目时,除了一般用中数外,有时也用众数;
④当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。另外,当一组数据中同时有两个数值的次数都比较多时,即次数分布中出现双众数(bimodal)时,也多用众数来表示数据分布形态。
(三)平均数、中数与众数三者之间的关系
1.在一个正态分布中,平均数、中数、众数三者相等,因此,在数轴上三个集中量完全重合,在描述这种次数分布时,只需报告平均数即行。
2.在正偏态分布中M>Md>M。,在负偏态分布中M<Md<M。,见图3-1:
图3-1 偏态分布中三个集中量的关系图示
3.在偏态分布中,平均数永远位于尾端。中数位于把分布下的面积分成两等份的点值上。它在一边的数据个数等于在它另一边的数据个数。因此,在描述偏态分布时,应报告平均数与中数。一般偏态情况下,M。离平均数较近、而距众数较远。皮尔逊的研究发现,它们三者之间存在着这样的经验关系:M。=3Md-2M。在偏态不大的情况下,三个数有任何一个未知,都可以通过以上的公式计算出来。而且,根据上面公式可以判断一个分布是否接近正态分布。
4.在一组数据分布中,只有平均数乘以数据总个数与各数据的总和相等;只有平均数与各数据之差(离均差)的总和为零,中数、众数都不能满足这一点。也只有各个变量与平均数之差的平方和为最小,即每个数据与任一常数包括中数或众数之差的平方和都大于每个数据与平均数之差的平方和,这就是平均数的“最小平方”原理。这一点也决定了平均数是较M。与Md都应用广泛的一个集中量数。
5.平均数、众数、中数作为集中量数,各自描述的典型情况不同。图3-2中描述的是2、3、5、6、7、10、10、14、15一列数据的三种集中量的情况,图中每一个方格代表一个相同单位的数据。
图3-2 平均数、中数、众数关系示意图
平均数为一个平衡点(balancing-point),是一组数据的重心(center of gravity)。它使数轴保持平衡,即支点两侧的力矩是相等的。众数是指次数出现最多,即重量较大的那个数据。
6.在选用集中量数时,平均数是首选,它考虑了分布中的每一个数据,与分布的变异性有关系。在分布中有少数极端值(有长尾的偏态分布)、有未确定的值、模糊数据、所考察分布是开放性的或数据是顺序量表的情况应用中数。对于命名型量表无法计算均值和中数, 只能用众数作集中量数。
三、其他集中量数
除了算术平均数之外,还有几种平均数对于测量一组数据的集中趋势也很有用,这些统计指标有加权平均数、几何平均数、调和平均数。
(一)加权平均数
有些测量中所得的数据,其单位权重(weight)并不相等。这时若要计算平均数,就不能用算术平均数,而应该使用加权平均数(weighted mean)。计算公式如下:
(公式3.4)
公式中Wi为权数。权数,是指各变量在构成总体中的相对重要性。每个变量的权数大小,由观测者依据一定的理论或实践经验而定。
由各小组平均数计算总平均数是应用加权平均数的一个特例。在心理与教育研究中,经常会遇到由各个平均数计算总平均数这类问题。根据加权平均数的公式,由各小组的平均数计算总平均数的公式是:
(公式3.5)
(二)几何平均数
1.计算公式
几何平均数(geometric mean),记作Mg(或用GM),计算的基本公式如下:
(公式3.6a)
式中,N为数据个数,Xi为数据(变量)值。
使用公式3.6a计算几何平均数时,要开多次方,难于进行。因此,在计算时常用取对数的方法,因而,几何平均数有时又称对数平均数。对数计算公式如下:
(公式3.6b)
2.几何平均数的应用
在心理和教育科学研究的数据处理过程中,应用几何平均数表示集中趋势,有两种情形:
(1)直接应用基本公式计算几何平均数
一组实验数据中有少数数据偏大或偏小,数据的分布呈偏态。这时若计算算术平均数也会出现偏大或偏小,平均数就不能很好地反映一组数据的典型情况。而用几何平均数表示集中趋势,就比算术平均数优越。在心理与教育实验中,有部分数据变异较大的情况经常出现,这种场合除应用中数或众数外,时常应用几何平均数。而在心理物理学的等距与等比量表实验中,只能用几何平均数。
(2)应用几何平均数的变式计算
一组数据彼此间变异较大,几乎是按一定的比例关系变化。如教育经费的逐年增加数,学习、阅读的进步数,以及学生人数的增加数等等。在这类研究中,一般不求平均数,而是求平均增长率,如教育经费的平均年增长率,学校人数的年增长率,学习的平均进步率,阅读速度的平均增加率等等。这时都要用几何平均数计算平均比率,而不用算术平均数计算。
具体有:
①习方面的进步率。
(公式3.6c)
(公式3.6d)
②学生或人口增加率的估计。
③教育经费增加率。
(三)调和平均数
1.计算公式
调和平均数(harmonic mean),用符号MH表示。因在计算中先将各个数据取倒数平均,然后再取倒数,故又称倒数平均数。计算公式是:
(公式3.7)
式中,N为数据个数,Xi为变量值。
2.调和平均数的应用
在心理与教育研究方面的应用,主要是用来描述学习速度方面的问题。调和平均数作为一种集中量数,在描述速度方面的集中趋势时,优于其他集中量数。
在有关研究学习速度的实验设计中,反应指标一般常取两种形式:一是工作量固定,记录各被试完成相同工作所用的时间。二是学习时间一定,记录一定时间内各被试完成的工作量。由于反应指标不同,在计算学习速度时也不一样,这是应用调和平均数要特别注意的地方。
学习任务量相同而所用时间不等。这时先要求出单位时间的工作量,并以它为Xi代入公式3.7中计算,所得结果就是欲求的平均学习速度。
也可根据速度概念来求解。先求出单位工作所用的时间,即学会一个字所用的时间,平均后再求单位时间的工作量,就是所求的速度。计算结果与用调和平均数计算的结果相同。在解决速度类问题中,经常会使用下面这两个公式: