2.3 得分高就是好球员吗
当球员比赛得分的均值相同时,如何判断哪个球员更好?极差、四分位差和平均差的区别是什么?平均差为什么不如方差好用?方差和标准差又有哪些实际应用?变异系数和异众比率又是什么?
2.3.1 用极差、四分位差和平均差衡量球员的水平
一所学校要参加市内的篮球比赛,正式球员已经确定,体育老师还需从两名学生中挑选一名学生作为替补球员。为了选出替补球员,体育老师组织了5局比赛,这两名学生的得分如表2.4所示。
表2.4 两名球员的比赛得分记录
在这5局比赛中,王帅的得分分别是7分、8分、8分、9分、8分,张俊的得分分别是6分、9分、9分、6分、10分。体育老师发现张俊有一次居然得了10分,不过,他同时也发现张俊还得了两次6分。
为了判断出究竟谁比较优秀,体育老师计算了他们的平均得分,发现都是8分;体育老师又看了一下他俩的得分中位数,王帅的得分中位数是8分,张俊的得分中位数是9分。
均值和中位数反映的都是数据的中心,也就是数据的集中程度。王帅和张俊的这两个统计量都十分接近,根据这两个统计量,他俩的水平似乎差不多。
体育老师再次仔细观察了一下表2.4,他注意到王帅的得分集中在7分到9分之间,张俊的得分则分布在6分到10分之间。体育老师知道,一组数据的最高值与最低值之差就是极差。极差较小时,数据比较集中;极差较大时,数据比较分散。
王帅的最高分减去最低分为2,张俊的最高分减去最低分为4。王帅的发挥比较稳定,而张俊则有时得分特别高,有时得分特别低。
除了极差以外,箱线图也能较全面地反映出数据的分布情况。
图2.4是根据王帅和张俊的得分所绘制的箱线图。观察图2.4,王帅的较大四分位数、中位数和较小四分位数均为8分,而张俊的较大四分位数和中位数是9分,较小四分位数则是6分。王帅的得分要比张俊的得分集中得多。
图2.4 两名球员的得分箱线图
较大四分位数与较小四分位数之差称为四分位差。由图2.4可知,王帅的得分四分位差是0,而张俊的得分四分位差则是3,也说明王帅的得分更集中。
极差反映的是一组数据两端的信息,四分位差反映的是一组数据四分位数处的信息。平均差是另一个能够反映数据中全部信息的统计量。平均差是各个数据与其均值的离差绝对值的算术平均数。其计算公式
根据该公式,王帅得分的平均差即为,张俊得分的平均差即为,王帅的得分平均差明显要比张俊的小。
极差、四分位差和平均差都反映了球员得分数据的分散程度,其结果也互相印证,没有自相矛盾的地方。综合考虑这3个统计量,王帅和张俊的平均得分十分接近,但王帅的发挥要比张俊稳定,而张俊的爆发力则比王帅强一些。
根据能力互补的原则,如果正式队员中爆发力较强的球员较多,体育老师就应选择王帅作为替补球员;如果正式队员中能稳定发挥的球员较多,体育老师就应选择张俊作为替补球员。
2.3.2 方差和标准差的关系
除了极差、四分位差和平均差以外,常用于衡量数据离散程度的统计量还有方差和标准差。方差的计算方法是各个数据与其平均数离差平方的平均,其计算公式
根据该公式,王帅的得分方差即为,张俊的得分方差即为=2.8,王帅的得分方差明显要比张俊的小。
与极差、四分位差和平均差类似,方差越小,就说明数据的集中程度越高。方差与平均差十分类似,但方差的波动性更大,当数据的离散程度较高时,方差将远远大于平均差。
标准差则是方差的平方根,也称均方差。王帅的得分方差是0.4,因此,他的得分标准差大约为0.64;同理,张俊的标准差大约为1.68。标准差与方差都是根据全部数据计算得到的统计量,它们刻画数据离散程度的效果好于极差和四分位差。
观察方差计算公式,当某一个数据接近均值时,对方差的影响比较小;当某一个数据远离均值时,则会引起方差较大的增长。与平均差相比,方差对偏离均值较远的数据更敏感。一组数据的离散程度正是由那些偏离均值较远的数据决定的,因此,在反映数据离散程度时,方差的效果要优于平均差。
此外,平均差只能用于连续的数值型数据,方差和标准差则可用于分类数据、顺序数据。以二分类变量为例,假设其中某一类变量出现的概率是p,另一类变量出现的概率是1-p,该变量的一组数据的方差计算公式即为p×(1-p),标准差计算公式即为。
方差与标准差反映了数据中的全体信息,且其应用范围更广,因此,这两个统计量的普及度要比其他统计量高。在1.3小节中还提到了标准误差,它与标准差是两个不同的概念,标准差反映的是一组数据偏离其均值的波动幅度,而标准误差反映的则是样本与总体之间误差的大小。前者是描述性统计的概念,后者是推断统计的概念。
通常,一组数据应基本散布在一块,有时会出现一两个远远偏离大部分数据的数据点,我们将之称为异常值,一般认为与平均值的偏差超过两倍标准差的数据就是异常值,若一个数据与平均差的偏差超过3倍标准差,则认为它是高度异常的。异常值这一概念仅适用于数值型连续数据。
标准差还可用于进行数据的标准化。数据标准化的公式为xnew=,其中xnew是标准化后的数据,是该组数据的均值,σ则是该组数据的标准差。
在需要比较两组量纲不同的数据时,数据的标准化是必要的。比如,我们无法将一组满分值为10分的比赛得分与一组满分值为100分的比赛得分直接进行比较,后者的20分并不比前者的5分更优秀。只有将这两组数据进行标准化后,进行比较才是有意义的。
2.3.3 消除了量纲的统计量
在2.3.2小节的结尾,我们解释了量纲不同的数据为什么不能直接进行比较。回想一下方差的计算公式,它也没有消除量纲。如果将张俊的比赛得分换成百分制,将他的5次得分记录为60分、90分、90分、60分、100分,那么他的得分方差就变成了280。
换言之,如果一组数据的量纲特别大,那它的方差就特别大,即便它的数据集中程度很高。因此,只有两组数据的量纲相同时,比较它们的方差才是有意义的。这一结论也同样适用于极差、四分位差、平均差和标准差等统计量。
想要比较两组量纲不同的数据,一种办法是先将这两组数据进行标准化,然后再计算它们的方差;另一种办法是使用一些已经消除了量纲的统计量,比如变异系数和异众比率。
变异系数是根据标准差引申出来的一个统计量,它与标准差一样,其值越大,数据的离散程度就越高。变异系数也叫离散系数,它的计算公式为,其中σ为标准差,为均值。根据这个公式,王帅的得分变异系数即为8%,张俊的得分变异系数即为21%。通过使用标准差与均值做商,变异系数消除了量纲的影响。
变异系数只能用于数值型变量,对于顺序变量和分类变量,可以使用异众比率来衡量其离散程度。变异系数使用均值来消除变量的量纲,但顺序变量和分类变量不能计算均值,因此,异众比率使用众数来消除变量的量纲。
异众比率是非众数的数据个数在数据总个数中所占的比例。
表2.5是一张体育老师记录的篮球队员周末特训出席情况,每次训练,球员可能的出席情况共有4种,分别是“迟到”“早退”“未出席”“正常出席”,它们的次数分别为10次、10次、5次、35次。
表2.5 篮球队员周末特训出席情况
在60次训练里,“正常出席”的次数最多,“正常出席”即为众数。除去“正常出席”外,其他情况的次数一共有25次,那么这组数据的异众比率就是25/60,即42%。显然,异众比率越大,数据的离散程度就越高,众数的代表性就越强。
平均差、标准差和变异系数等关注的是均值的代表性,这些统计量越小,就说明数据越紧密地围绕在均值附近。而异众比率关注的则是众数的代表性。此外,异众比率和变异系数都不受量纲的影响,但异众比率受到类别个数的影响。非数值型变量的类别越多,它的异众比率就会越大。