2.3 得分高就是好球员吗_生活中的统计学-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

2.3 得分高就是好球员吗

当球员比赛得分的均值相同时，如何判断哪个球员更好？极差、四分位差和平均差的区别是什么？平均差为什么不如方差好用？方差和标准差又有哪些实际应用？变异系数和异众比率又是什么？

2.3.1 用极差、四分位差和平均差衡量球员的水平

一所学校要参加市内的篮球比赛，正式球员已经确定，体育老师还需从两名学生中挑选一名学生作为替补球员。为了选出替补球员，体育老师组织了5局比赛，这两名学生的得分如表2.4所示。

表2.4 两名球员的比赛得分记录

在这5局比赛中，王帅的得分分别是7分、8分、8分、9分、8分，张俊的得分分别是6分、9分、9分、6分、10分。体育老师发现张俊有一次居然得了10分，不过，他同时也发现张俊还得了两次6分。

为了判断出究竟谁比较优秀，体育老师计算了他们的平均得分，发现都是8分；体育老师又看了一下他俩的得分中位数，王帅的得分中位数是8分，张俊的得分中位数是9分。

均值和中位数反映的都是数据的中心，也就是数据的集中程度。王帅和张俊的这两个统计量都十分接近，根据这两个统计量，他俩的水平似乎差不多。

体育老师再次仔细观察了一下表2.4，他注意到王帅的得分集中在7分到9分之间，张俊的得分则分布在6分到10分之间。体育老师知道，一组数据的最高值与最低值之差就是极差。极差较小时，数据比较集中；极差较大时，数据比较分散。

王帅的最高分减去最低分为2，张俊的最高分减去最低分为4。王帅的发挥比较稳定，而张俊则有时得分特别高，有时得分特别低。

除了极差以外，箱线图也能较全面地反映出数据的分布情况。

图2.4是根据王帅和张俊的得分所绘制的箱线图。观察图2.4，王帅的较大四分位数、中位数和较小四分位数均为8分，而张俊的较大四分位数和中位数是9分，较小四分位数则是6分。王帅的得分要比张俊的得分集中得多。

图2.4 两名球员的得分箱线图

较大四分位数与较小四分位数之差称为四分位差。由图2.4可知，王帅的得分四分位差是0，而张俊的得分四分位差则是3，也说明王帅的得分更集中。

极差反映的是一组数据两端的信息，四分位差反映的是一组数据四分位数处的信息。平均差是另一个能够反映数据中全部信息的统计量。平均差是各个数据与其均值的离差绝对值的算术平均数。其计算公式

根据该公式，王帅得分的平均差即为，张俊得分的平均差即为，王帅的得分平均差明显要比张俊的小。

极差、四分位差和平均差都反映了球员得分数据的分散程度，其结果也互相印证，没有自相矛盾的地方。综合考虑这3个统计量，王帅和张俊的平均得分十分接近，但王帅的发挥要比张俊稳定，而张俊的爆发力则比王帅强一些。

根据能力互补的原则，如果正式队员中爆发力较强的球员较多，体育老师就应选择王帅作为替补球员；如果正式队员中能稳定发挥的球员较多，体育老师就应选择张俊作为替补球员。

2.3.2 方差和标准差的关系

除了极差、四分位差和平均差以外，常用于衡量数据离散程度的统计量还有方差和标准差。方差的计算方法是各个数据与其平均数离差平方的平均，其计算公式

根据该公式，王帅的得分方差即为，张俊的得分方差即为＝2.8，王帅的得分方差明显要比张俊的小。

与极差、四分位差和平均差类似，方差越小，就说明数据的集中程度越高。方差与平均差十分类似，但方差的波动性更大，当数据的离散程度较高时，方差将远远大于平均差。

标准差则是方差的平方根，也称均方差。王帅的得分方差是0.4，因此，他的得分标准差大约为0.64；同理，张俊的标准差大约为1.68。标准差与方差都是根据全部数据计算得到的统计量，它们刻画数据离散程度的效果好于极差和四分位差。

观察方差计算公式，当某一个数据接近均值时，对方差的影响比较小；当某一个数据远离均值时，则会引起方差较大的增长。与平均差相比，方差对偏离均值较远的数据更敏感。一组数据的离散程度正是由那些偏离均值较远的数据决定的，因此，在反映数据离散程度时，方差的效果要优于平均差。

此外，平均差只能用于连续的数值型数据，方差和标准差则可用于分类数据、顺序数据。以二分类变量为例，假设其中某一类变量出现的概率是p，另一类变量出现的概率是1－p，该变量的一组数据的方差计算公式即为p×（1－p），标准差计算公式即为。

方差与标准差反映了数据中的全体信息，且其应用范围更广，因此，这两个统计量的普及度要比其他统计量高。在1.3小节中还提到了标准误差，它与标准差是两个不同的概念，标准差反映的是一组数据偏离其均值的波动幅度，而标准误差反映的则是样本与总体之间误差的大小。前者是描述性统计的概念，后者是推断统计的概念。

通常，一组数据应基本散布在一块，有时会出现一两个远远偏离大部分数据的数据点，我们将之称为异常值，一般认为与平均值的偏差超过两倍标准差的数据就是异常值，若一个数据与平均差的偏差超过3倍标准差，则认为它是高度异常的。异常值这一概念仅适用于数值型连续数据。

标准差还可用于进行数据的标准化。数据标准化的公式为xnew＝，其中xnew是标准化后的数据，是该组数据的均值，σ则是该组数据的标准差。

在需要比较两组量纲不同的数据时，数据的标准化是必要的。比如，我们无法将一组满分值为10分的比赛得分与一组满分值为100分的比赛得分直接进行比较，后者的20分并不比前者的5分更优秀。只有将这两组数据进行标准化后，进行比较才是有意义的。

2.3.3 消除了量纲的统计量

在2.3.2小节的结尾，我们解释了量纲不同的数据为什么不能直接进行比较。回想一下方差的计算公式，它也没有消除量纲。如果将张俊的比赛得分换成百分制，将他的5次得分记录为60分、90分、90分、60分、100分，那么他的得分方差就变成了280。

换言之，如果一组数据的量纲特别大，那它的方差就特别大，即便它的数据集中程度很高。因此，只有两组数据的量纲相同时，比较它们的方差才是有意义的。这一结论也同样适用于极差、四分位差、平均差和标准差等统计量。

想要比较两组量纲不同的数据，一种办法是先将这两组数据进行标准化，然后再计算它们的方差；另一种办法是使用一些已经消除了量纲的统计量，比如变异系数和异众比率。

变异系数是根据标准差引申出来的一个统计量，它与标准差一样，其值越大，数据的离散程度就越高。变异系数也叫离散系数，它的计算公式为，其中σ为标准差，为均值。根据这个公式，王帅的得分变异系数即为8%，张俊的得分变异系数即为21%。通过使用标准差与均值做商，变异系数消除了量纲的影响。

变异系数只能用于数值型变量，对于顺序变量和分类变量，可以使用异众比率来衡量其离散程度。变异系数使用均值来消除变量的量纲，但顺序变量和分类变量不能计算均值，因此，异众比率使用众数来消除变量的量纲。

异众比率是非众数的数据个数在数据总个数中所占的比例。

表2.5是一张体育老师记录的篮球队员周末特训出席情况，每次训练，球员可能的出席情况共有4种，分别是“迟到”“早退”“未出席”“正常出席”，它们的次数分别为10次、10次、5次、35次。

表2.5 篮球队员周末特训出席情况

在60次训练里，“正常出席”的次数最多，“正常出席”即为众数。除去“正常出席”外，其他情况的次数一共有25次，那么这组数据的异众比率就是25/60，即42%。显然，异众比率越大，数据的离散程度就越高，众数的代表性就越强。

平均差、标准差和变异系数等关注的是均值的代表性，这些统计量越小，就说明数据越紧密地围绕在均值附近。而异众比率关注的则是众数的代表性。此外，异众比率和变异系数都不受量纲的影响，但异众比率受到类别个数的影响。非数值型变量的类别越多，它的异众比率就会越大。

本周热推：

振荡指标MACD：波段操作精解（升级版）从报表看舞弊：财务报表分析与风险识别基本有用的计量经济学汪博士解读PMP?考试（第6版）计量经济学