2020年统计学考研真题(含复试)与典型题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 考研真题与典型题详解

一、单项选择题

1.以下反映集中趋势的测度指标中,易受极端值影响的是(  )。[中央财经大学2016研]

A.均值

B.中位数

C.众数

D.中位数和众数

【答案】A

【解析】众数、中位数和平均数都是用来度量数据的集中趋势的数值。众数是一组数据中出现次数最多的变量值,中位数是一组数据排序后处于中间位置上的变量值,二者都不受极端值影响。而均值是由一组数据相加后除以数据个数所得的结果,易受极端值影响。

2.调查了一个企业10名员工上个月的缺勤天数,有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。则以下说法正确的是(  )。[中央财经大学2016研]

A.中位数为2

B.中位数为2.5

C.中位数为4

D.众数为4

【答案】B

【解析】将题目中的数据从小到大排列得到:0 0 0 2 2 3 3 3 3 4。因为样本量为偶数,所以中位数等于中间两个数的平均值,即中位数=(2+3)/2=2.5。而众数是一组数据中出现次数最多的变量值,故该组数据的众数为3。

3.关于数据标准化之后得到的Z分数,以下说法正确的是(  )。[中央财经大学2016研]

A.没有计量单位

B.服从正态分布

C.取值在0-1之间

D.取值在-1到1之间。

【答案】A

【解析】数据标准化即将各数据值减去该组数据的平均值之后除以该组数据的标准差,数据标准化后得到的z分数取值范围不确定。数据标准化只是对原始数据进行了线性变换,它并没有改变该组数据分布的形状,而只是将该组数据变为平均数为0、标准差为1的z分数。

4.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为(  )。[中央财经大学2015研]

A.425元

B.430元

C.435元

D.440元

【答案】D

【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。

5.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为(  )。[华中农业大学2015研]

A.80

B.85

C.81.3

D.90

【答案】B

【解析】众数是一组数据中出现次数最多的变量值。题中,85分出现次数最多,故成绩的众数为85分。

6.当变量分布呈右偏分布时,(  )[浙江工商大学2014研]

A.应该用算术平均数来代表变量值的一般水平

B.众数比算术平均数更适合代表平均水平

C.较小变量值的频数比较大

D.较小变量值的频数比较小

【答案】C

【解析】AB两项,在偏态分布情况下,由于变量值中出现特别大或特别小的极端数值使其分布曲线在图形上呈现出不对称的情形。当有极大变量值出现时,为右偏分布,此时算术平均数易受极端值影响,而众数较平均水平偏小,因此二者均不适用于代表变量值的一般水平;CD两项,因为在右偏分布情况下,变量的平均数接近于变量值较大的一端,众数接近于变量值较小的一端,因此较小变量值的频数比较大。

7.当两个数列平均数不等时,反映变量之间差异程度最恰当的统计指标是(  )。[四川大学2013研]

A.动态相对数

B.平均差

C.标准差

D.标准差系数

【答案】D

【解析】标准差系数是反映变量变动程度的相对指标。其计算公式为:标准差系数=样本标准差/平均数,消除了平均数不相等的影响。

8.下列哪一种频数分布状态下,均值、众数、中位数三者必然相等(  )。[东北财经大学2013研]

A.U形分布

B.左偏钟形分布

C.右偏钟形分布

D.对称钟形分布

【答案】D

【解析】众数、中位数与均值之间的关系决定于总体次数分布的状况。当次数分布呈对称的钟形分布时,均值位于次数分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和均值三者相等。

9.右偏分布的特征是(  )。[华东师范大学2013研]

A.偏态系数大于0

B.偏态系数小于0

C.偏态系数等于0

D.只能从直方图上判断,不能用统计量进行描述

【答案】A

【解析】偏态系数小于0时,均值小于众数,属于左偏分布;偏态系数大于0,均值大于众数,属于右偏分布;偏态系数等于0时,属于对称分布,即均值与众数为同一值。

10.样本中位数和样本均值可以作为总体中心的估计,那么,使得达到最小的a应是(  ),使

达到最小的b应是(  )。[华东师范大学2013研]

A.样本中位数,样本均值

B.样本均值,样本中位数

C.样本中位数,样本中位数

D.样本均值,样本均值

【答案】A

【解析】可以理解为各个样本到某个值的距离的总和,显然当a为中位数时,距离的总和能够达到最小值。

因为

则若使达到最小,也就是使达到最大,当时,取最大值,也就是达到最小。

11.16名消费者对某产品的年消费支出如下(单位:元):

则最适合代表消费者对该产品的一般消费水平的数值是(  )[浙江工商大学2014研]

A.5100

B.5110

C.5538.75

D.4980

【答案】B

【解析】均值易受极端值影响,而该组数据中存在8340、9460两个较为极端的数值,因此均值不能较好地反映该产品的一般消费水平;众数4980位于数据分布的左侧,也不适合反映平均消费水平;而该组数据分布较为均匀,因此采用中位数来描述该产品的一般消费水平最为合适。数据数为偶数,所以中位数为处于数据中间的两位数5100和5120的平均数。

12.对一组数据的描述统计分析表明,样本均值=12.45美元,中位数=9.21美元,方差=22.85。由此可以计算样本数据的离散系数为(  )。[中央财经大学2012研]

A.0.38

B.0.40

C.0.54

D.2.48

【答案】A

【解析】离散系数也称为变异系数(coefficient of variation),它是一组数据的标准差与其相应的平均数之比。其计算公式为:。得到

13.设是随机样本,则哪个统计量能较好地反映样本值的分散程度?(  )[中山大学2012研]

A.样本平均

B.样本中位数

C.样本方差

D.样本的四分之一分位数

【答案】C

【解析】集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在,其反映数据集中趋势的统计量有平均数、中位数、众数和四分位数;离散程度反映的是各变量值远离其中心值的程度,反映数据离散程度的统计量有异众比率、方差、标准差和四分位差等。

14.已知某变量分布属于钟形分布且,则(  )。[浙江工商大学2012研]

A.

B.

C.

D.

【答案】C

【解析】在对称的钟形分布中,以算术平均数为对称轴,两边的次数相等,因此有的关系。在非对称钟形分布时(亦称斜偏分布)中,众数、中位数与算术平均数之间就存在一定的差别。当次数分布右偏时有的关系;当次数分布左偏时有的关系。根据已知条件可知该分布是右偏的钟形分布,即有

15.影响简单算术平均数大小的因素有(  )。[江苏大学2012研]

A.变量的大小

B.变量值的大小

C.变量个数的多少

D.权数的大小

【答案】B

【解析】简单算术平均数是将各单位的标志值xi直接相加得出标志总量,再除以总体单位数,就得到简单算术平均数。简单算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。

16.一组数据包含10个观察值,则下四分位数的位置为(  )。[江苏大学2012研]

A.2

B.2.5

C.2.75

D.3

【答案】C

【解析】四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Q1、Q2、Q3,则:Q1、Q2、Q3的位置可由下述公式确定:

式中,表示样本的容量。

17.现有一份样本,为100名中学生的IQ分数,由此计算得到以下统计量:样本平均(mean)=95,中位数(median)=100,下四分位数(lower quartile)=70,上四分位数(upper quartile)=120,众数(mode)=75,标准差(standard deviation)=30。则关于这100名中学生,下面哪一项陈述正确?(  )[中山大学2011研]

A.有一半学生分数小于95

B.有25%的学生分数小于70

C.中间一半学生分数介于100到120之间

D.出现频次最高的分数是95

【答案】B

【解析】一半学生分数小于中位数,即100;中间一半学生分数介于下四分位到上四分位之间,即介于70到120之间;出现频次最高的分数是众数,即75。下四分位数是指该样本中所有数值由小到大排列后第25%的数字,从题干中可知有25%的学生分数小于70。

18.用表示算术平均数,表示中位数,表示众数。若己知某总体次数分布呈适度偏斜,则有(  )式成立。[江苏大学2011研]

A.

B.

C.

D.

【答案】A

【解析】不论如何偏斜,中位数总是在众数与算术平均数之间。经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的2倍。有:

19.己知三个数列的算术平均数依次为40,50和60,但是三个数列的次数分布曲线草图顺序被打乱了,则正确的顺序为(  )。[江苏大学2011研]

A.a,b,c

B.c,b,a

C.a,c,b

D.c,a,b

【答案】A

【解析】众数是一组数据分布的峰值,用表示。在对称的钟形分布中,以算术平均数为对称轴,两边的次数相等,因此有的关系。在非对称钟形分布时(亦称斜偏分布)中,众数,中位数与算术平均数之间就存在一定的差别。当次数分布右偏时有的关系;当次数分布左偏时有的关系。

20.在以下平均指标中,不受极端值影响的是(  )。[江苏大学2011研]

A.算术平均数

B.几何平均数

C.调和平均数

D.众数

【答案】D

【解析】众数是一组数据分布的峰值,不受极端值的影响。平均数是针对数值型数据计算的,而且利用了全部数据信息,因此对于偏态分布的数据,平均数易受数据极端值的影响,此时平均数的代表性较差,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。

21.某企业2010年1~4月初的商品库存额如表4-1所示。

表4-1(单位:万元)

则第一季度的平均库存额为(  )。[浙江工商大学2011研]

A.(20+24+18+22)/4

B.(20+24+18)/3

C.(10+24+18+11)/3

D.(10+24+9)/3

【答案】C

【解析】该企业2010年第一季度的平均库存额为:

22.已知数列{1,3,3,5,5,7,7,9,122},下面说法错误的是(  )。[中央财经大学2011研]

A.算数平均数是18

B.中位数是5

C.众数是5

D.极差是121

【答案】C

【解析】众数是一组数据中出现次数最多的数值,有时众数在一组数中有好几个,由题干可知,众数是3,5,7。

23.把数据中的每个数值减去最小值然后除以极差是一种常用的数据预处理方法。对于经过这一变换之后的数据,以下说法不正确的是(  )。[中央财经大学2011研]

A.服从正态分布

B.没有计量单位

C.取值在0和1之间

D.是相对数

【答案】A

【解析】经题干中的方法处理后,消除了量纲,数据没有计量单位了,并且数据仍保持原分布。

24.平均差数值越小,则(  )。[江苏大学2009研]

A.反映变量值越分散,平均数代表性越小

B.反映变量值越集中,平均数代表性越大

C.反映变量值越分散,平均数代表性越大

D.反映变量值越集中,平均数代表性越小

【答案】B

【解析】平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。

25.已知某班有60名学生,其中男女学生各占一半,则该班学生的成数方差为(  )。[江苏大学2009研]

A.25%

B.30%

C.40%

D.50%

【答案】A

【解析】由已知可得,女生或男生所占的比例为,则该班学生的成数方差为:

26.变量数列中的某项变量值为0时,则无法计算(  )。[首都经贸2007研]

A.简单算术平均数

B.加权算术平均数

C.标志变异指标

D.调和平均数

【答案】D

【解析】调和平均数是标志值倒数的算术平均数的倒数,也称为倒数平均数。它的计算形式分为简单调和平均数和加权调和平均数两种。简单调和平均数的计算公式为:

加权调和平均数的计算公式为:

由于在调和平均数计算公式中变量值出现在分母中,因此当某项变量值为0时,无法计算调和平均数。

27.一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?(  )[西安交大2006研、北京大学2000研]

A.全班65%的同学的考试成绩高于均值

B.全班65%的同学的考试成绩高于中数

C.全班65%的同学的考试成绩高于众数

D.全班同学的考试成绩是负偏态分布

【答案】B

【解析】中位数是数据排序后,位置在最中间的数值。显然,中位数将数据分成两半,一半数据比中位数大,一半数据比中位数小。

28.有下列甲,乙两组工人工资数据:甲组工人工资400,450,250,300。乙组工人工资300,475,350,275。若要比较这两组工人平均工资差异程度大小,应选用的方法是(  )。[首都经济贸易大学2006研]

A.全距法

B.标准差法

C.离散系数法

D.平均数法

【答案】B

【解析】由甲,乙两组工人工资数据可得:

由于甲,乙两组工人的平均工资相同,所以可以通过标准差的方法比较这两组工人平均工资差异程度大小,标准差较大的平均工资差异程度较大。

29.数列中,当某一组的变量值较小而权数较大时,计算出来的平均数(  )。[首都经济贸易大学2006研]

A.接近于变量值较大的一组

B.接近于变量值较小的一组

C.接近于大小适中的变量值-组

D.不受权数影响

【答案】B

【解析】加权算术平均数是根据分组的资料计算的,其分子是将各组组中值乘以各组相应的频数得各组标志总量,然后加总,再除以总频数。题中是对加权平均数的计算,因此,权数越大,计算出的平均数越接近该组数据。

30.用来判定分布为右偏的形态特征的判别标准是偏态系数(  )。[中南财经政法大学2004研]

A.大于3

B.小于3

C.大于0

D.小于0

【答案】C

【解析】当偏态系数SK为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差值较大,可判断为负偏或左偏。

31.一家公司在招收职员时,首先要通过两项能力测试。在S项测试中,其平均分数是125分,标准差是25分;在M项测试中,其平均分数是400分,标准差是50分。一位应试者在S项测试中得了150分,在M项测试中得了425分。与平均分数相比,这位应试者的哪一项测试更为理想? (  )[中南财经政法大学2004研]

A.S项测试

B.M项测试

C.没有区别

D.无法判断

【答案】A

【解析】计算两次成绩得标准分数,则,故项成绩更为理想。

32.设相互独立,,则对任意给定的>0,有(  )。[中南财经政法大学2004研]

A.

B.

C.

D.

【答案】B

【解析】由于相互独立,所以

由切比雪夫不等式可得

33.现有一数列:3,9,27,81,243,729,2187,反映其平均水平最好用(  )。

A.算术平均数

B.调和平均数

C.中位数

D.众数

【答案】C

【解析】此数列的特点是数据分散,不适合用众数;存在极大值和极小值,不适合用易受极端值影响的算术平均数和调和平均数;中位数受极端值的影响相对算术平均数和调和平均数小,故中位数比均值稳健,因而此数列最好用中位数。

34.由8位销售员一个月销售某产品的数量制作的茎叶图如图4-2所示,则销售量的中位数为(  )。

图4-2 茎叶图

A.5

B.6.5

C.45

D.56.5

【答案】D

【解析】由茎叶图可知8个数值分别为:45,45,58,57,56,52,60,63,由小到大的排序为45,45,52,56,57,58,60,63,所以中位数为:

35.在加权算术平均数公式中,若各个变量值都扩大3倍,而频数都减少为原来的1/3,则平均数(  )。

A.不变

B.减少3倍

C.扩大3倍

D.扩大4倍

【答案】C

【解析】假设原来的加权算术平均数为,若变量值都扩大3倍,而频数都减少为原来的1/3,那么

36.6,7,8三个数的几何平均数(  )。

A.大于算术平均数

B.小于算术平均数

C.等于算术平均数

D.等于6

【答案】B

【解析】几何平均数是分布数列中n个变量值的连乘积的n次方根。公式为

本题由于6,7,8三个数相乘开立方,可观察6×8=48<7×7,则其几何平均值一定小于7(算术平均数)。

37.加权平均数的大小取决于(  )。

A.频数绝对量的大小和变量值的大小

B.频数之间的比率

C.频数绝对量的大小和频数之间的比率

D.频数之间的比率和变量值的大小

【答案】D

【解析】加权平均数适用于原始资料已经分组,并得出次数分布的场合。计算公式为:,根据公式可知,加权平均数的大小取决于频数之间的比率和变量值的大小。

38.算术平均数、调和平均数和几何平均数的数量关系为(  )。

A.调和平均数≤几何平均数≤算术平均数

B.几何平均数≤调和平均数≤算术平均数

C.调和平均数=几何平均数≤算术平均数

D.几何平均数≤算术平均数≤调和平均数

【答案】A

【解析】幂平均数是关于k的递增函数,即幂平均数M(k)值随着k的增大而增大,

随着k的减少而减少。而算术平均数、几何平均数、调和平均数是幂平均数的k阶数由1递减为趋于0又降至-1的特例,因此三者的关系是

39.在某公司进行的英语水平测试中,新员工的平均得分是80分,标准差是5分,中位数是85分,则新员工得分的分布形状是(  )。

A.对称的

B.左偏的

C.右偏的

D.无法确定

【答案】B

【解析】如果数据的分布是对称的,众数、中位数和平均数必定相等;如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:平均数<中位数<众数;如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,众数<中位数<平均数。

40.某组数据的四分之一分位数是45,中位数是85,四分之三分位数是105,则该组数据的分布是(  )。

A.右偏的

B.对称的

C.左偏的

D.无法判定

【答案】C

【解析】记中位数为me,第一个四分位数为q1,第三个四分位数为q3,若me=(q1+q3)/2,则数据为对称分布;若me>(q1+q3)/2,则数据为左偏分布;若me<(q1+q3)/2,则数据为右偏分布。则已知中位数me=85>(q1+q3)/2=(45+105)/2=75,故该组数据的分布是左偏的。

41.在离散程度的测度中,最容易受极端值影响的是(  )。

A.极差

B.平均差

C.标准差

D.标准差系数

【答案】A

【解析】众数和中位数不受极端值的影响,而ABCD四项都会受到极端值的影响,但是由于极差是一组数据最大值与最小值之差,故最容易受极端值影响。

42.计算方差时,如果从每个数据中减去常数a,则计算结果与原方差相比(  )。

A.变大

B.不变

C.变小

D.无法确定

【答案】B

【解析】设原始数据为x1,x2,…,,均值为,则该组数据的方差为

若令,…,,则新数据组的均值,所以新数据组的方差为:

43.如果所有数据都增加常数a(a>0),则重新计算的标准差系数(  )。

A.下降

B.上升

C.不变

D.无法确定

【答案】A

【解析】设原始数据为x1,x2,…,,均值为,则该数据的方差为

若令=x1+a,=x2+a,…,+a,则新数据组的均值,而新数据组的方差为:

则重新计算的标准差系数,即重新计算的标准差系数下降。

44.用标准差比较分析两个同类总体平均指标的代表性,其基本的前提条件是(  )。

A.两个总体的标准差应相等

B.两个总体的平均数应相等

C.两个总体的单位数应相等

D.两个总体的离差之和应相等

【答案】B

【解析】标准差是绝对数变异指标,其数值大小与标志值绝对水平的高低有直接关系。当两总体平均数相等时,可直接用标准差比较平均数的代表性:标准差大的,平均数代表性小。当两总体平均数不相等时,不能利用标准差直接比较,而应计算变异系数。

45.甲、乙两班同学参加了统计学期末考试,结果两班的平均成绩,标准差s<s,则统计学成绩离散程度较大的是(  )。

A.甲班

B.乙班

C.一样大

D.无法判断

【答案】B

【解析】为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算标准差系数,其计算公式为:,标准差系数越大,离散程度越大。由于,所以乙班学生统计学成绩离散程度较大。

46.如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=4,其意义是(  )。

A.至少有75%的数据落在平均数加减4个标准差的范围之内

B.至少有89%的数据落在平均数加减4个标准差的范围之内

C.至少有94%的数据落在平均数加减4个标准差的范围之内

D.至少有99%的数据落在平均数加减4个标准差的范围之内

【答案】C

【解析】根据切比雪夫不等式,至少有(1-1/k2)数据落在k个标准差之内。其中k是大于1的任意值。对于k=2、3、4,该不等式的含义是:至少有75%的数据落入平均数±2个标准差的范围内;至少有89%的数据落入平均数±3个标准差的范围之内;至少有94%的数据落入平均数±4个标准差的范围之内。

47.某班学生的平均成绩是80分,标准差是5分。如果已知该班学生的考试分数为对称分布,可以判断成绩在70~90分之间的学生大约占(  )。

A.68%

B.89%

C.95%

D.99%

【答案】C

【解析】成绩在70~90分之间的学生位于平均数两个标准差范围内,且学生成绩为对称分布,根据经验法则可知,成绩在70~90分之间的学生大约占95%。

48.如果峰态系数K>0,表明该组数据是(  )。

A.尖峰分布

B.扁平分布

C.左偏分布

D.右偏分布

【答案】A

【解析】峰态系数用K表示。峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。K>0,表明该组数据是尖峰分布;K<0,表明该组数据是扁平分布。

49.现有一数列:5,10,39,85,236,812,2356,反映其平均水平最好用(  )。

A.算术平均数

B.调和平均数

C.几何平均数

D.众数

【答案】C

【解析】此数列的特点是数据分散,不适合用众数;存在极大值和极小值,不适合用易受极端值影响的算术平均数和调和平均数;几何平均数受极端值的影响相对算术平均数和调和平均数小,故稳健,因而此数列最好用几何平均数。

50.下列关于众数的叙述,不正确的是(  )。

A.一组数据可能存在多个众数

B.众数主要适用于分类数据

C.一组数据的众数是唯一的

D.众数不受极端值的影响

【答案】C

【解析】众数是一组数据中出现次数最多的变量值,用M0表示。众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。众数是一个位置代表值,它不受数据中的极端值影响。一组数据的众数可能只有一个,也可能有几个,也可能没有众数。

51.对在某个高速路段行驶过的120辆汽车的车速进行测量后发现,平均车速是85公里/小时,标准差是4公里/小时,下列哪个车速可以看作是异常值(  )。

A.78公里/小时

B.82公里/小时

C.91公里/小时

D.98公里/小时

【答案】D

【解析】根据经验法则可知,约有99%的数据在平均数±3个标准差的范围之内,在3个标准差以外的数据是离群点。因此99%的数据应包含在(85±3×4)区间内,即(73,97),D项可以看作是异常值。

二、简答题

1.在数据分析中经常需要考察数据分布的正态性。有哪些统计指标、图形和检验方法可以帮助我们判断或检验数据分布的正态性?[中央财经大学2016研]

答:(1)统计指标方法——偏度。正态分布是关于X=μ的对称分布,故当一样本来自正态分布总体时,其概率密度曲线的偏度应等于0。

(2)图形方法——Q-Q图。当样本来自正态分布总体时,其Q-Q图中的点应该紧密分布在一条0-1之间的上升斜线附近;还可以通过观察各组数据的直方图对样本的分布作出直观上的判断。

(3)检验方法——K-S检验。可利用非参数检验方法K-S检验对样本的分布形态作出判断。

2.什么是数量指标和质量指标?二者有何关系? [中央财经大学2014研复试]

答:(1)数量指标是反映社会经济现象发展总规模、总水平或工作总量的统计指标,用绝对数表示;质量指标是反映社会经济现象相对水平或平均水平的统计指标,是指在计划和统计工作中,反映生产效果或工作质量的各种指标。

(2)二者关系为:它们从不同角度反映总体的综合数量特征。数量指标是计算质量指标的基础,而质量指标往往是相应的数量指标进行对比的结果。质量指标指数编制原理与数量指标指数的编制原理相同,只是同度量因素的固定时期不同。

3.描述数据频数分布离散趋势的统计量主要有哪些?各自有何特点?[东北财经大学2014研]

答:(1)描述数据频数分布离散趋势的统计量主要有极差和四分位差、方差和标准差、离散系数。

(2)各自特点:

一组数据的最大值与最小值之差称为极差,极差易受极端值影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

四分位差是一组数据的上四分位数和下四分位数之差,它反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中,其数值越大,说明中间的数据越分散。它不受极端值影响,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。

方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。方差的平方根称为标准差。方差和标准差反映各变量值与均值的平均差异,是数据离散程度最常用测度值。

离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。离散系数消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较。

4.什么是平均指标?平均指标在统计研究中有哪些作用?[浙江工商大学2014研]

答:(1)平均指标是指在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平,一般用平均数形式表示,因此也称为平均数。

(2)平均指标的作用:

平均指标可用于同类现象在不同空间条件下的对比。

平均指标可用于同一总体指标在不同时间的对比。

平均指标可作为论断事物的一种数量标准或参考。

平均指标也可用于分析现象之间的依存关系和进行数量上的估算。

5.简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。[西安交通大学2015研;东北财经大学2014研;中央财经大学2013研]

答:衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。

(1)极差是指一组数据的最大值与最小值之差。用表示,其计算公式为:

极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理解。

(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。

6.简述极差的定义、优缺点以及与标准差的关系。[上海财经大学2013研]

答:极差,也称全距,是指一组数据的最大值与最小值之差。用表示,其计算公式为:

式中,分别表示一组数据的最大值和最小值。

极差、标准差、方差都是测度数据型数据离散程度的方法,极差是总体标准差的有偏估计值,当乘以校正系数之后,可以作为总体标准差的无偏估计值。它的优点是计算简单,含义直观,运用方便,故在数据统计处理中仍有着相当广泛的应用。但是,它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,同时易受极端值的影响。

7.为什么要计算变异系数?[江苏大学2012研、西安交大2007研、首都经贸2002研]

答:变异系数又称离散系数或者标准差率。它与均值和方差相同,是衡量统计资料离散程度的指标统计量。

方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同。采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算变异系数。变异系数的计算方法是:均值与标准差的比。比值越大,说明样本离散程度越小。比值越小,说明样本离散程度越大。

8.统计中用以描述数据频数分布集中趋势的统计量主要有哪些?各自有何特点?[对外经济贸易大学2015研;东北财经大学2012研]

答:集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。描述数据频数分布集中趋势的统计量主要有两大类:

(1)数值平均数,是根据全部数据计算得到的代表值,主要包括算数平均数、调和平均数及几何平均数。

算术平均数也称为均值,是一组数据相加后除以数据的个数得到的结果,包括简单算数平均数和加权算数平均数。算术平均数是对数值型数据计算的,而且利用了全部数据信息,是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响,对于偏态分布的数据,代表性较差。

调和平均数也称为倒数平均数,是总体各单位标志值倒数的算术平均数的倒数。社会经济统计中使用的调和平均数往往具有特定(经济)意义,通常是加权算术平均数的变形。主要是用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值和相应的标志总量,而需要求得平均数的实际问题。

几何平均数是指n个观察值连乘积的n次方根。计算几何平均数要求各观察值之间存在连乘积关系,主要适用于对比率、指数等进行平均,计算平均发展速度等。

(2)位置代表值,是根据数据所处位置直接观测或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数等。

众数(mode)是一组数据中出现次数最多的变量值,用Mo表示。众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数(median)是一组数据排序后处于中间位置上的变量值,用Me表示。中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。

9.已知甲乙两个地区的人均收入水平都是5000元。这个5000元对两个地区收入水平的代表性是否一样?请说明理由。[安徽财经大学2012研]

答:这要看情况而定。在平均收入水平相同的情况下,还要看地区收入水平的标准差。如果两个地区收入的标准差接近相同时,可以认为5000元对两个地区收入水平的代表性接近相同。如果标准差有明显不同,则标准差小的对该地区收入水平的代表性就要好于标准差大的。

10.简述标志变异指标的意义和作用。[浙江工商大学2011研、东北财大1997研]

答:标志变异指标又称为标志变动度,是反映总体各单位标志值之间差异程度大小的综合指标。标志变异指标说明的是变量的集中趋势。

标志变异指标的作用是:(1)衡量平均指标代表性的尺度;(2)研究现象的稳定性和均衡性;(3)为科学确定抽样单位数提供依据。测量标志变异的主要指标有极差、平均差、方差、标准差和标志变动系数等。

11.简述标准化值的意义及计算公式。[中央财经大学2006研]

答:变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。其计算公式为:

式中为变量的标准化值,是该组数据均值,s为该组数据的标准差。

标准分数可以测量每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1。

12.简述均值、众数和中位数三者之间的关系及其在实际中的应用。[北京林业大学2006、2005研、中央财经大学2005、2002研、首都经贸2003研、中南财经政法大学2002研、人大2002研]

答:(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数()必定相等,即

如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:

如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则

(2)众数、中位数和平均数在实际中的应用

众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数,这时它们的代表性要比平均数好。

13.正确运用平均指标来分析社会经济现象时应遵循哪些原则?[湖南大学2007研]

答:正确运用平均指标来分析社会经济现象,应遵循以下几个原则:(1)必须注意所研究社会经济现象的同质性;(2)必须注意用组平均数补充说明总平均数;(3)必须注意应用分配数列补充说明平均数;(4)把平均数和典型事例结合起来。

14.如何利用峰度系数和偏态系数判断数据分布的正态性? [中央财经2007研复试]

答:峰度系数是用离差四次方的平均数再除以标准差的四次方,其计算公式为:

式中:表示样本标准差的四次方。公式中将离差的四次方除以是为了将峰度系数转化成相对数。用峰度系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰度系数进行比较而言的。由于正态分布的峰度系数为0,当K>0时为尖峰分布,当K<0时为平峰分布。

偏态系数的计算公式为:

式中:表示样本标准差的三次方。从这个公式可以看出,偏态系数是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而SK的分子等于0,即SK=0;当分布不对称时,正负离差不能抵消,就形成了正或负的偏态系数SK。当SK为正值时,表示正离差数值较大,可以判断为正偏或右偏;反之,当SK为负值时,表示负离差数值较大,可以判断为负偏或左偏。在计算SK时,将离差三次方的平均数除以是将偏态系数转化为相对数。SK的数值越大,表示偏斜的程度就越大。

15.如何理解均值在统计学中的地位?[首都经贸2007研]

答:均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。

首先,从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然结果。比如我们对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响。利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。

其次,均值具有一些重要的数学性质,比如各变量值与其均值的离差之和等于零、各变量值与其均值的离差平方和最小。这些数学性质在实际中有着广泛的应用,同时也体现了均值的统计思想。

16.什么是集中趋势和离散趋势?它们常用的指标有哪些?[西安交大2006研]

答:集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常用的反映集中趋势的指标有平均数、中位数和众数。

数据的离散趋势是数据分布的另一个重要特征,它反映的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外,还有极差、平均差以及测度相对离散程度的离散系数等。

17.一组数据的分布特征可以从哪几个方面进行测度?

答:数据分布的特征可以从三个方面进行测度和描述:

(1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;

(2)分布的离散程度,反映各数据远离其中心值的趋势;

(3)分布的形状,反映数据分布的偏态和峰态。

18.简述异众比率、四分位差、方差或标准差的适用场合。

答:(1)异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率。

(2)四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

(3)方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。方差开方后即得到标准差。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。

三、计算题

1.美国洛杉矶湖人队2000年14名球员的薪水(百万美元)如表4-2所示。

表4-2

图4-3 薪水茎叶图

为了确定新年度球员薪水水平,球员工会与老板进行谈判。球队老板计算了14名球员的平均收入,其数值为410多万美元,老板觉得球员薪水太高了,不能再提高了。而球员工会代表主张用中位数分析球员薪水水平,并绘制了茎叶图以支持自己的说法。

试回答:

(1)请计算14名球员薪水的中位数。

(2)请说明球队老板和球员工会代表的争执原因是什么?你认为谁的主张更合理?为什么?[首都经济贸易大学2014研]

答:(1)中位数

题目中n=14,为偶数,因此(百万美元)。

争执原因是用平均收入还是中位数代表14名球员的薪水水平。

球员工会代表的主张更合理。因为平均收入易受极端值影响,题中数据存在11.8和17.1两个较高的数据,因而将均值拉向更高水平;从茎叶图可以看出,数据虽然分布不对称,但整体较为集中,中位数能较好地反映球员的薪水水平。

2.某班学生5月份上网情况如表4-3所示。(保留整数)

表4-3

(1)计算该班学生上网时间的众数

(2)计算该班学生上网时间的标准差及标准差系数

(3)计算每个学生上网时间和上网费用之间的相关系数 [四川大学2013研]

答:(1)上网时间的众数在组别30~50中,左右相邻组的频数(本题为上网人数)分别为30、20。

故由众数的的计算公式:众数=下组限左相邻组的频数占左右相邻组总频数的百分比+上组限右相邻组的频数占左右相邻组总频数的百分比。

可得众数为时/月.人

(2)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,设上网时间为X。

则上网时间的均值为

方差为

故标准差为

标准差系数为

(3)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,则上网时间为5,20,40,60,80,100,设上网时间为X,上网费用为Y,则由相关系数的计算公式:

经计算得

带入公式计算可得

3.甲乙两个班级统计学考试成绩资料如下:

甲班的平均分数为75分,标准差为7分;乙班的考试成绩频数分布表如表4-4所示。

表4-4 乙班考试成绩频数分布表

要求:(1)计算乙班的平均考试分数。

(2)计算乙班考试分数的方差及标准差。

(3)计算乙班考试分数的离散系数。

(4)比较甲乙两个班级考试分数的离散程度的大小。[东北财经大学2011研]

解:(1)乙班平均考试分数计算过程如表4-5所示。

表4-5

由表4-5中数据可得

(2)方差计算过程如表4-6所示。

表4-6

由表4-6中数据可得:

(3)

(4)

,说明两个班的统计学考试成绩相比较,甲班的成绩较集中,乙班的成绩较分散。

4.随机抽取25个网络用户,得到他们的年龄数据如表4-7所示。[南京大学2009研]

表4-7

要求:(1)计算众数、中位数;(2)计算平均数和标准差;(3)计算偏态系数和峰态系数;(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]

解:(1)对表中数据按从小到大顺序排列:

由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即

由于中位数位置,所以

(2)平均数:

由平均数可得:

(3)偏态系数:

峰态系数:

(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,并且偏态系数大于1,所以偏斜程度很大。峰态系数为正值,所以为尖峰分布。

5.已知10月份甲班日产量的分布情况如表4-8所示:[江苏大学2009研]

表4-8 10月份甲班日产量的分布情况

又知该月乙班的平均日产量为760件,日产量的标准差为100件。

要求:(1)计算甲班的平均日产量。

(2)分析两个班日产量的差异程度和生产的均衡性。

解:(1)甲班的平均日产量为:

(2)甲班日产量的标准差为:

则甲班日产量的离散系数为:

乙班日产量的离散系数为:

离散系数是测度数据离散程度的相对统计量,其作用主要是用于比较对不同样本数据的离散程度。由于,即甲班日产量的离散系数较大,说明甲班日产量的离散程度也大,生产相对不均衡。

6.抽样调查某地区职工家庭收入资料如表4-9所示:[首都经贸2008研]

表4-9 某地区职工家庭收入资料

根据上述资料计算职工家庭平均每人月收入、中位数和众数并简要说明其分布特征。

解:根据数据资料整理得表4-10。

表4-10 某地区职工家庭收入状况计算表

由表4-10计算出职工家庭每人月收入为:

由表4-9很容易看出在600元~700元内频数最大,因此众数为:

 

中位数为:

因为,所以可知该数据分布为左偏,即多数职工家庭每人月收入大于619.48元。

7.某单位从不同地区购进三批成分相同的原材料,数据如表4-11所示:

表4-11

计算该单位三批原材料的平均价格。[西安交大2006研]

解:由调和平均数计算公式得:

三批原材料的平均价格=(元/件)

8.一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):[深圳大学2006研]

(1)你准备采用什么方法来评价组装方法的优劣?

(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。

解:(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。

(2)表4-12给出了用Excel计算一些主要描述统计量。

表4-12 描述统计量

从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为:

方法A的离散系数最小,即离散程度最小,因此应选择方法A。

9.某市2004年招收各类职业人员,按男女分组资料如表4-13所示:[西安交大2005研]

表4-13

试分别计算男性、女性各类职业人员的录用率及总的录用率,并分析男性录用率高还是女性录用率高,说明是什么原因。

解:男性的报考人数为:350+200+50=600(人)

男性的录用人数为:70+50+3=123(人)

女性的报考人数为:50+150+300=500(人)

女性的录用人数为:20+45+24=89(人)

则男性公务员的录用率为,男性教师的录用率为,男性医生的录用率为;女性公务员的录用率为,女性教师的录用率为,女性医生的录用率为

男性的总录用率为:,女性的总录用率为:

由这些数据可以看到,女性各类职业人员的录用率均高于男性,但女性的总录用率却低于男性。这是由于报考的结构不同而导致的,男性报考人数多的职业录用率高,而女性是报考人数少的录用率高。

10.一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如表4-14所示。[人大2005研]

表4-14

(1)画出该组数据的茎叶图。

(2)画出该组数据的箱线图。

(3)根据茎叶图和箱线图说明上网者年龄分布的特征。

解:(1)该组数据的茎叶图如图4-4所示:

图4-4 茎叶图

(2)由表中数据可得:

最大值=41,最小值=15

中位数的位置=,所以中位数=23。

即QL在第6个数值(19)和第7个数值(19)之间0.5的位置上,因此QL=19×0.5+19×0.5=19。

即QU在第19个数值(27)和第20个数值(29)之间0.5的位置上,因此QU=27×0.5+29×0.5=28。

所以箱线图如图4-5所示:

图4-5 箱线图

(3)由茎叶图和箱线图可以看出,上网者年龄为右偏分布。

11.甲乙两个企业生产三种产品的单位成本和总成本如表4-15所示:[北京林业大学2005研]

表4-15 甲乙两个企业生产三种产品的单位成本和总成本

比较哪个企业的总平均成本高?并分析其原因。

解:

即甲企业的总平均成本高于乙企业。主要原因是甲企业中单位成本最低的A1产品在三种产品中所占的比重要小于乙企业。

12.根据下面工人完成生产定额分配数列,计算众数和中位数。[中国政法2005研]

解:根据原表数据,得到组中值和向上累计频率计算结果如表4-16所示。

表4-16

由表4-16可知,该数列的众数和中位数都位于110~120这个区间之间。因此根据众数和中位数的计算公式可得:

众数为:

中位数为:

13.有甲、乙两个生产小组,甲组平均每个工人的日产量为36件,标准差为9.6件。乙组工人日产量资料如下:[北京林业大学2004研]

要求:

(1)计算乙组平均每个工人的日产量和标准差;

(2)比较甲乙两个生产小组哪个组的日产量差异程度大。

解:(1)根据已知数据资料,得到表4-17的数据。

表4-17

由上表,可以求出乙组平均每个工人的日产量为:

标准差为:

(2)用离差系数来比较两组之间的差异程度,由已知条件得:

甲组的离差系数为:

乙组的离差系数为:

由于v1<v2,所以可知甲乙两个生产小组中乙的日产量差异程度大。

14.大学生的平均等级分数是根据下列数据算出来的:A(4),B(3),C(2),D(1),F(0)。在完成60学时的课程后,某位州立大学的学生得到9个学时的A,15个学时的B,33个学时的C和3个学时的D。州立大学的学生在开始的60学时中必须得到2.5个平均等级分才能进入商学院。该名学生能够进入商学院吗?[中央财经2004研复试]

解:这个学生的平均等级分为:

该学生满足商学院2.5个平均等级分的录取要求,故能被录取。