3.2 考研真题与典型题详解
一、单项选择题
1.下面哪个图形保留了原始数据的信息?( )[对外经济贸易大学2015研]
A.直方图
B.茎叶图
C.条形图
D.箱线图
【答案】B
【解析】茎叶图是保留并反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。ACD三项都需要对原始数据进行处理,求得一些测度值之后再作出图形。
2.下列哪种分类结果属于非顺序数据?( )[华中农业大学2015研]
A.产品质量按等级分类
B.人口按男女性别分类
C.考核结果按优秀、良好、合格、不合格分类
D.学历按小学、初中、高中、大专、本科、硕士及以上分类
【答案】B
【解析】顺序数据是只能归于某一有序类别的非数字型数据,顺序数据虽然也是类别,但这些类别是有序的。ACD三项均属于顺序数据。B项,人口按男女性别分类只能归于某一类别,属于分类数据。
3.频数分布盒形图中,盒子的宽窄表示( )。[东北财经大学2013研]
A.离散程度的大小
B.平均水平的高低
C.偏态
D.峰态
【答案】A
【解析】盒形图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的。盒子的高低表示平均水平的大小,而盒子的宽窄则表示离散程度的大小。
4.样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的( )。[东北财经大学2013研]
A.25%
B.40%
C.50%
D.75%
【答案】C
【解析】将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最大的四分位数称为上四分位数,最小的四分位数称为下四分位数。因此样本数据中大于下四分位数小于上四分位数的观测值的个数占全部观测值个数的二分之一。
5.下面表述正确的是( )。[四川大学2013研]
A.直方图的高反映总体内各部分频数
B.直方图的高反映变量值大小
C.直方图的宽度无意义
D.直方图的宽和高均没有意义
【答案】A
【解析】直方图的高表示频数,高与宽的乘积为该部分的频率。
6.影响次数分布的因素有( )。[四川大学2013研]
A.组距、组数、组中值和组限
B.组距、全距、组中值和组限
C.全距、组数、组中值和组限
D.组距、组数、全距和组限
【答案】D
【解析】组中值受次数分布的影响,但次数分布不受组中值的影响。
7.对于100名学生某一门课程的成绩,若想得到四分之一分位数、中位数与四分之三分位数,以下哪种描述统计的办法更有效?( )[中山大学2012研]
A.直方图
B.茎叶图
C.饼图
D.点图
【答案】B
【解析】直方图、饼图描述的是分组的数值型数据,而茎叶图描述的是未分组的数值型数据,点图描述的是两个变量之间的关系。
8.若连续变量分组,第一组45~55,第二组55~65,第三组65~75,第四组75以上。则( )。[江苏大学2012研]
A.45在第一组
B.55在第一组
C.65在第二组
C.75在第三组
【答案】A
【解析】绘制频数分布表,在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。
9.由一组数据的最大值、最小值、中位数和两个四分位数绘制而成的反映原始数据分布的图形是( )。[江苏大学2012研]
A.散点图
B.箱线图
C.圆饼图
D.直方图
【答案】B
【解析】箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。A项散点图是用二维坐标展示两个变量之间关系的一种图形;C项圆饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例;D项直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(面积)来表示频数分布的。
10.雷达图的主要用途是( )。[安徽财经大学2012研]
A.反映一个样本或总体的结构
B.比较多个总体的构成
C.反映一组数据的分布
D.比较多个样本的相似性
【答案】D
【解析】雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。
11.一名研究人员希望通过图形来说明4月份以来北京地区二手房租金每天的变化,以下哪个图形最合适?( )[中央财经大学2011研]
A.直方图
B.散点图
C.折线图
D.茎叶图
【答案】C
【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的;散点图是用二维坐标展示两个变量之间关系的一种图形;茎叶图是反映原始数据分布的图形;如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图,线图主要用于反映现象随时间变化的特征。
12.根据某地6至16岁学生近视情况的调查资料,反映患者的年龄分布可用( )。[中山大学2011研]
A.线图
B.散点图
C.直方图
D.条形图
【答案】C
【解析】直方图是用来反映数据的分布直观形式,它的横坐标代表变量分组,纵坐标代表各变量值出现的频数,条形图是用来反映分类数据的,反映数值型数据一般用直方图。散点图反映两个变量间的关系;线图主要用来反映现象随时间变化的特征。
13.美国汽车制造商协会想了解消费者购车时的颜色偏好趋势,抽取新近售出的40辆车并记录其颜色种类(黑、白、红、绿、棕)和深浅类型(亮色、偏淡、中等、偏浓);你认为以下展示数据的图表中,哪一种不适合用来处理这一样本数据?( )[中山大学2011研]
A.散点图
B.饼图
C.条形图
D.频数图
【答案】A
【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量,纵轴代表变量,每组数据(,)在坐标系中用一个点表示,组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图称为散点图。它处理的是数值型数据。
14.根据有关专家的建议,51岁以下成年女性每日的铁摄入量应为16毫克;为了解这一人群铁摄入量的情况,有人抽取一个容量为45的样本并取得她们在24小时内的铁摄入量,所得数据如表3-1所示。
表3-1
以下图表,哪一种可以让我们迅速得到以上样本数据的中位数与两个四分位数?( )[中山大学2011研]
A.直方图
B.饼图
C.条形图
D.茎叶图
【答案】D
【解析】直方图、饼图、条形图描述的数值型数据是分组数据,而茎叶图描述的是未分组的数值型数据,且从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得。
15.上限是指( )。[江苏大学2009研]
A.每个组的最小值
B.每个组的最大值
C.每个组的中点数值
D.每个组的起点数值
【答案】B
【解析】组限是指数列中每个分组两端表示各组界限的变量值。每组有两个组限:数值最小的为组的下限;数值最大的为组的上限。
16.某外商投资企业按工资水平分为四组:1000元以下,1000~1500元;1500~2000元;2000元以上。第一组和第四组的组中值分别为( )。[首都经济贸易大学2009研]
A.750和2500
B.800和2250
C.800和2500
D.750和2250
【答案】D
【解析】根据开口组组距与相邻组组距相同均是500,以及第一组的上限是1000,第四组的下限是2000,可得:第一组的组中值=1000-500÷2=750,第四组的组中值=2000+500÷2=2250。
17.某组距式分组,起始组是开口组,上限为100,又知相邻组的组距为50,则起始组的组距可以视为( )。[首都经济贸易大学2007研]
A.50
B.80
C.90
D.100
【答案】A
【解析】在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
18.统计分组的核心问题是( )。[西安交通大学2006研]
A.选择分组方法
B.确定组数
C.选择分组标志
D.确定组中值
【答案】C
【解析】分组标志作为现象总体划分为各个不同性质的组的标准或根据,选择的正确与否,关系到能否正确地反映总体的性质特征、实现统计研究的目的任务。
19.饼图的主要用途是( )。
A.反映一个样本或总体的结构
B.比较多个总体的构成
C.反映一组数据的分布
D.比较多个样本的相似性
【答案】A
【解析】饼图是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
20.下列各项中,适合于比较研究两个或多个样本或总体的结构性问题的是( )。
A.环形图
B.饼图
C.直方图
D.茎叶图
【答案】A
【解析】环形图可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。因此,环形图可显示多个样本或总体各部分所占的相应比例。
21.5家公司的月销售额(万元)数据分别为:29,26,25,23,23。下列哪种图形不宜用于描述这些数据?( )
A.茎叶图
B.散点图
C.条形图
D.饼图
【答案】B
【解析】散点图是展示两个变量之间关系的一种图形,而本题中只有一个变量即月销售额数据。
22.为描述身高与体重之间是否有某种关系,适合采用的图形是( )。
A.雷达图
B.气泡图
C.散点图
D.箱线图
【答案】C
【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。题中只有两个变量,即身高和体重,因此可用散点图来描述。A项是显示多个变量的常用图示方法;B项是展示三个变量之间的关系的图示方法;D项是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的。
23.与直方图相比,茎叶图( )。
A.没保留原始数据的信息
B.更适合描述分类数据
C.不能有效展示数据的分布
D.保留了原始数据的信息
【答案】D
【解析】茎叶图类似于横置的直方图。与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。茎叶图适合描述未分组数据。
24.下列图形中,适合描述顺序数据的是( )。
A.直方图
B.茎叶图
C.环形图
D.箱线图
【答案】C
【解析】顺序数据的图示方法有累积频数分布图和环形图。ABD三项适合描述数值型数据。
25.在坐标轴中,横轴刻度表示直方图的( )。
A.频数
B.组中值
C.组距
D.组限
【答案】C
【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率。这样,各组与相应的频数就形成了一个矩形,即直方图。
26.统计表的行标题表示各组的名称,一般应写在统计表的( )。
A.上方
B.左方
C.右方
D.均可以
【答案】B
27.在连续变量或变量值较多的情况下,通常采用的分组方法是( )。
A.单变量值分组
B.组距分组
C.等距分组
D.连续分组
【答案】B
【解析】在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
28.各组的组中值代表组变量值的( )。
A.一般水平
B.最高水平
C.最低水平
D.随机水平
【答案】A
【解析】组中值是指组距数列每组下限与上限之间中点位置上的数值,近似地代替每组变量值的一般水平。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
29.组距、组限和组中值之间的关系是( )。
A.组距=(上限-下限)÷2
B.组中值=(上限+下限)÷2
C.组中值=(上限-下限)÷2
D.组限=组中值÷2
【答案】B
【解析】组距是一个组的上限与下限的差。它可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。
30.组距与组数的关系是( )。
A.正比例关系
B.因果关系
C.反比例关系
D.平行变动关系
【答案】C
【解析】在组距式变量数列中,组距是指上限与下限之间的距离或差数,组数=全距÷组距。组距与组数成反比例关系:组距越大,组数就越少;组距越小,组数就越多。
31.当出现特大值或特小值时,应设置( )。
A.闭口组
B.开口组
C.单项数列
D.组距数列
【答案】B
【解析】在编制组距式变量数列时,使用“××以上”或“××以下”这样不确定组距(出现特大值或特小值)的组,称为开口组。
32.以下计算组中值的方法错误的是( )。
A.(上限+下限)/2
B.上限+下限/2
C.上限-邻组组距/2
D.下限+邻组组距/2
【答案】B
【解析】各组的上限和下限之间的中点叫组中值。组中值的计算方法是:组中值=(上限+下限)/2
开口组的组中值计算方式是:缺下限的最小组的组中值=最小组的上限-相邻组的组距/2,缺上限的最大组的组中值=最大组的上限+相邻组的组距/2。
组中值代表着各组内变量值的一般水平,是各组变量值的代表值。
33.分布数列中频率是指( )。[首都经贸2007研]
A.各组分布次数相互之比
B.各组的频数相互之比
C.各组分布次数与总次数之比
D.各组分布次数与比重之比
【答案】C
34.按人记录的100名工人的日产量资料显示,最高日产量为38件,最低日产量为19件,若要对这100名工人按日产量进行等距分组,组数为5,则组距应为( )。[西安交大2006研]
A.3件
B.4件
C.8件
D.10件
【答案】B
【解析】最高日产量和最低日产量之间相差为件,组数为5,所以组距为19/5≈4(件)。
35.将某企业职工的月收入依次分为2000元以下、2000元~3000元、3000元~4000元、4000元~5000元、5000元以上几个组。第一组的组中值近似为( )。
A.2000
B.1000
C.1500
D.2500
【答案】C
【解析】组中值是上限和下限之间的中点数值,它是代表各组标志值平均水平的数值。对于开口组的组距和组中值的确定,一般以其邻近组的组距为准。所以第一组的组中值=上限-邻组组距/2=2000-1000/2=1500。
36.直方图与条形图的区别之一是( )。
A.直方图的各矩形通常是连续排列的,而条形图则是分开排列的
B.条形图的各矩形通常是连续排列的,而直方图则是分开排列的
C.直方图主要用于描述分类数据,条形图则主要用于描述数值型数据
D.直方图主要用于描述各类别数据的多少,条形图则主要用于描述数据的分布
【答案】A
【解析】直方图与条形图的区别包括:①条形图是用条形的长度表示各类别的多少,其宽度是固定的;直方图是用面积表示各组频的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距;②直方图的各矩形通常是连续排列,而条形图是分开排列;③条形图主要是用于展示分类数据,直方图主要用于展示数值型数据。
二、简答题
1.简述直方图与茎叶图的区别。[对外经济贸易大学2016研]
答:直方图与茎叶图的区别主要表现为:
(1)直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。茎叶图是反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。
(2)茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
2.统计中用以描述品质型数据频数分布的图形主要有哪些?各自有何特点?[东北财经大学2012研]
答:品质型数据包括分类数据和顺序数据。描述分类数据频数分布的图形主要有条形图、帕累托图、饼图等;描述顺序数据频数的图形除了以上几种,还有累计频数分布图。具体特点如下:
(1)条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图(column chart)。此外,条形图有简单条形图、对比条形图等形式。
(2)帕累托图(Pareto chart)是按各类别数据出现的频数多少排序后绘制的柱形图。通过对柱形图的排序,容易看出哪类数据出现得多,哪类数据出现得少。帕累托图在质量控制研究中有广泛应用。对于不同类型的缺陷、失效方式和其他感兴趣的类,可以用帕累托图观察各个类的影响顺序。
(3)饼图(pie chart)是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
对于顺序数据,还可以计算累积频数和累积频率(百分比)。根据累积频数或累积频率,可以绘制累积频数分布或频率图。
3.在盒子图(箱线图)的作图中,会使用哪些描述指标?[中央财经大学2011研]
答:盒子图(箱线图)是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数,然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
由上面叙述可知,箱线图使用的描述指标有:最大值、最小值、中位数、两个四分位数。
4.简述统计分组的原则。[首都经济贸易大学2009研、中南财经政法大学2002研]
答:采用组距分组时,需要遵循不重不漏的原则。不重是指一项数据只能分在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽。即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决不重的问题,统计分组时习惯上规定“上组限不在内”。即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
5.说明条形图和直方图的区别和联系。[中央财经大学2009研、中国人民大学2001研]
答:(1)条形图与直方图的区别
①条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
③条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
(2)联系
两者都是用矩形表示数据分布情况;当矩形的宽度相等时,都是用矩形的高度来表示数据的分布情况。
6.什么是统计分组?统计分组有哪些作用?[江苏大学2009研、江西财经大学2006研、上海财大2002研]
答:根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。
统计分组的作用有:(1)发现社会经济现象的特点与规律;(2)将复杂的社会经济现象划分为性质不同的各种类型;(3)反映总体内部结构;(4)揭示现象之间的依存关系。
7.如何理解选择分组标志和划分各组界限是统计分组的关键问题?[江西财经大学2007年研]
答:统计分组是指按照统计研究的目的,将数据分别列入不同的组内。分组标志可以分为按品质标志分组和按数量标志分组两种。其中按品质标志分组是指按照性别、质量等级等定性指标进行的分组;按数量标志分组是指按照数量或数值等定量指标进行的分组。
在分组时,划分各组界限是应遵循不重不漏的原则。不重即任一个单位数值只能分在其中某一组中,不能同时分在两组中。当相邻两组的上下限相叠时,应遵循“上组限不在内”。不漏即任一数值必须分在某一组内,不能遗漏。
8.简述如何进行统计分组。[中南财经政法大学2004研]
答:统计分组的方法有单变量值分组和组距分组两种。单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
分组具体步骤如下:
第1步:确定组数。
第2步:确定各组的组距。
一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。
采用组距分组时,需要遵循“不重不漏”的原则。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
9.何谓等距分组和异距分组?说明两者各自适用的场合。[中南财经政法大学2003研]
答:(1)等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。等距分组有很多好处,它便于计算,便于绘制统计图。
(2)异组分组即各组的组距不相等。一般地,异距分组适用于以下几种场合:①标志值分布很不均匀的场合;②标志值相等的量具有不同意义的场合;③标志值按一定比例发展变化的场合。
10.什么是统计分组?统计分组应注意哪些原则?[中南财经政法大学2002研]
答:根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。
进行统计分组时要遵循的原则有:
(1)穷尽原则,就是使总体中的每一个单位都有相应的组可归属,也就是不能遗漏参与分组的总体中所有的单位;
(2)互斥原则,就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。
11.某城市的商场按月销售额(万元)分别分为:1~10,10~100,100~1000,1000以上等四个组,这种分组上形式有什么特点?月销售额为100万元归入哪一组?这是根据哪条分组原则确定的?[厦门大学2001研]
答:这种分组是不等距分组,且是上端开口的分组。
月销售额为100万元归入100~1000组;这是根据“上组限不在内”的分组原则确定的。
12.箱线图[人大2000研]
答:箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
13.数据的预处理包括哪些内容?
答:数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。具体如下:
(1)数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。
(2)数据筛选是根据需要找出符合特定条件的某类数据。
(3)数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
14.分类数据和顺序数据的整理和图示方法各有哪些?
答:(1)分类数据的整理方法:首先列出分类数据所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表。
图示方法:条形图、帕累托图、饼图和环形图。
(2)分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但一些适用于顺序数据的整理和显示方法,并不适用于分类数据。对于顺序数据,除了可使用分类数据的整理和显示技术外,还可以计算累积频数和累积频率。
图示方法:条形图、帕累托图、饼图、环形图、累积频数分布图和累积频率图(向上累积和向下累积)。
15.数值型数据的分组方法有哪些?简述组距分组的步骤。
答:(1)数据分组的方法有单变量值分组和组距分组两种。
①单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。
②在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
(2)组距分组步骤:
①确定组数。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。
②确定各组的组距。组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。
③根据分组整理成频数分布表。
16.绘制线图应注意哪些问题?
答:绘制线图时应注意:
(1)时间一般绘在横轴,观测值绘在纵轴;
(2)一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7;
(3)图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解;
(4)一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。
17.茎叶图与直方图相比有什么优点?它们的应用场合是什么?
答:(1)茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。
(2)直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
18.鉴别图表优劣的准则有哪些?
答:鉴别图形优劣的准则有:
(1)一张好图应当精心设计,有助于洞察问题的实质;
(2)一张好图应当使复杂的观点得到简明、确切、高效的阐述;
(3)一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息;
(4)一张好图应当是多维的;
(5)一张好图应当表述数据的真实情况。
三、计算题
1.某企业2013年3月1日对15名员工的调查表明,他们从居住地到达工作地点花费的时间如下(分钟):10,55,70,25,30,45,30,50,25,40,55,90,40,60,70。
(1)计算数据的均值、中位数和众数。你认为哪一个结果最能反映这组数据的一般水平?为什么?
(2)根据以上数据给出数据的茎叶图。
(3)绘制以上数据的简单箱线图。
(4)根据以上计算和图形分析数据分布的特征。[中央财经大学2014研]
答:(1)对数据进行排序:10,25,25,30,30,40,40,45,50,55,55,60,70,70,90
均值:
中位数:
因此为第8个数值,
众数
其中均值最能反映这组数据的一般水平,因为均值是集中趋势的最主要测度值,且该组数据中不存在明显极端值,均值能较准确地反映这组数据的一般水平。
(2)茎叶图如图3-1所示。
图3-1
(3)题目数据中,最大值=90,最小值=10,中位数=45
下四分位数QL的位置=15/4=3.75,因此QL=25+0.75×(30-25)=28.75
上四分位数QU的位置=15×(3/4)=11.25,因此QU=55+0.25×(60-55)=56.25
简单箱线图如图3-2所示。
图3-2
(4)从(1)中计算可知,均值大于中位数;从(2)中茎叶图可以看出数据分布不对称;从(3)中箱线图可以看出数据呈右偏分布,从箱子的长度可以看出,此样本的数据分布比较分散。
2.某班学生统计学期末考试成绩数据如表3-2所示。
表3-2 某班学生统计学期末考试成绩
要求:
(1)绘制频数分布直方图;
(2)填制累积频数分布表;
(3)绘制累积频数分布图;
(4)计算均值、方差及标准差。[东北财经大学2012研]
解:(1)绘制频数分布直方图如图3-3所示。
图3-3 某班学生统计学期末考试成绩频数分布图
(2)完整的累积频数分布表如表3-3所示。
表3-3 某班学生统计学期末考试成绩频数分布表
(3)累积频数分布图如图3-4和图3-5所示。
图3-4 某班学生统计学期末考试成绩向上累积频数分布图
图3-5 某班学生统计学期末考试成绩向下累积频数分布图
(4)均值计算过程如表3-4所示。
表3-4
由表3-4及均值计算公式可得:
方差计算过程如表3-5所示。
表3-5
由表3-5和方差计算公式可得:
标准差。
3.某班40名学生统计学考试成绩分别为:
学校规定:60分以下为不及格,60~70分为及格,70~80分为中,80~90分为良,90~100分为优。
要求:
(1)将该班学生分为不及格、及格、中、良、优五组,编制一张次数分配表。
(2)指出分组标志及类型;分组方法的类型;分析该班学生考试情况。[江西财经大学2007研]
解:(1)编制该班学生统计学考试成绩的频数分布表,如表3-6所示。
表3-6 学生统计学考试成绩频数分布表
(2)分组标志是考试成绩等级,这属于按品质标志进行分组。
该班学生考试成绩只要集中在中等和优等,共占67.5%;优等和不及格较少,分别占7.5%和10%。
4.某位职员每天上班有两种方法:公共交通和自己开车。每种方法所需的时间纪录的样本数据如下。时间以分钟为单位。
(1)哪种方法更好?试解释之。
(2)画出每种方法的箱图。两个箱图的比较结果是否支持你的结论? [中央财经2004研复试]
解:(1)公共交通所需时间的平均数与标准差分别为:
自己开车所需时间的平均数与标准差分别为:
两种上班方式所需时间的平均数相等。但是自己开车所需时间的标准差比公共交通所需时间的标准差小,即自己开车比公共交通所需时间与均值的离散程度较小。所以选择自己开车上班较为合理。
(2)将公共交通所需时间从小到大进行排序:25,28,29,29,32,32,33,34,37,41,则最大值为41;最小值为25;中位数=(32+32)/2=32;下四分位数的位置=(10+1)/4=2.75,故下四分位数=28×0.25+29×0.75=28.75;上四分位数的位置=3×(10+1)/4=8.25,故上四分位数=34×0.75+37×0.25=34.75。同理可得:自己开车所需时间的最大值为35,最小值为29,中位数为32,下四分位数为30.75,上四分位数为33.25。
所以两种上班方式所需时间的箱线图如图3-6所示。
图3-6 两种上班方式所需时间箱线图
箱线图中的横线代表的是中位数,上下边框分别为上下四分位数,上下横线为极端值。由图可知:在中位数相同的条件下,自己开车比公共交通所需时间的离散程度要小。这也说明选自己开车上班是合理的。
5.某家商场为了了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。其学历表示为:1:初中,2:高中或中专,3:大专,4:本科及以上。调查结果如表3-7所示。
表3-7
(1)表3-7中的数据属于什么类型?
(2)制作一张频数分布表。
(3)绘制一张条形图,反映顾客的学历分布。
(4)绘制评价等级的帕累托图。
解:(1)表3-7中的数据属于顺序数据。
(2)制作频数分布表,如表3-8所示。
表3-8 频数分布表
(3)绘制条形图,如图3-7所示。
图3-7 条形图
(4)绘制评价等级的帕累托图,如图3-8所示。
图3-8 帕累托图
6.某行业管理局所属40个企业2013年的产品销售收入数据,如表3-9所示。
表3-9 40个企业2013年的产品销售收入(数据单位:万元)
要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
解:(1)编制频数分布表,如表3-10所示。
表3-10 40个企业按产品销售收入分组表
(2)按先进企业、良好企业、一般企业、落后企业进行分组(如表3-11所示)。
表3-11 某管理局下属40个企业分组表
7.利用表3-12的数据构建茎叶图和箱线图。
表3-12
解:构建茎叶图和箱线图,如图3-9和图3-10所示。
图3-9 茎叶图
图3-10 箱线图
8.表3-13是某考试管理中心对2013年参加成人自学考试的12000名学生的年龄分组数据。
表3-13
要求:
(1)对这个年龄分布作直方图。
(2)从直方图分析成人自学考试人员年龄分布的特点。
解:(1)绘制成人自学考试年龄分布的直方图,如图3-11所示。
图3-11
(2)从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在20~24岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。
9.下面是A,B两个班学生的数学考试成绩数据:
A班
B班
要求:
(1)将两个班的考试成绩用一个公共的茎制成茎叶图。
(2)比较两个班考试成绩分布的特点。
答:(1)构建两个班考试成绩的茎叶图,如图3-12所示。
图3-12 两个班考试成绩的茎叶图
(2)从茎叶图可以看出,A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。
10.甲乙两个班各有40名学生,期末统计学考试成绩的分布如表3-14所示。
表3-14 甲乙两班期末统计学考试成绩
要求:
(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。
(2)比较两个班考试成绩分布的特点。
(3)画出雷达图,比较两个班考试成绩的分布是否相似。
解:(1)绘制对比条形图,如图3-13所示。
图3-13 甲乙两班期末统计学考试成绩条形图
绘制环形图,如图3-14所示(内环为甲班的成绩)。
图3-14 甲乙两班期末统计学考试成绩环形图
(2)对比条形图可以看出,甲班考试成绩在中等水平的人数较多,而优秀和良好的人数则较少,不及格的人数也比乙班要多。乙班则不同,考试成绩为优秀和良好的人数较多,而中等以下的人数则较少。这说明乙班学生的平均成绩比甲班要好。从环形图的百分比中也可以清楚地看出这一点。
(3)绘制两个班考试成绩的雷达图,如图3-15所示。
图3-15 甲乙两班期末统计学考试成绩雷达图
从雷达图的形状可以看出,两个班考试成绩没有相似性。
11.抽样调查某地区50户居民的月消费品支出额数据资料如下(单位:元):
要求:(1)试根据上述资料编制次(频)数分布和频率分布数列。
(2)编制向上和向下累计频数、频率数列。
解:(1)居民的月消费支出额频数和频率分布数列如表3-15所示。
表3-15 居民的月消费支出额频数和频率分布表
(2)居民的月消费支出额向上累计频数和频率如表3-16所示。居民的月消费支出额向下累计频数和频率如表3-17所示。
表3-16 居民的月消费支出额向上累计表
表3-17 居民的月消费支出额向下累计表