张厚粲《现代心理与教育统计学》(第4版)笔记和课后习题(含考研真题)详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 统计图表

2.1 复习笔记

本章重点

ü  各种统计图表的基本结构与编制方法

ü  各种次数分布表与次数分布图

ü  直方图、条形图与线形图

一、数据的初步整理

心理和教育研究中收集的各种原始资料杂乱无章 ,只有经过整理分析才能从中提取出有用的信息。在对资料进一步分析之前,需要进行认真的整理。整理的基本方式有排序和统计分组两种。

(一)审核资料

审核资料的目的,是为了剔除不合格的资料,以确保资料的可靠性和可信性。

审核是对原始资料进行初步的审查和核实。不符合要求的数据主要有三种:缺失、可疑、失误。

1.缺失:指数据不全或缺项未填。

2.可疑:指难以辨认或怀疑其真实性的数据。

3.失误:指存在明确差错的数据或答案。

在剔除不合格问卷的过程中,注意不能把一些不符合自己主观假设的数据随意去掉。对于个别极端数据是否该剔除,应遵循三个标准差法则。

(二)数据排序

数据排序(sort或order),就是按照某种标准,对收集到的杂乱无章 的数据按照一定顺序标准进行排列。如按照被试的年龄或性别,或调查问卷的标识码等标准进行排列。排列后会使数据之间的某种关系有所显示。数据排序是整理数据最简单的方法。

(三)统计分组

统计分组(grouping),就是根据被研究对象的特征,将所得数据划分到各个组别中去。对研究中所获得的大量数据进行统计分组是对数据进行整理的重要步骤。

1.统计分组前的准备

将数据进行分组前,先要对观测数据做进一步的核对和校验。校核数据的目的是为了尽可能地消除记录误差,以便使后续的统计分析建立在一个坚实的基础上。

2.统计分组应注意的问题

(1)分组要以被研究对象的本质特性为基础。

(2)分组标志要明确,要能包括所有的数据。

3.分组的标志

分类标志有各种各样。这些分类标志按形式大致可分为性质类别与数量类别两种。

(1)性质类别。主要是根据事物的属性不同将被观测的事物加以划分,反映事物在组别、种类上的不同,不说明事物之间的数量差异。

(2)数量类别。这是以数据的取值大小为分类标志,把数据按数值大小以分组或不分组的形式排出一个顺序来。在这种排序中,项目本身就显示了分类的数量信息,这一点与性质类别明显不同。

(三)统计表

1.统计表的概念及特点

(1)在对数据进行统计分类以后,得到的各种数量结果称为统计指标。把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表(tabulation)。

(2)统计表具有简明、清晰、准确的特点,表中的数据易于比较分析。

2.统计表的基本结构

(1)表号:表的序号位于表的左上方,一般以出现的先后顺序排列。

(2)名称:又称标题,是一个表格的名称,应写在表的上方。标题用语要简练扼要,准确得体,一望即知该表的内容。如有必要,可在表的下面附加说明,但这种情况不宜多用。表的序号和标题之间留一个汉字的空格。二者居中排在顶线的上方,长度不宜超过表的宽度,若标题字数过多,应转行排列。

(3)标目:即分类的项目。标目的好坏决定统计表的质量,要认真酌定。标目一般在表的上面一行(table spanner)或左侧一列(stub column)。如果分类的标志只有一个,写在表的上行或左列都可以。如果分类的标志有两个,且二者没有隶属关系,则左列与上行各一个。如果两个分类标志有隶属关系,则要放在一个方向(或上面或左侧)分两行分述。标目确立了数据组织的逻辑,并确定了栏目下数据栏的性质。

(4)数字:数字是统计表的语言,又称统计指标。它占据统计表的大部分空间,书写要整齐划一,数字应以个数位(或小数点)对准上下对齐,缺数字的项要划“—”。表中的数字一般不带单位、%(百分号)等,单位和%一般归在标目中。表中的数字构成了表体。

(5)表注:写于表的下面,是对统计表或者表内的某些内容进行补充说明和解释。数据来源、附记等都可作为表注的内容,文字可长可短。

统计表的结构和组成要素用三线表表示如下:

(四)统计图

1.统计图的概念和特点

(1)统计图(graph或chart)是依据数字资料,应用点、线、画、面、体、色等描绘制成,简明而又有规律,并且能显示数量的图形,它是统计数据资料的可视化显示方式。

(2)一张简单的图形,可以把一大堆数据中有用的信息概括地表现出来。图形比数字更为具体形象,能形象化地呈现事实或现象的全貌,给人以简明扼要、清晰易懂的印象,便于学习和记忆。

2.统计图的基本结构

统计图一般采用直角坐标系,通常横坐标(abscissa)或横轴(horizontal axis)表示事物的组别或自变量X,称为分类轴(category axis);纵坐标(ordinate)或纵轴(vertical axis)表示事物出现的次数或因变量Y,称为数值轴(scale axis)。除直角坐标外,如圆形图还有角度坐标等。统计图一般由下面几个部分组成:

(1)图号及图题,图号是图的序号。图题或标题是统计图的名称。图题的文字要言简意赅,具有说明性和专指性,使人一看就能知道该图所要显示的是何事、何物,发生于何时、何地。如果图示资料比较复杂,这时图题可用大标题与小标题。图题与图号之间也空一个汉字。与统计表格不同的是,统计图形的标题常置于图的正下方。图题的字体要与整个图形的大小相称,一般是图中使用的最大号的文字。书写顺序一般从左至右书写。

(2)图目,是写在图形基线上的各种不同类别、名称,或时间、空间的统计数量值,即横坐标上所用的各种单位名称,又称刻度线标签。

(3)图尺,是在统计图的横坐标及纵坐标上都要用一定的距离表示各种单位。图尺分点(tick)要清楚,整个图尺大小要包括所有的数据值,如果数据值大小相差悬殊,图尺可用断尺法或回尺法,减少图幅。

(4)图形,是图的主要部分,图形线条要清晰,一般除图形线外,避免书写文字。要表示不同的结果,用不同的图形线以示区别。

(5)图例,用来表示并标明各种图形的含义,其位置可选图中或图外适当的地方,注意保证整个统计图的和谐美观和均衡。

(6)图注,凡是图形中需要借助文字或数字加以补充说明的,均称为图注。图注部分的文字要少,字号要小。它可以帮助读者理解图形所示资料,提高统计图的使用价值,又不破坏图的美观。

二、次数分布表

次数分布(frequencydistribution)显示初步整理后一组数据的分布情况。它主要表示数据在各个分组区间内的散布情况。

依据它所显示的次数如何产生,次数分布可区分为简单次数分布、分组次数分布、相对次数分布、累积次数分布等。次数分布表和次数分布图就是各种次数分布的列表形式和图示形式。

(一)简单次数分布表(simple frequency table)

简单次数分布表就是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。

在心理与教育研究中,许多态度、兴趣、偏好等测验或调查的结果,都能制作成这种简单次数分布表。另外,不管是按类别分的计数数据,还是连续性的测量数据资料,它们都适合编制这种统计表。

(二)分组次数分布表(grouped frequency table)

当数据量很大时,应该把所有的数据先划分为若干分组区间,然后将数据按其数值大小划归到相应的组别内,分别统计各个组别中包括的数据个数,再用列表形式呈现出来,就构成了分组次数分布表。

1.编制分组次数分布表的步骤

(1)求全距

全距(range)指最大数与最小数两个数据值之间的差距。从被分组的数据中找出最大数与最小数,二者相减所得差数就是全距。

(2)决定组距与组数

组距(interval)是指任意一组的起点和终点之问的距离,用符号i表示。决定组距的大小,需要以全距为参考。全距大,则组距可大一些;全距小,则组距可小一些。组距经常取2、3、5、10、20等数值,这样便于分组,便于计算分组区间和组中值。如果先确定了组数,就可以用全距除以组数后,取整数表示组距。

组数(分组数目)的多少要根据数据的多少来定。如果数据个数在100以上,习惯上一般分10~20组,经常取12~16组。数据个数较少时,一般分为7~9组。如果数据的总体分布为正态,可用下面的经验公式计算组数(K),这样可使分组满足渐近最优关系。

(N为数据个数,K取近似整数)

用这个公式计算出的组数,只是一个近似数。因为究竟能分多少组,与分组时最低组的下限值和组距i有关。

(3)列出分组区间

分组区间即一个组的起点值和终点值之间的距离,又称组限。起点值称组下限,终点值称组上限,组限有表述组限和精确组限两种。

举例如下:

(4)登记并计算次数

依次将数据登记到各个相应的组别内,一般用画线记数或写“正”字的方法。为确保登记准确,第一次登记后需再核实。根据登记的结果计算各组的次数,计算各组次数的总和即总次数。并核对各组次数总和与数据的总个数是否相等。

(5)编制次数分布表

根据分组区间、组中值、次数以及频数列出次数分布表。其中频率与相对次数根据需要决定是否列出。

2.分组次数分布表的优点与缺点

(1)优点

编制分组次数分布表,可将一堆杂乱无序的数据排列成序。

从表中可以发现各个数据的出现次数是多少,其分布的状况如何。

次数分布表还可显示这一组数据的集中情况及差异情况等。

(2)缺点。

根据分组次数分布表的数据计算得到的平均值,会与用原数据计算的值有一定的出入。这是由于用分组数据编制次数分布表时,假设各区间的数据均匀分布,并用各组的组中值代表各原始数据,而不管数据原来的情况所造成的误差,这个误差称归组效应。

(三)相对次数分布表

将次数分布表中各组的实际次数转化为相对次数,即用频数比率(或百分比(·100%)来表示次数,就可制成相对次数分布表。

(四)累加次数分布表

1.概念

累加次数(cumulative frequency)是指把各组的次数由下而上,或由上而下累加在一起的统计方法。最后一组的累加次数应等于数据的总次数。用累加次数表示的次数分布称为累加次数分布(cumulative frequency distribution)。

2.方法

累加次数的方法有两种:

(1)一种是从分布表的小数值端,逐区间进行次数累加,这种累加次数可回答次数分布表某一分组区间上限以下的次数是多少。

(2)另一种是从分布表的大数端逐区间累加次数,这种累加次数可回答某一分组区间下限以上的次数是多少。

3.运用

在心理实验中对感知阈限的测定、各种心理量表的编制、心理测验中的项目分析、教育管理及成绩比较(如百分位数与百分等级)等,经常会用到这种累加次数分布表。

(五)双列次数分布表

1.概念

又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。有联系的两列变量,是指同一组被试中每个被试两门学业成绩分数,或两种能力分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果等。再如,各方面基本相同(如孪生子或智商相同)的两个被试进行同一测量所得到的结果也是有联系的。如果有多个这样的被试,他们的测试数据也构成有联系的两列变量。

2.方法

编制双列次数分布表,首先按照分组次数分布表的编制方法,分别列出各变量的分组区间,将一列变量的分组区间竖列,将另一变量横列。竖列的小数端在下,大数端在上,横列的小数端在左,大数端在右。登记时,每次同一对变量(有联系的两个变量)同时登记在相应的格内。

(六)不等距次数分布表

一般次数分布表都是等距的。但实际研究中常遇到不等距的情况,如工资级别、年龄分组等,若按等距分组不能确切地反映实际情况,这时可采取不等距分组的方法。

三、次数分布图

在次数分布表的基础上,若对分布进行粗略分析:看其变动趋势、差异细节,获得更为直观印象就要绘制次数布图等。

(一)直方图

直方图(histogram),又名等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。

一般用纵轴表示数据的频数,横轴表示数据的等距分组点,即各分组区间的上下限,有时用组中值表示。纵轴的刻度通常从零开始,横轴的刻度可以从任何合适的数字开始,与数据的分布范围和组距有关。组距的大小直接影响矩形的宽度,矩形的高度是由每组的频数表示的。在制作直方图时,以组距为底边,以分组区间的精确上下限为底边二端点,以次数为高画矩形,各直条矩形之间不留空隙,没有间隔。直方图下的面积与总次数相等,所以一个矩形的面积大小与每组的频数分布大小是等价的。如果将总面积定为1,那么,直方图中每一部分矩形的面积就是该矩形表示的分组区间内的次数与总次数的比值。

只使直方图包围的面积成封闭的图形,这种图又称组织图,是直方图的另一种形式。

直方图是统计学中常用而且又有特殊意义的一种统计图,有着重要的应用价值。

(二)次数多边形图

次数多边形图(frequency polygon)是一种表示连续性随机变量次数分布的线形图,属于次数分布图。凡是等距分组的可以用直方图表示的数据,都可用次数多边形图来表示。绘制时,横坐标是用各分组区间组中值表示的连续变量,纵坐标是数据的频数。以每个分组区间的组中值为横坐标,以各组的次数为纵坐标标点,连接各点,就成为一条折线。为使计算面积与直方图相等,可将折线两端画至前一组及后一组的组中值点,这样便连接成一个多边形了。

多边形图与直方图虽然都是以面积表示连续性数据的次数分布,但次数多边形对次数的轮廓显示得更好,组与组之间的次数过渡是连续而直接的。如果样本很大,能描绘出一条分布曲线,还可据此找到次数分布的经验公式。这样就能够对于某总体的理论次数分布的分析提供很多有用的信息。次数多边形还可用于多个同质的次数分布的比较,尽管各次数分布的总次数不等,但只要将次数用相对次数表示,并且组距相同,即可在同一个图中,表示两个或两个以上不同总数的次数分布,这样绘制的图也就是一个相对次数分布图。

(三)累加次数分布图

累加次数分布图有累加直方图与累加曲线图两种,它们都是在累加次数分布表基础上绘制的。

1.累加直方图

这种图的横坐标同直方图一样,标以分组区间,纵坐标是累加次数,其余步骤同绘制直方图的要求一样。

有了累加直方图可以清楚地看出某精确上限以下的累加次数。如果在累加直方图右侧纵线自上而下地标出次数,又可看到某精确下限以上的累加次数来。

2.累加曲线

累加曲线又称递加线。它的画法同次数多边形基本相同,不同点是横坐标为每分组区间的精确上限或精确下限,纵坐标是各分组的累加次数,分别标出各个交点,连接各交点即可画成累加曲线。如果有累加直方图,连接各组矩形的右顶点可画累加曲线。累加曲线的形式总是上升的,没有下降的情况,即使有的分组内无次数,曲线也不会下降。

累加曲线的形状大约有以下三种:一种是曲线的上枝(曲线靠近上端的部分)长于下枝(曲线靠近基线的部分),另一种形状是下枝长于上枝,第三种形状是上枝与下枝长度相当。曲线上枝长,说明大数端各组次数偏少且组数较多,各组的次数变化小。因此称次数分布的这种情况为正偏态分布,若小数端出现这种情况,则称这种次数分布为负偏态分布,若曲线的上下枝相当,说明次数分布的大数端与小数端分组的数目及各组的次数相当,各组次数的变化也基本相同,次数分布的这种情形称为正态分布。

图2-1  累加曲线的三种形状

四、其他类型的统计图表

(一)其他常用的统计表类型

统计表可按形式及内容,将其划分成不同的类型。

1.简单表

只列出观察对象的名称、地点、时序或统计指标名称的统计表为简单表。

2.分组表

只按一个标志分组的统计表为分组表,也称单向表(one-way table)。

3.复合表

按两个或两个以上标志分组的统计表为复合表。若只有两个分组指标的称为双向表(two-way table);有三个分组指标的称为三向表(three-way table)。

统计表按形式分可分为定性式、统计式、函数式。函数式的表在心理学实验中使用较多。函数式表的特征,主要在于自变量X与因变量Y的各对应的数值要按自变量X的大小顺序排列出来。有了这种数值排列,就可以作出因变量随自变量变化的函数曲线,因此称函数表。

(二)其他常用的统计图的类别

除了次数分布图,心理与教育统计中常用的统计图还有条形图、线形图、圆形图、散点图等等。

1.条形图

(1)条形图(bar charts),也叫直条图,主要用于表示离散型数据资料,即计数资料。它是以条形的长短表示各事物间数量的大小与数量之间的差异情况。条形图中一个轴是分类轴,表示类别,描述计数数据;另一个轴是数量轴,表示大小多少,描述计量数据,在这个轴上数据单的大小取决于原始数据。条形图因使用的条形形状不同而有多种名称,如矩形条图,梯形条图,尖形条图等,其中矩形条图应用最多,一般说的条形图就是指这种矩形条图。条形图又可分简单条形图(simple)、分组条形图(clustered)、分段条形图(stacked)三种。

(2)绘制条形图时要注意以下几点:

尺度须从零点开始。要等距分点,一般不能断开,否则会使长条间的比例发生错误,不易显示资料的差异情形。在不得已而断开的时候,应将数值在折断处注明。

条宽与间隔的比例要适当。为使图形区域美观大方,各条形之间的间隔(分类间距)要一致,一般为直条宽度的0.5~1倍之间比较合适。

直条的排列顺序可按时间序列,数量多少,以及相比较事物的固有序列,或根据具体情况来定。相比较的数目不宜太多。

图形区域中条形的顶端和下端尽量少用数据标签,如数值、系列名称、类别名称。如果需要,应注意协调美观。

调节过长条形的方法有两种:一种是调整图尺。要么改变图尺的刻度单位即改变每一间隔的增量(increment),要么采用断裂法,将图尺变为一条中间有间隙(gap)的断线(broken line)。另一种方法是使用折叠法、回转法来调整条形本身。后一种方法应尽量少用,因为这样调节后,容易影响图形的形状和大小,削弱了图形直观比较的特性。

在分组和分段这种复式条形图中,互相比较的长条拼在一起,不留空隙。各组内长条排列次序必须一致,以便比较。这种条形图必须有图例,以区分比较的数据。简单条形图可以不要图例。

(3)条形图与直方图的区别如下:

描述的数据类型不同。条形图用来描述称名型数据或计数数据,而直方图主要用来描述分组的连续性数据。

表示数据多少的方式不同。条形图用直条的长短或高低表示数据的多少和大小,而直方图用面积表示数据的多少和大小。直方图的总面积与总次数相等。

坐标轴上的标尺分点意义不同。条形图的一个坐标轴是分类轴,而直方图的一个坐标轴上表示的是另一个刻度值。

图形直观形状不同。条形图之间有间隔,直条与直条之间的间隔大小没有任何关系,不表示任何意义。直方图各个直方块之间紧密相接,没有间隙,当在某一数据上面分布的人数极少或没有,会出现断点。因此,在使用过程中,要注意二者之间的区别。

2.圆形图

(1)圆形图(circle graph),又称饼图(pie),主要用于描述间断性资料,目的是为显示各部分在整体中所占的比重大小,以及各部分之间的比较。

(2)圆形图显示的资料多以相对数(如百分数)为主。圆形图的图尺为圆周,分度是将圆周等分为100份,每百分之一相当于3.6o,一般以圆的上方,即时钟的指针在12时的位置的半径为基线。整个360o圆代表要显示的全部数量,圆形图中每一个楔形(wedge)或每一片(slice)表示整个数量中的一部分,它的度数取决于这部分在整体中所占的比例。绘制图形时可用下面的公式计算代表每部分数量的楔形的度数:

(3)绘制圆形图时要注意以下几点:

基线确定后,各部分按顺时针方向由大而小排列,或按相比较事物固有顺序排列。

图中各扇区用线条分开,注明简要文字及百分比,也可用不同颜色或不同线条将图中各部分分开,如果不在图中注明文字,可在图例中用文字说明图中各部分的内容。

在比较两种性质类似的资料时,二圆的直径应相同,图中各部分排列顺序也要一致。

图形中各个扇区或所有楔形的度数加起来应该等于。但是,由于不能使用量角器精确地测量度数,计算的度数值一般使用四舍五入法处理,因此,实际上所有角度加起来可能不一定恰好就是

3.线形图

(1)线形图(1ine graph)更多用于连续性资料,凡欲表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形,用线形图表示是较好的方法。也可在线形图中画两条线或多条线,用于比较两组或多组数据资料。线形图是教育与心理学实验报告中最常用的图示结果的方法

(2)常见的两种线形图有折线图和曲线图。折线图(broken line graph)是由条形图中每个条形顶部的中点连接而成,曲线图(curve)是折线分布修匀后比较平滑的线形图。

(3)绘制线形图的基本要点如下:

通常横轴表示时间或自变量;纵轴表示频数或因变量。

通常纵轴从零点开始,零点在纵轴于横轴相交处称为原点(对数尺度除外)。

(3)线与横轴间不应有说明文字或数目等,线条要粗于坐标纸格线。如有几条线,最好应用如虚线、实线、点线等不同线形以示区别,并用图例说明。一般比较的线不要超过五条。

若横轴表示组距,坐标轴上刻度只需标明组距起点的数值,或组中值,线图上与横轴各组段相当的点子应画在该组段中点的垂线上。

根据资料的性质,横轴与纵轴可分别取对数单位,也可同时取对数单位。分别取对数单位的称为半对数曲线,横轴与纵轴同时取对数的称为对数曲线。

4.散点图

散点图(scatter plots),又称点图、散布图(scatter diagram或scatter gram,scatter graph),它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。通常以圆点分布的形态表示两种现象间相关程度。

这些常用的统计图形,根据它们表现的作用和内容,把它们可分为五类。第一种是表现分布的图形,比如直方图。第二种是表现内容的图,如条形图和圆形图。圆形图由于无方向,所以较条形图应用得较少。第三种类型是表现变化的图,这种图形的代表是线形图。第四种类型的图形主要用于表现比较,如内容的比较、分布的比较、变化的比较,这几种图形都能采用,究竞选用哪种图形,要针对表现的对象,充分发挥各种图的优势,择优选用。第五种图形是表现相关的图形,即散点图。此外,用来直观描述观测值的图示方法还有茎叶图(stem-and-leaf display)与盒状图(box plot)。