1.3 多元数据的来源与质量
以获得数据的方法来划分,多元数据可分为实验数据和调查数据两大类。实验数据来自科学的实验设计,是围绕实验目的展开的,在控制了实验对象、条件、形态等诸因素后获得的随机序列数据(需满足抽样与分配的随机性)。调查数据也称为非实验性数据,主要来自于社会调查的结果(不容易保证上述随机性)。相对于实验数据,调查数据的获得相对快捷,规模也更大,但是其中的误差也更难控制。
此外,事先设定变量的分布等若干条件,由计算机生成的模拟数据(人工数据)也常用于各领域的研究中。
以数据的来源划分,多元数据还可分为原始数据和二手数据。原始数据是指未经加工的实验数据和调查数据,例如高考分数、人口普查结果等都是原始数据。原始数据蕴藏着大量的原始信息与误差。原始数据经过某种统计处理得出的数据称为二手数据。例如,政府部门和统计部门公布的有关资料、专业调查机构提供的统计数据等,都属于二手数据。一般来说,二手数据的收集成本大大低于原始数据。在研究初期,利用二手数据有助于确定研究目标、了解研究背景、寻找研究思路以及改善原始数据的收集设计。但是利用二手数据时,必须清楚它的来源以及可信程度。
对于心理学、教育学等领域的初学者来说,上述数据都是我们的研究对象。只要这些数据能够客观全面地反映研究问题的真实状况,就能为我们获得正确结果奠定基础。
我们在基础统计学中已经知道,研究对象的全体称为总体(population),样本(sample)则是来自总体的部分集合,从总体中抽取样本的过程称为抽样(sampling)。统计推论是统计学的主要内容,是通过样本来预测、判断研究对象的总体。多变量分析属于统计推论(statistical inference)的一部分。由于研究条件有限,我们通常很难获得总体的多元数据,大部分是样本数据。可以从三方面考查样本数据的优劣:一是样本是否具有代表性;二是抽样原则是否合理;三是样本量是否充足。
我们先看图1.1。图中的圆圈表示总体,其中标以“☆”的个体集合表示样本。如图1.1(a)所示的样本点均匀地取自总体,这个样本能较好地代表总体;(b)中的抽样可以接受,只是这个样本的样本量较小,可能会影响推测的精度;(c)所示的样本点集中于总体的某部分,代表性欠缺,虽然样本量较(b)的样本量大些,但是用来推测总体的话会存在偏差。
图1.1 样本的代表性
为了获得具有代表性的样本,抽样是关键的一环。一般来说,统计抽样可分为两类:随机抽样(random sampling)与目的抽样(purposive sampling)。前者不包含抽样者的主观意图与爱好,像抽签或者投骰子那样,随机地从总体中抽出个体,以保证总体中每一成员被抽出的可能性相等,这样的样本数据具有不少统计学性质,例如具有良好的代表性、可以评价估计的精度等;后者则是抽样者根据主观意图或者某种理论,尽量选出能够代表总体的样本。从实际操作角度来说,实施随机抽样比目的抽样要复杂得多,目的抽样的工作量相对少些,但控制抽样偏差比较难。如何对这两类抽样取长补短,统计学家提出不少改善的方法,如系统抽样、多段抽样、分层抽样以及比例抽样等。我们以两段抽样为例,来了解一下具体的操作过程。例如,需要调查某市家庭的食品支出,计划抽出有2000户家庭的样本。先从全市所有居委会中随机抽出50个居委会,每个居委会称为原始抽样单位(primary sampling unit),然后再从这50个居委会中的每个居委会随机抽出40户家庭,每户家庭称为二次抽样单位(secondary sampling unit),最后按公式计算出该市家庭的平均食品支出。
样本量也是影响样本代表性的重要因素。不同样本关于某一变量的测量值是存在差异的,即使同一样本重复测量,所得的观测值也会不同。样本量大些,各种统计量的结果就较为稳定。反之,不仅会增大抽样误差降低推论精确性,还会影响样本对总体的代表性。例如,对某市高中学生身高的调查,如果一个样本只有几十名学生,哪怕这些学生是随机抽的,该样本的身高分布还是有可能偏离总体身高的分布,甚至出现样本中性别比例的不均衡。因为男女生的平均身高本来就有差异,样本中性别比例的偏差会影响全市高中生身高的推测精度。如果随机抽出的样本量足够大,例如有几百人或上千人的话,样本的身高分布与总体分布的差异会大大减少,样本中的性别比例也会接近总体的比例。
由此可见,适度增大样本量可以提高样本对总体的代表性,提高样本统计量的稳定性。但是,样本量与抽样误差并不是线性关系,样本量由一百增加到一千的效果,远远大于样本量由一千增加到两千的效果。并且样本量过大,虽然减小了抽样误差,但是调查成本会随之增大,而且数据采集过程中因过失造成的误差也会增加。因此,最好根据研究目的对推测精度的要求,以及所用的统计分析方法对样本量的要求来决定样本的数量。
从心理测量学的角度来看,评价数据质量时还需查看量表的信度与数据采集时的外部因素。在经典测量理论中,信度(reliability)是评价心理测量工具——量表精确度的重要指标。经典测量理论假定观测分数由真分数与误差分数两部分组成:真分数是指不包含误差的被试特质的真实值,误差分数是指影响观测分数的随机误差或系统误差。在一定的假设条件下,可以导出观测分数的方差恰好是真分数方差与误差分数方差之和,于是信度被定义为
测量的信度系数=真分数的方差÷观测分数的方差,
或者
测量的信度系数=1-(误差分数的方差÷观测分数的方差)。
从上可知,观测分数中误差越大,则信度越低。我们强调要选择信度高的变量作为分析对象,就因为这些变量的误差较小,数据质量较为可靠。
提高测量信度的前提是不能改变所测目标的属性特征。这个问题涉及测量理论的另一基本概念:测量的效度,限于篇幅,这里不再展开。而在保证效度的基础上提高测量信度的基本方法之一是提高测量工具的精度。例如,测量身高时,相比于精确到分米的量尺,精确到厘米的量尺其测量结果的信度来得更高一些。在教育学与心理学研究领域中,通常用增加问卷(或测试)的项目数量与细化项目得分的等级来提高测量信度。但是,增加项目数量的方法也有弊端,容易引起被试疲劳从而影响答题质量。一般来说,心理量表中子维度的项目数若能控制在10个左右较为妥当,至多不能超过20个。教育学测量使用的项目数可以比心理测量多一些。方法之二是选用相关度较高的项目。在项目数量不变的前提下,项目之间的相关程度越高测量的信度也越高。但是,往往项目间的相关高了,测量范围就会变窄,从而降低了测量准确性,即影响了测验效度。例如,在语文能力测验中只有词汇理解的内容,题量再多,信度再高,也无法涵盖全部语文能力;相反,若测验包含词汇、语法、阅读理解、作文等多个类别,虽然每类只有数个题目,可能会在一定程度上降低每类的信度,但是语文能力测试的效度却会得到很大提高。
另外,除了提高量表本身的信度之外,还要注意测量的外部因素影响。例如,在英语听力测验中,外界的噪声会影响被试的解答结果。如果考场的隔音条件差异较大时,就会大大降低听力测验结果的信度。再如,被试作答的意愿高低也会影响数据的质量,如考试中的抄袭、作弊、作答态度不认真等。甚至,变量采集的顺序也会对数据结果造成差异。例如,在一项学生能力调查中有语文、数学、英语三个能力测验,如果一部分被试解答的顺序是数学、英语、语文,另一部分被试解答的顺序是英语、语文、数学的话,两组被试中数学能力相同的被试其数学成绩可能因为疲劳出现差异,若将这两组的数学分数放在一起分析可能会得出不正确的结论。
综上所述,为了保证多元统计分析得到正确的结论,确保数据质量是最为基础的一环,必须控制好抽样、采集工具、外部条件等诸多环节(参见图1.2)。
图1.2 影响统计推论可靠性的因素