1.7 数据的录入与前期处理
1.7.1 数据的录入与检查
多元数据的统计分析离不开统计软件。分析前必须将采集到的数据录入到计算机的数据文件中。大规模的数据录入往往借助机器自动录入。但对于初学者来说,手工录入数据是经常性的工作,必须从一开始便养成良好的录入习惯。
正确录入数据往往需要注意以下几个方面:
(1)选择正确的录入格式。
根据1.4节中多元数据的矩阵表示,将同一被试个体的数据录入到数据文件的同一行(称为一个记录),同一变量的数据录入到数据文件的同一列(如图1.7所示)。假如不同样本的变量顺序在采集过程中有差异,录入时要注意调整,以保证数据文件中的同一行记录的是同一被试个体的数据,同一列是同一变量的观测数据,否则计算时就会出错。
图1.7 数据录入(SPSS的数据编辑界面)
用SPSS, Excel等统计软件录入数据时,数据文件的画面中虽然有行号,但是根据实践经验,我们建议在原始数据文件的首列增加一个ID变量(图1.7的第1列),即对每行数据(每个记录)赋予一个独立的ID编号,并且将它们标在回收的问卷等原始资料上,以保持数据文件与原始资料的对应关系。在核对与整理中一旦发现有误,可以返回原始资料查对。在复制文件中删除的某些被试个体的记录,需要时也可根据ID在原始数据文件中找到。另外有了独立的ID编号,不论以何种条件重新排序(例如以某观测变量的大小),可以很方便地恢复到数据文件的初始状态。
(2)保存资料的原始信息于原始数据文件中。
首先,录入数据时尽量避免做人为的加工。例如,录入四选一形式的作答结果时,不能人为地换成对错结果录入,必须如实录入被试具体的选择,以形成原始数据文件。
另外,调查中获得的样本属性的其他信息(例如,被试的性别、年龄、学校等)也应保存到原始数据文件中。因为这些信息常常是研究者发现新问题的线索。例如,调查某高校数学与语文的录取成绩时,发现全校新生的两科成绩之间没有相关,但是按文理科分开看的话,这两科成绩之间存在着正相关(图1.8(a));在分析全体新生的语文与英语成绩时,发现两科成绩之间存在正相关,但是按性别单独看时,这两科成绩间却没有什么相关(图1.8(b))。这个例子启发我们作数据分析时不要忽视那些附带的属性。在很多场合,那些属性会启发我们开展新的研究。
图1.8 总体合并对相关系数的影响
在调查中经常会出现被试回答不全或拒绝回答的现象。在录入数据时,缺失的数据最好按原样或空格录入,尽量避免用“0”或其他数字来表示,例如,在录入5分制的数据时,把缺失数据用“0”或“9”表示。这种处理虽然可以区别数据的缺失与否,但是使用统计软件时,计算机容易将“0”“9”误判为观测数据,出现计算差错。
(3)录入数据后一定要复验。
在数据的录入过程中,难免会发生误录的现象。因此,检查数据文件是否存在录入错误是分析前不可缺少的一环。首先,录入数据后一定要逐一核对原始资料,这对初学者来说尤其重要。其次,利用统计软件中的描述统计功能,查看各个观测变量的最大和最小值以确认是否存在异常值。例如,在作答只有1~5五个等级的数据中,若出现了0或大于5的数值,显然是录入错误。再如,将身高数据172.5误录为17.25,1725等,也是录入时常出现的失误。如果某变量的最大或最小值超出了合理范围,需要对照原始资料检查这个数据的前后数据,看是否存在误录。
(4)一切操作都在复制的新文件上进行。
原始数据文件应妥善保存。一切操作都应在复制的新文件上进行,这样可以避免因操作失误导致对原始数据文件的破坏。需要对数据进行变换时(例如将选项变换成0 1数据),就在复制文件上进行数据变换。直接在原始数据文件上进行数据变换的话,一旦出错往往很难在数据复核中查出。
最后保存新文件时,文件名中需要包含改动时间、内容等信息,以便区分不同版本的数据文件。例如,原始数据文件名为Data2014.sav,将改动后的新数据文件命名为Data2014-08-12.sav或Data2014-z.sav等。
1.7.2 数据的前期处理
(1)缺失数据。
在数据的收集过程中,常常会因实验器械的故障、问卷调查中的无回答项目或无效解答(例如单选项目中选择多个选项等不符合答题要求的解答)等原因,出现部分数据缺失(missing data)的现象。针对不同原因导致的数据缺失,相应的处理方法也各不相同。
总的来说,缺失数据的处理方法可分为两大类,删除或用估计值替代。最简单的替代方法是用各变量的平均值、中数等代表值来替代。在实际操作中,可先将样本按某一标准分为若干组,再用各组的代表值来替代缺失数据。计数数据一般用最高频值,计量数据多用平均值。当样本量较大时,还可找出除缺失数据之外的与该个体的其他观测数据类似程度最高的个体,用其对应的观测数据来替代缺失数据。此外,如果缺失数据为名义数据(而且数量较多时),可以将其作为一个单独的类别来处理(例如,某名义变量有五个类别,用数字1~5表示,则可将缺失数据处理为“6”,成为第六个类别)。缺失数据为计量数据时,还有一些较复杂的估计方法,如用回归预测、主成分得分等,但方法越复杂,估计值的质量越难控制。如何正确选择与应用处理缺失值的方法,不仅需要学习相关的专业知识(Little&Rubin,2002),还需要在实践中不断地积累经验。
采用删除缺失数据的处理方式时,首先需要确认发生缺失数据的个体是否存在某种共性。例如,在某中学生学业水平调查中,如果发现平时成绩较差学生的数据大量缺失,就可判断这个样本的代表性有问题,需要补充相应程度学生的数据。如能够判断这些缺失数据是随机发生的,则可考虑删除这些缺失的记录,但必须评估删除后的统计结果是否达到预想的精度。若不影响精度要求,则建议全部删除这些含有缺失数据的记录。因为,倘若某一记录在变量X上有缺失数据,在变量Y和Z上则不然,考虑到大多数的统计软件,只是计算变量X与Y, X与Z的协方差或相关系数时,将该记录的数据排除在外,但在计算Y与Z的协方差或相关系数时,就不会排除该记录,故这样的处理虽然可以最大限度地利用观测数据,但是会使协方差或者相关系数矩阵无法保证是正定对称的,即不能保证特征值全部为正值,这样在统计推测的过程中就容易出现问题。
虽然各种用来替代缺失数据的估计值有着不同的精度,但无论何种估计值,都与真值存在差异,都会导致统计分析结果发生偏离。对初学者来说,往往很难判断这种影响的大小。因此,我们建议在初学阶段采用删除这些缺失数据的处理方式。当然,最好的方法是在数据采集中尽可能地避免缺失数据的发生。
(2)离群数据。
所谓离群数据(outlier)是指变量的观测数据中超出常规(期待范围)的特大或特小值。数据文件中各变量是否存在离群数据,可以利用描述性统计量(表1.8)、直方图(图1.9(a))或箱图(图1.9(b))等工具来检查。如果某变量服从正态分布,则距离均值的绝对值大于3个标准差的观测数据、直方图中正态分布曲线外侧的数据,或者位于箱图上、下边缘横线以外的数据均可视为离群数据。
表1.8 多元变量数据的描述性统计量
图1.9 父亲身高数据
出现离群数据的原因,大致可分为两类:一是数据采集过程中由各种失误造成的。由失误(例如,测量器具故障、环境的变化、误记录等干扰因素)和个体的异常(例如,被试的认真程度、健康状况等干扰因素)等原因造成的异常数据,称为异常值(与其他观测数据差异很大,似不属于同一总体)。对于这种情况的离群数据,一旦确认应排除在统计分析之外。
二是由于抽样范围不合理、总体分布的固有特性等原因所致。具体地说,当抽出的样本缺乏代表性,样本量又偏少,变量的总体分布偏离正态分布比较严重等因素影响下,变量的观察数据会出现离群数据。这种离群数据对于总体来说并非异常,只是这个变量的极端值(虽然与其他观测数据呈现很大的差异,但与其他观测数据属于同一总体)。
对于这类原因形成的离群数据,应尽可能在多变量条件下做进一步考查。往往有这种情形:单独观测某变量的数据时发现存在离群数据,但从多个变量所提供的信息来看,该数据并非是异常值。例如,在一组样本量为100的父亲、子女身高的数据中,单独观察父亲或子女身高箱图(图1.10(a)),第51号被试的数据被视为异常,但是从女儿身高与父亲身高的关系来看(图1.10(b)),第51号被试的数据只是一个极端值而已。
图1.10 父亲与子女的身高数据
相反,分别观测各变量的数据时没有发现离群数据,但从多变量的观测数据全体来评价,有可能存在离群数据。例如,在一组样本量为50的初中语文与英语成绩的调查数据中,单独从英语或语文成绩的数据(图1.11(a))来看,两个变量的观测数据中都不存在离群数据。但是,从语文与英语成绩的散点图(图1.11(b))来看,第47号被试显示出与其他被试不同的特性。对于这种离群数据,应在详细考查发生原因的基础上再决定处理方式。如果有证据表明存在干扰因素(例如,第47号被试的语文成绩低下是由于语文测试时身体不适),在统计分析中应删除该数据;如果是因为被试的自身特性造成的(例如,第47号被试曾长期生活在英语环境中),应根据研究目的来决定是否取舍。因此处理第二种原因造成的离群数据,特别是多变量的离群数据要比单变量的复杂得多,需要我们根据相关信息进行综合分析。特别是分析大规模的调查数据,例如全国性大型考试、国际协作调查,在数据处理前一定要有综合分析。在这种情况下,我们建议同时分析包含与不包含极端值的数据,然后比对两种统计结果。
图1.11 语文和英语成绩数据
对于初学者而言,需要分析的数据往往样本量不大,数据中含有极端值时常会使统计软件无法正常运行。即使得到某种结果,该结果解释也会变得异常复杂。因此初学者可以先排除数据中的极端值,然后再进行统计分析。有条件的话也可像上述处理大数据那样给出包含与不包含极端值的两种分析结果,方便比对。如果对研究总体的界定和估计精度有严格要求的话,则需要增加样本量后重新分析。