1.4 数据文件的建立
在统计工作中,通过统计调查或试验搜集来的数据资料要借助计算机进行分析,首先必须将这些数据资料输入计算机,建立数据文件,这是进行统计分析的基础工作。在SPSS中,数据文件的建立包括变量的建立和属性的设定及观测值的输入,而第一步就是设定数据文件中涉及的各个变量的属性,完成了变量的设定就可以进入下一步观测值的输入工作了。
1.4.1 SPSS的数据文件
在SPSS中,我们可以通过执行“文件︱打开︱数据”命令选择要打开的数据文件,如图1-24所示。在“文件类型”下拉列表框中列出了SPSS能够读取的文件类型。关于这些数据类型的基本信息如表1-1所示。
图1-24 “打开数据”对话框
表1-1 数据类型表
本书只介绍后缀名为“.sav”的文件,其他类型的文件将不在本书中介绍。下面我们打开一个具体的数据文件,在图1-24的文件列表中选择文件child.sav,单击“打开”按钮,读取数据,如图1-25所示。从数据文件的外观上看,数据区的单元格里都有一个具体的数据。无论它表现为数字、文字、日期或符号,都将它们统称为数据,在变量列的顶端以确定的名称显示出来。单击任何一个有数据的单元格时,该单元格被一个黑框突显出来,称此单元格为选定单元格或活动单元格,同时这个单元格里的数据会显示在数据输入栏中,表明可对这个数据进行编辑操作,选定单元格中数据对应的观测值序号和变量名称时,则它们会同时显示在数据输入栏左侧的状态栏里。使用窗口右侧或下方的滚动条按钮可以滚动屏幕,观察更多的变量和数据。
当需要特别处理或了解某变量或观测值的情况时,单击相关变量名或观测值序号,则对应的变量列或观测值行以置亮的形式突显,称这列(或行)为选中列(或行),选择列变量和选择行变量分别如图1-26和图1-27所示。
图1-25 child.sav数据文件
图1-26 选择列变量
图1-27 选择行变量
1.4.2 变量与观测值
建立数据文件的目的是为了对数据文件中的研究对象的数量特征进行分析,揭示其内在的变化规律。掌握准确、全面的数据资料是统计分析的基础,这直接关系到统计分析的结果。因此,建立一个科学、合理、精炼的数据文件是非常重要的。SPSS的数据文件里包括变量、观测值等,首先来介绍这些基本概念。
1.变量
SPSS中的变量与统计学中的变量概念是一致的。对个体而言,它表示统计标志;对总体而言,它表示统计指标。SPSS变量具有以下属性:变量名、变量类型、变量标签、值标签、变量格式宽度、单元格对齐格式、缺失值及测度方式等。下面进行简要介绍。
(1)变量名
变量名,即变量名称,定义一个变量首先应当为它命名,SPSS中变量命名的规则如下:
● SPSS变量的变量名不能超过64个字符。
● 首字符必须是字母、中文或特殊符号“@”“$”或“#”。
● 变量名中不能出现“?”“!”“-”“+”“=”“*”和空格。
● 末字符不能为“.”和“ ”。
● 名称不能与SPSS的保留字相同。SPSS的保留字有AND、BY、EQ、GE、GT 、LT、NE、NOT、OR、TO、WITH和ALL。
● 系统不区分变量名中的大小写字母。
(2)变量类型
SPSS变量有3种基本类型:数值型、字符型和日期型。系统默认的变量宽度为8(包括小数点或字母在内的数字总数为8),小数点位数为2,如12345.56、Student、1.25E-08皆为符合要求的变量值。如果要改变系统默认的变量宽度,则可以执行“编辑|选项”命令重新设置。
● 数值变量值就是平常的数字书写格式,带逗点型的数值变量,其变量值的整数部分自右向左每3位加一个逗点作为分隔符,用圆点作小数点;带圆点型的数值变量,其变量值的整数部分自右向左每3位加一个圆点作为分隔符,而用逗点作小数点;科学记数法中表示指数的字母用E,也可用D,甚至不用,如2.35E2、2.35E+2、2.35D2,2.35+2都表示235,均显示为2.4E+02。
● 日期型变量值的显示格式非常多,无论选定哪一种具体的格式,输入时都可以使用“/”和“-”作为分隔符,显示时系统会按定义的格式输出。
● 字符型变量的值是一串字符,使用时需特别注意,定义变量名时字母大小写是不加以区分的,但输入字符型变量值(即字符串)时,系统对大写字母和小写字母则是严格加以区分的,需要注意的是,字符型变量不参与运算。
(3)变量标签
变量标签是对变量名的附加说明。在许多情况下,SPSS中不超过8个字符的变量名,不足以表达变量的含义。而利用变量标签就可以对变量的意义作进一步的解释和说明。特别地,在Windows中文系统下还可以附加中文标签,这给不熟悉英文的用户带来很大方便。例如,定义变量名Car,可以加注标签“汽车”。给变量加了标签以后,在数据窗口操作时,当鼠标箭头指向一个变量的时候,变量名称的下方就会立即显示出它的标签。
(4)值标签
值标签或标签值,是对变量的可能取值附加的进一步说明,通常仅对类型(或分类)变量的取值指定值标签。
(5)变量格式宽度
变量格式宽度是指在数据窗口中变量所占据的单元格的列宽度。应该注意,定义变量类型时指定的宽度和定义变量格式宽度是有区别的。定义变量格式宽度应当综合考虑变量宽度和变量名所占的宽度,一般取其较大的一个作为定义该变量格式宽度时可取的最小值。
(6)单元格对齐格式
在数据窗口中,变量值在单元格的显示有左、中、右之分,一般情况下,对数值型变量默认的对齐方式为右对齐,字符型变量默认的对齐方式为左对齐,用户可以自行决定对齐方式。
(7)缺失值
搜集研究对象的有关统计资料是统计工作的基础,但是在具体工作时,总难免会发生一些失误。例如,需要观测的现象没有观测到,或者由于不慎遗失了原始记录,或者由于登记的疏忽导致记录错误。总之,会因种种原因造成统计资料的残缺、遗漏和差错。统计中把那些没有观测到,或没有记录到或者记录结果有明显错误的数值称为缺失值。例如,在调查小麦亩产量时,记录到某地的平均亩产为4580公斤,如此高的产量显然违背普通常识,这个数据应属于错误的数据,统计分析中使用了这样的数据必然导致错误的分析结果。SPSS提供了处理这些缺失值的功能,以便在统计分析中排除它们。在SPSS中,对数值型变量,系统默认的缺失值为0,而对字符型变量,系统默认的缺失值为空格。用户可以自定义缺失值,例如在处理小麦亩产量数据资料时,可以把数值大于1500公斤的数据标记为缺失值。
(8)测度方式
统计学中,所谓测度是指按照某种法则给现象、事物或事件分派一定的数字或符号,通过测度来刻画事物的特征或属性。例如,对人进行测度,其属性或特征有性别、年龄、身高、体重、职业等。可以用58公斤标识某人的体重,用172厘米标识身高,用1(男)或2(女)标识性别。
2.观测值
统计学中指出,构成总体的单位具有各种各样的特征,将这些特征的名称称为“标志”。如某工厂的全体职工组成一个总体,该厂的每个职工为一个总体单位,他们都有姓名、性别、民族、体重、身高、工资等,这些反映职工特征的名称称为标志,这些标志又区分为数量型标志(可用数量来表示的,如体重、身高、工资等)和品质型标志(不能用数量表示的,如性别、民族等)。对每一个职工进行观察,都可以记录到每个标志的一组资料,这组资料在统计学中称为标志的标志表现,对不同的职工将记录到互不相同的资料,体现了标志的变异性,因此,笼统地称各个特征为变量。如果把对一个职工各种特征的观察视为一个,便可得到反映这个职工具体特征的一组观测值,这—组观测值在SPSS中称为一个案例。数据窗口的二维表格中的一行用来存放一组观测值。因此,把数据窗口的每—行就当作为一个案例,表中第m行第n列交叉点处的单元格中的数值视为第m个单位的第n个变量的变量值。
1.4.3 在SPSS中定义变量
在建立数据文件之前首先要定义变量,在SPSS中,我们需要在“变量视图”窗口中定义变量,如图1-28所示。
图1-28 变量视图窗口
定义变量的步骤如下。
1.定义变量名
将光标置于“名称”一列的空单元格中,单击单元格后输入变量名。例如输入“性别”,回车后在同一行各单元格中自动输出了该变量的默认属性,如图1-29所示。变量的默认属性值如下:
● 类型:默认类型为数值型。
● 宽度:默认长度为8。
● 小数:默认小数位数为2。
● 标签:用户自定义。
● 值:用户自定义。
● 缺失:用户自定义。
● 列:变量在数据视图中所占列宽默认为8个英文字符宽。
● 对齐:默认右对齐。
● 度量标准:用户自定义。
图1-29 定义变量名
如果默认的属性与要定义的变量属性不符,就可以在各属性单元格中设置所需要的变量属性。显然,默认属性与变量“性别”的属性有很大差别。
2.定义变量类型
单击类型一列的单元格,默认的“数值(N)”右侧会出现按钮。单击按钮,弹出“变量类型”对话框,如图1-30所示。该对话框的左半边列有9种可供选择的变量类型,自上而下分别为数字、逗号、点、科学记数法、日期、美元、定制货币、字符串和受限数字(带有前导零的整数)。
单击选择所需类型。“宽度”文本框中的数值是变量的总宽度,“小数位数”文本框中显示的是小数位数。若要改变其值,可在单元格中单击鼠标左健,在编辑状态下输入用户认为合适的数字。
3.定义变量标签
定义变量标签是为了注释变量名的含义,在变量视图窗口中双击标签列中相应的单元格,输入注释即可,注意要尽量简单明了。例如,定义了性别变量是宽度为2位整数的数值型变量,可以给出中文标签,输入“性别”,作为变量的标签。
4.定义变量取值标签
单击“值”列中相应的单元格,该单元格右侧出现按钮。单击按钮,弹出“值标签”对话框,如图1-31所示。在“值”文本框中输入变量值,在“标签”文本框中输入对该值含义解释的标签。单击“添加”按钮,一个值标签就被加入到第三个框(值标签清单)。例如,在定义性别变量的过程中,数值1表示男性,数值2表示女性,则先在第一个“值”文本框中输入“1”,在第二个“标签”文本框中输入“男”,单击“添加”按钮,列表框中增加了一个值标签,显示“1.00=男”。利用同样的方法定义第二个值标签,清单中显示“2.00=女”,值标签定义完成。确认定义的变量标签和值标签正确无误后单击“确定”按钮,返回变量视图窗口。
图1-30 “变量类型”对话框
图1-31 “值标签”对话框
5.定义缺失值
在“变量视图”窗口中单击变量与“缺失”一列对应的单元格,然后单击单元格右侧的按钮,弹出“缺失值”对话框,如图1-32所示。先选择一种缺失值的类型,再进行具体的定义。缺失值的类型共有3种:
图1-32 “缺失值”对话框
● 无缺失值。该选项是系统的默认状态,如果当前变量的值测试、记录完全正确,没有遗漏,则可选择此项。
● 离散缺失值。选择这种方式定义缺失值,可以在下面的3个矩形框中输入3个可能出现在相应变量中的缺失值,也可以少于3个。在进行统计分析时系统遇到这几个值,则作为缺失值处理。例如,对于性别变量,如果定义了用1表示男,用2表示女,则值为0、3、4都被认为是非法的。如果将这3个值分别输入到3个矩形框中,当数据文件中出现这几个数据时,系统将按缺失值处理。
● 范围加上一个可选的离散缺失值。选择此项后,除了“下限”和“上限”文本框外,还有一个“离散值”文本框,这里即可设置范围以外的一个值。例如,如果定义变量身高的值中输入的错误数据有1.40、1.90、1.95和2.03,而且在1.90~2.03之间没有正确的身高测试值,正确值在大于1.40和小于1.90的范围内,则可选择此种定义缺失值的方式。在“下限”文本框中输入1.90,在“上限”文本框中输入2.03,在“离散值”文本框中输入1.40。如果这样仍不能把所有的非法值包括在内,则要在数据文件中查出错误数据进行修改,使其成为系统缺失值。或者在语法窗口中利用程序语句解决定义缺失值的问题。
6.定义变量的显示格式
定义变量的显示格式分为两个部分:
● 定义显示时的列宽度。在“变量视图”窗口中单击“列”一列的单元格,再单击出现的上下箭头按钮,即可增加或减少列宽度值。
● 定义显示时的对齐方式。在“变量视图”窗口中,“对齐”列中显示的是默认的对齐方式。对于数值型变量,系统默认是右对齐;对于字符型变量,系统默认是左对齐。如果要改变默认的对齐方式,可单击“对齐”列中相应的单元格,在下拉列表中进行选择。有3种可选择的方式:左、右、居中。
7.定义变量的测度类型
“测量”列单元格中显示的是变量的默认测度方式,比如变量“性别”的测度方式是标度。如果要改变默认的测度类型,则可单击“测量”列中相应的单元格,展开下拉列表,如图1-33所示。在下拉列表中有3个可选择的类型。
● 标度:对等间隔测度的变量或表示比值的变量选择此项,如身高、体重。
● 有序:对其值表示顺序的变量选择此项,如比赛名次、职务、职称等,可以是数值型变量,也可以是字符型变量。
● 名义:对分类变量选择此项,可以是数值型变量,也可以是字符型变量。例如,变量值是对所喜欢的颜色的回答,或是表示宗教信仰、党派等的变量。
图1-33 选择测度类型
经过上述操作,即完成对一个变量的属性参数的定义,所有变量名及其属性都显示在“变量视图”窗口中。重复上述操作,可以定义其他变量的属性参数。如果对定义的属性满意,则单击窗口左下角的“数据视图”标签,切换到“数据视图”窗口,开始输入数据。下一节将详细介绍录入数据的方法,等数据全部录入完成,数据文件就建立起来了。