SPSS统计分析与实验指导(视频教学版)
上QQ阅读APP看书,第一时间看更新

实验2-3 数据探索

 素材文件:sample/Chap02/child.sav

多媒体教学文件:视频/实验2-3.mp4

实验基本原理

数据探索是统计分析中非常重要的一步,可以帮助我们决定选择哪种统计方法进行数据分析,这是因为我们在搜集到数据并建立数据文件后,并非立即投入统计分析,数据结构、数据中隐含的内在统计规律等尚不清楚,需要对数据进行考察或探索。数据探索的目的主要有以下两点:

● 检查或发现数据中的错误:载入数据文件的数据不能保证都是准确无误的,需要检查一下其中有无异常数值,找出这些异常值,并分析这些数值产生的原因,决定是否可以剔除或修改。异常值主要包括错误数据、与绝大多数数值相比过大或过小的数据等。数据中包含的异常数据必然会影响分析结果,掩盖变量变化的真实规律和特征。

● 探索变量变化的分布特征:不同的随机变量服从不同的分布规律,需要采用不同的统计方法。例如,来自非正态分布的数据使用正态分析方法,自然不会得到期望的结果。因此,需要通过数据的探索对变量可能服从的分布类型加以确定。通过数据探索,可以使我们获得对变量统计规律的初步认识。

SPSS中的“探索”是在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案。

实验目的与要求

实验目的:通过本次实验明白数据探索的意义,了解如何检测数据异常的一般方法,从而能从中判断并修正数据中的错误;能通过数据探索了解数据主要变量的分布特征,为下一步的统计分析选择合适的方法和手段。

实验要求:能够通过数据探索分析了解数据中变量的一些基本统计特征;能通过数据探索绘制数据中变量的各种图形,如茎叶图、箱图等;能够解释这些图形,从而了解数据中各个变量的分布特征;了解各个统计量的计算方法和各个统计图形的含义。

实验内容及数据来源

本次实验使用的数据文件是child.sav,这个数据集记录了97名儿童的性别、身高等属性特征,数据中共有97个样本观测值,12个变量属性,图2-13给出了部分数据。12个属性变量分别表示儿童的编号(y1)、性别(y2)、月龄(y3)、体重(y4,kg)、身高(y5,cm)、坐高(y6,cm)、胸围(y7,cm)、头围(y8,cm)、左眼视力(y9)、右眼视力(y10)、血检(test)、年龄(age)。实验的内容是对这个数据中的身高变量(y5,cm)进行探索性分析。

图2-13 child.sav数据集的部分数据

实验操作指导

实验的操作步骤如下:

01 选择“文件︱打开︱数据”命令,打开child.sav数据表。

02 选择“分析︱描述统计︱探索”命令,弹出“探索”对话框,如图2-14所示。在左侧变量框中选择“身高,cm[y5]”,单击按钮将其选入右侧的“因变量列表”列表框中,这是因为我们要分析的变量是身高,如果要分析多个变量,则可以把要分析的所有变量都移至“因变量列表”列表框中。然后在左侧的变量框中选择“性别[y2]”,单击按钮移入右侧的“因子列表”列表框中,我们把性别作为因子变量是为了分析性别的差异对身高差异的解释程度和解释能力。

图2-14 “探索”对话框

对话框选项设置/说明

注意“因子列表”下方有一个“个案标注依据”,可以从左侧的变量框中选择变量作为标识变量。选择标识变量的作用在于,当系统在数据探索时发现了奇异值,便可利用标识变量加以标记,以便用户查找这些奇异值。如果不选择,则系统默认以编号(x1)作为标识变量。在“探索”对话框左下方有一个“输出”选项组,其中有3个单选按钮。

● 统计:此功能处于激活状态(“图”单选按钮关闭),输出时仅显示描述统计量表。

● 图:此功能处于激活状态(“统计量”单选按钮关闭),输出时只显示图形。

● 两者:选择此项,则两者同时显示,这是系统默认的选项。这里我们选择“两者”(统计与图)。

03 单击“统计”按钮,打开“探索:统计”对话框,如图2-15所示。

对话框选项设置/说明

该对话框中有4个复选框:描述、M-估计量、离群值、百分位数。

● 描述:输出结果显示平均值、中位数、5%调整平均数等描述统计量的值。其中“平均值的置信区间”将显示总体均值的95%置信区间,95%为系统默认的置信概率,可以改变此数值,范围是1~99。

● M-估计量:输出的结果显示几种描述集中趋势的估计量。

● 离群值:显示5个最高与最低的观测值,并显示变量标识。

● 百分位数:显示第5、10、25、50、75、90及95百分位数。

这里选中“描述”和“百分位数”两个复选框并将“平均值的置信区间”设置为95%。

04 单击“继续”按钮回到“探索”对话框。单击“图”按钮,打开“探索:图”对话框,如图2-16所示。

对话框选项设置/说明

“箱图”选项组中有以下3个选项。

● 因子级别并置:将每个因变量对于不同分组的箱图并列显示,以利于比较各组在因变量同一水平上的差异。

● 因变量并置:根据因子变量每个分组单独产生箱形图,各因变量的箱形图并排排列。

● 无:将不显示任何箱形图。

这里选择“因子级别并置”,因为我们想要比较的是各组变量在同一水平上的差异。“描述图”选项组中有两种图形可选:“茎叶图”和“直方图”。“含检验的正态图”复选框可以显示正态图和去趋势正态概率图。

“含莱文检验的分布-水平图”选项组中有以下4个选项。

● 无:不进行莱文检验。

● 幂估算:将产生四分位数间距的自然对数与所有单元格中位数的自然对数的散布图。

● 转换后:可以选择相应的幂次,产生转换后数据的散布图。

● 未转换:产生原始数据的散布图。

这里选择“无”,因为我们要分析的变量是单变量,不需要进行散布水平的莱文检验。

05 单击“继续”按钮回到“探索”对话框。单击“选项”按钮,弹出“探索:选项”对话框,如图2-17所示。

图2-15 “探索:统计”对话框

图2-16 “探索:图”对话框

图2-17 “探索:选项”对话框

对话框选项设置/说明

“缺失值”选项组用来设置缺失值的处理方法。

● 成列排除个案:在所有分析中剔除因变量或因子变量中含有缺失值的个案。

● 成对排除个案:在分析时剔除此分析中含有的缺失值的个案。

● 报告值:将因子变量中含有缺失值的样本作为一个独立的分类处理,在结果中产生一个附加分类。

这里选择“成列排除个案”,当然也可以选择“成对排除个案”或“报告值”。

06 单击“继续”按钮回到“探索”对话框,单击“确定”按钮,进行计算分析。

计算机运行完成后得到结果如图2-18~图2-22所示。

实验结论

图2-18给出了个案的处理结果,里面包含了一些数据的基本的信息,如有效值、缺失值、合计等,这个表比较简单,结果很明显,这里就不赘述了。

图2-18 案例处理结果总结

图2-19给出了描述性统计量表,统计量为分析变量y5(身高)按y2(性别)分组后的描述统计量。从上到下分别为平均值、平均值的95%置信区间的上限/下限、5%剪除后平均值、中位数、方差、标准偏差、最小值、最大值、全距、四分位距、偏度和峰度。标准错误为标准误差值,依次为平均值、偏度和峰度的标准误差。

图2-19 描述性统计量

图2-20和图2-21给出了男女两组儿童身高数据的直方图,从图中我们可以看到男童的身高分布左右不均匀,与正态分布的图形差距较大;女童的身高分布左右比较平均,比较接近正态分布。

图2-20 男童身高直方图

图2-21 女童身高直方图

图2-22给出了箱图。箱图是按分组变量值并列显示,其结构包括以下几个部分。

图2-22 不同性别身高的箱形图

● 矩形框:为箱图主体。箱的上边线和下边线纵值之差称为箱长,也称为“内四分位限”,它包含了变量约50%的数值,箱体矩形框上、中、下三条平行线依次表示变量的75%、50%、25%分位数。

● 触须线:中间的竖线,它向上和向下触及的两条横线分别表示变量本体的最大值和最小值。

● 奇异值:位于箱本体上下用圆圈标记的点,指从箱的上下边缘算起,对应的变量值超过箱长的1.5倍的那些值。

● 极端值:系统默认用星号标记,它们指从箱的上下边缘算起,其对应的变量值超过箱长的3倍以上。

从图2-22可以看出,在左侧箱图中编号为57的儿童的身高属于奇异值,这个数超过了125,针对这个奇异值,我们需要返回原始数据进行修正处理。注意箱形图的上方有两个茎叶图(见图2-23)。

首先解释一下,茎叶图由3部分组成:最左侧的一列为频率;中间小数点左侧一列数值称为“Stem(茎)”,茎表示数值的整数部分;右侧一列称为“Leaf(叶)”,叶部分的每一个数字表示数值的小数部分。倒数第二行为Stem width(主干宽度),这里两张茎叶图的茎宽都为10;最后一行Each leaf(每片叶)表示每片叶子代表的观测量,这里两张图中的观测量都是1,表示的是一片叶子代表一个观测量,这样我们可以看到其实茎叶图是另一种形式的频率分布图。需要注意的是,第一张茎叶图(代表男童的身高)的倒数第三行显示了大于125的极端值(Extremes)的个数是1,第二张茎叶图(代表女童的身高)没有极端值(Extremes)。

图2-23 茎叶图