1.8 统计分析报告
前面几节介绍了关于数据文件和变量的一些处理方法,这些都是统计分析的前提,下一步就要进入统计分析的过程了,而在这之前需要对数据有一个定性地了解,比如了解数据的一些基本分布特征等,这就可以通过SPSS中的统计分析报告来完成这项工作。
1.8.1 在线分析报告
SPSS 25.0的在线分析报告可以对一个或几个分类变量的每个分组形成分层的表格,报告分析变量在各组中的相关统计信息,也称为分层报告。这种分层报告的表格具有信息量大、形式简洁、方便查看的特点。在线分析报告的操作步骤如下:
01 打开要进行分析的数据文件,选择“分析︱报告︱OLAP立方体”命令,弹出“OLAP立方体”对话框,如图1-53所示。从左侧变量框中选择一个或多个需要分析的变量移至“摘要变量”列表框,同样选择一个或多个分组变量移至分组变量栏。概述变量必须是数值型变量,分组变量应选用分类变量,数值型或短字符型变量均可。
02 单击“统计”按钮,弹出“OLAP立方:统计”对话框,如图1-54所示。“OLAP立方:统计”对话框由“统计”和“单元格统计”两个列表框组成。左侧的“统计”列表框中,列出了可供选择的各类统计量,右侧“单元格统计”列表框中,列出了子统计量,凡被选入的统计量在输出的分层报告表的单元格中均会显示它们的数值。
图1-53 “OLAP立方体”对话框
图1-54 “OLAP立方:统计”对话框
对话框选项设置/说明
在SPSS官方网站的帮助文档《IBM_SPSS_Statistics_Base》中,对“OLAP立方:统计”对话框以及其中涉及的检验方法都进行了权威解释。在“OLAP立方:统计”对话框中,用户可以为每个分组变量的每个类别中的变量选择下列一个或多个子组统计:总和、个案数、平均值、中位数、分组中位数、平均值标准误差、最小值、最大值、范围、第一个、最后一个、标准差、方差、峰度、峰度标准误差、偏度、偏度标准误差、在总和中所占的百分比、在总个案数中所占的百分比、几何平均值及调和平均值等。统计在“单元格统计”列表框中的显示顺序就是这些统计指标将在输出结果中出现的顺序。还将显示跨所有类别的每个变量的汇总统计。
● 总和(Sum):所有带有非缺失值的个案的值的合计或总计。
● 平均值(Mean):集中趋势的测量。算术平均,总和除以个案个数。
● 中位数(Median):第50个百分位,大于该值和小于该值的个案数各占一半。如果个案个数为偶数,那么中位数是个案在以升序或降序排列的情况下最中间的两个个案的平均。中位数是集中趋势的测量,但对于远离中心的值不敏感(这与平均值不同,平均值容易受到少数多个非常大或非常小的值的影响)。
● 第一个(First):显示在数据文件中遇到的第一个数据值。
● 最后一个(Last):显示在数据文件中遇到的最后一个数据值。
● 几何平均值(Geometric Mean):数据值的乘积的n次根,其中n代表个案数目。
● 组内中位数(Grouped Median):针对编码到组中的数据计算的中位数。例如,如果对于每个30年代的年龄数据的值都编码为35,40年代的编码为45,依次类推,那么组内中位数是由已编码的数据计算得出的。
● 调和平均值(Harmonic Mean):在组中的样本大小不相等的情况下用来估计平均组大小。调和平均值是样本总数除以样本大小的倒数总和。
● 峰度(Kurtosis):有离群值的程度的测量。
● 最大值(Maximum):数值变量的最大值。
● 最小值(Minimum):数值变量的最小值。
● N:个案(观察值或记录)的数目。
● 总个案数的百分比:每个类别中的个案总数的百分比。
● 总和的百分比:每个类别中的总和百分比。
● 范围(Range):数值变量最大值和最小值之间的差;最大值减去最小值。
● 偏度(Skewness):分布的不对称性测量。正态分布是对称的,偏度值为0。具有显著的正偏度的分布有很长的右尾。具有显著的负偏度的分布有很长的左尾。作为一个指导,当偏度值超过标准误差的两倍时,将认为不具有对称性。
● 标准差(Standard Deviation):对围绕平均值的离差的测量。在正态分布中,68%的个案在平均值的一倍标准差范围内,95%的个案在平均值的两倍标准差范围内。例如,在正态分布中,如果平均年龄为45,标准差为10,那么95%的个案将处于25~65之间。
● 峰度标准误差(Standard Error of Kurtosis):峰度与其标准误差的比可用作正态性检验(如果比值小于-2或大于+2,就可以否定正态性)。大的正峰度值表示分布的尾部比正态分布的尾部要长一些;负峰度值表示比较短的尾部(变为像框状的均匀分布尾部)。
● 平均值标准误差(Standard Error of Mean):取自同一分布的样本与样本之间的平均值之差的测量。它可以用来粗略地将观察到的平均值与假设值进行比较(如果差与标准误差的比值小于-2或大于+2,就可以判定两个值不同)。
● 偏度标准误差(Standard Error of Skewness):偏度与其标准误差的比可用作正态性检验(如果比值小于-2或大于+2,就可以否定正态性)。大的正偏度值表示长右尾,极负值表示长左尾。
● 方差(Variance):对围绕平均值的离差的测量,值等于与平均值的差的平方和除以个案数减1。度量方差的单位是变量本身的单位的平方。
03 选定统计量后,单击“继续”按钮返回“OLAP立方体”对话框。单击“差值”按钮,弹出“OLAP立方体:差值”对话框,如图1-55所示。该对话框用于设置主对话框中选择的概述变量之间及分组变量各个分组之间的百分数差和算术差。
图1-55 “OLAP立方体:差值”对话框
对话框选项设置/说明
“摘要统计的差值”选项组中有3个选项。
● 无:系统默认选项,不计算差值。
● 变量之间的差值:计算变量对之间的差值。选择该选项之前,必须在主对话框中选择至少两个概述变量。
● 组间差值:计算由分组变量定义的组对之间的差值。选择该选项之前,必须在主对话框中选择一个或多个分组变量。
“差值类型”选项组中有两个选项。
● 百分比差值:计算百分数差,即输出一配对变量中的第一个变量值减去第二个变量值的差值与第二个变量值的百分比。
● 算术差值:计算算术差,即输出一配对变量中的第一个变量值减去第二个变量值的绝对差。
“变量之间的差值”选项组只有在“摘要统计的差值”选项组中选中“变量之间的差值”单选按钮时,才可被激活。从“变量”和“减变量”下拉列表中分别选择—个变量配对,在“百分比标签”和“算术标签”文本框中输入配对计算的差值在输出表中的标签(可以为默认),单击按钮,将其移入“对”列表框中。单击“删除对”按钮可以将配对变量移出该列表框。最下面的是“个案组间差值”选项组,其中的选项与“变量之间的差值”选项组中的选项几乎完全相同,这里就不再赘述了。
04 全部选项确认后,单击“继续”按钮回到“OLAP立方体”对话框。
05 单击“标题”按钮,弹出“OLAP立方体:标题”对话框,如图1-56所示。“标题”列表框中是要输出的分层报告的标题。在“文字说明”列表框中输入相关文本,如制表时间、制表人姓名、单位名称等,对报告的内容作进一步的说明。这些文本将显示在分层报告表的下方,最后单击“继续”按钮,返回主对话框,单击“确定”按钮,提交系统执行。
图1-56 “OLAP立方体:标题”对话框
1.8.2 观测值概述
SPSS的观测量概述功能允许用户对文件中的全部观测量或部分观测量进行概述。其操作步骤如下:
01 打开所需要分析的数据文件,选择“分析︱报告︱个案摘要”命令,弹出“个案摘要”对话框,如图1-57所示。
02 单击“统计”按钮,弹出“摘要报告:统计”对话框,该对话框与图1-54完全相同,这里不再赘述,只是要注意在“单元格统计”列表框中,系统默认的统计量仅有“个案数”选项。
03 单击“选项”按钮,弹出“选项”对话框,如图1-58所示。
图1-57 “个案摘要”对话框
图1-58 “选项”对话框
对话框选项设置/说明
从左侧变量框中选择一个或几个需要进行概述的变量,单击按钮将其选入“变量”列表框中,再利用同样的方法选择分组变量将其选入“分组变量”列表框中。对话框左下方有4个选项。
● 显示个案:选中该复选框,其下方的3个并列选项才会被激活,且在输出表中显示参与概述的观测量序号;若不选中该复选框,则输出表中仅显示文件中全部观测量按各分组变量计算的统计量值。
● 将个案限制为前:在其后的文本框中输入数字(系统默认的数字为100,若不改动,则系统只选择前100个观测值进行统计概述)。
● 仅显示有效个案:将缺失值排除在外。
● 显示个案号:将被选中的观测量在文件中的序号也显示在概述表中。
对话框选项设置/说明
该对话框中的“标题”列表框和“文字说明”列表框的意义与图1-56中完全相同,下面有3个选项。
● 总计副标题:输出的概述表中显示各分组的总和。
● 成列排除具有缺失值的个案:将概述变量的缺失值全部予以排除。
● 缺失统计显示方式:可在其后的文本框中输入字符、文字或短语来标记缺失值。需要注意的是,如果选择此选项,则在主对话框中是不能选择仅显示有效个案选项的。
04 各选项确认以后,单击“继续”按钮返回主对话框,单击“确定”按钮提交系统执行。
1.8.3 按行概述观测值
观测量按行概述报告过程的操作步骤如下:
01 打开需要处理的数据文件,选择“分析︱报告︱按行报告摘要”命令,弹出“报告:行摘要”对话框,如图1-59所示。
02 从左侧变量清单中选择要报告的变量,单按钮移至“数据列变量”列表框中。在“数据列变量”列表框中选择一个变量,单击“格式”按钮,将弹出“报告:某变量(本例选中Date)的数据列格式”对话框,如图1-60所示。在“列标题”中输入变量的列标题,在“列标题对齐”下拉列表中选择标题对齐方式,其中的对齐方式有左、右和中心。在“列宽”文本框中输入一个数值指定列宽。“值在列中的位置”选项组中的选项用于指定列内变量的位置,在“相对于右侧的偏移量”下的“偏移量”文本框中输入数值,作为变量或值标签的缩进量。如果选中的变量为数值型,该项显示为“相对于右侧的偏移量”,则从右开始缩进。若选中的变量为字符型,该项显示为“相对于左侧的偏移量”,则从左侧开始缩进。选中“在列中居中”单选按钮,变量值或值标签将位于列中央。在“列内容”选项组中,“值”表示变量值,是系统默认选项;“值标签”输出显示变量的值标签。完成后单击“继续”按钮,返回“报告:行摘要”对话框。
图1-59 “报告:行摘要”对话框
图1-60 “报告:Date的数据列格式”对话框
03 “显示个案”复选框,表示在输出的行报告中,各分组的所有观测值也全部列出,这将使得表的规模庞大。如果想将缺失值标识出来,则应选择此复选框。选中“预览”复选框,将根据当前的各个选择项产生一页预览表,单击“确定”按钮可以查看待输出的报告效果。
04 从左侧变量清单中选择分组变量移至“分界列变量”列表框。在“分界列变量”列表框中选中一个变量,则下面的“摘要”“选项”“格式”3个按钮均被激活。单击“摘要”按钮,弹出“报告:…的摘要行”对话框,如图1-61所示,进行相应的设置后,单击“继续”按钮,返回“报告:行摘要”对话框。
05 单击“选项”按钮,弹出“报告:…的分界选项”对话框,如图1-62所示。
图1-61 “报告:…的摘要行”对话框
图1-62 “报告:…的分界选项”对话框
对话框选项设置/说明
“页面控制”选项组下有3个单选按钮。
● 分界前跳过的行数:在其后的文本框中输入0~20之间的一个数值k,输出时各分组之间插入k个空行。
● 开始下一页:是按每组一页,页码连续的格式输出报告。
● 开始新页并重置页码:是按每组一页,在新的一页开始时列置概述变量,并重置页码的格式输出。
最下面是“摘要前的空行数”文本框,输入0~20之间的一个数值k,输出时在各分组的标签值与概述报告之间插入k个空行。
06 单击“继续”按钮回到“报告:行摘要”对话框。单击“格式”按钮,弹出“报告:分界格式”对话框,此对话框与图1-60中变量数据格式的设置基本相同,在该对话框中可以为分组变量进行类似的设置。
07 在“报告:行摘要”对话框中,“排序顺序”选项组中的两个单选按钮用于确定分组变量输出时的顺序,“升序”是将按分组变量值的升序输出,“降序”则是按降序输出。对于“数据已排序”复选框,如果数据文件经过了分类,则可以选择,SPSS就不再对数据进行分类排序。如果在首次运行报告过程时文件中的数据尚未进行分类排序,则不选择,运行报告过程后,系统将按选定的分组变量对数据自动进行分类。
08 在“报告:行摘要”对话框中单击“摘要”按钮,弹出“报告:最终摘要行”对话框,它与图1-60所示对话框的选项完全相同,可以根据需要选择统计量对全部数据输出行概述报告。单击“选项”按钮,弹出“报告:选项”对话框,设置缺失值处理方式及输出页码,如图1-63所示。
图1-63 “报告:选项”对话框
对话框选项设置/说明
“报告:选项”对话框中有3个选项。
● 成列排除具有缺失值的个案:可以决定是否排除含有缺失值的观测值。
● 缺失值显示方式:在其后的文本框中输入一个符号(只能是一个字符或数字,系统默认的符号为“.”),用于在输出报告中标记缺失值。
● 起始页码:在其后的文本框中输入0~99999之间的一个整数值作为首页页码,默认值为1。
09 单击“继续”按钮回到“报告:行摘要”对话框。单击“布局”按钮,弹出“报告:布局”对话框,如图1-64所示。
对话框选项设置/说明
“页面布局”选项组包括以下几个选项。
● 页面开始行号:设置输出报告页的起始行数,默认时,起始行从1开始。
● 结束行号:设置输出报告页的结束行数,结束行数必须大于起始行数。
● 页面开始列号:设置输出报告页的起始列数,默认时,起始列从1开始。
● 结束列号:设置输出报告页的结束列数,结束列数必须大于起始列数。
● 页边距内对齐:设置输出报告页码的左、中、右对齐方式。
“页面标题和页脚”选项组包括以下几个选项。
● 标题后的行数:设置报告标题与报告首行之间的空行数。
● 页脚前的行数:设置报告脚注与报告之间的空行数。
“列标题”选项组包括以下几个选项。
● 标题加下画线:为标题添加下画线。
● 标题后的行数:设置列标题与报告首行之间的空行数。
● 垂直对齐:设置列标题对齐方式,如选“顶端”,则各列标题顶部成一线对齐。如果选择“底端”,则各列标题底部成一线对齐,这也是系统默认的对齐方式。
“分界列”选项组包括以下几个选项。
● 所有分界都在第一列:所有的分值都显示在第一列中。
● 每次分界时的缩进:如果所有分组变量都排在第一列,那么对不同水平的分组变量,系统会根据设定的数值向右缩进,默认的缩进量为2个空格。
“数据列行与分界标签”选项组包括如下几个选项。
● 自动垂直对齐:在摘要报告中,第一个统计量自动排在分组变量值之后。如果报告中要输出观测量值,即在观测量按行概述对话框中选中“显示个案”选项,则第一个观测值将列在分组变量值的同一行。
● 显示在同一行:第一个统计量排在分组变量值的同一行且隐藏它的标题,在列表报告中,第一个观测值将排在分组变量值的同一行。
● 显示在标签下方:设置分组变量值与统计量之间的空白行数。
设置完成后单击“继续”按钮回到“报告:行摘要”对话框。
10 单击“标题”按钮,弹出“报告:标题”对话框,如图1-65所示。在对话框右侧的上下栏中可为报告设置多达10行的标题和脚注,可以直接输入也可以从源变量清单中选择变量作为标题或脚注。当输入完一行的标题或脚注后,单击“下一页”按钮,接着输入下一行。如需要修改前面输入的文本,单击“上一页”按钮即可。第m页码标题行,共n行,表示标题的当前行是n行中的第m行。左下角的“特殊变量”列表框里有两个特殊的变量:DATE(日期)和PAGE(页码),也可以作为标题和脚注内存使用,如选择DATE为脚注,程序运行当日的日期将自动列入输出报告的脚注中。
11 全部设置完成后单击“继续”按钮回到“报告:行摘要”对话框,然后单击“确定”按钮,提交给计算机执行。
图1-64 “报告:布局”对话框
图1-65 “报告:标题”对话框
1.8.4 按列概述观测值
观测量列概述报告主要用来生成按列显示统计量计算结果的报告,同时也可以用它完成许多统计计算。观测量列概述报告的操作步骤如下:
01 打开数据文件,选择“分析︱报告︱按列报告摘要”命令,弹出“报告:列摘要”对话框,如图1-66所示。从左侧变量清单中选择要报告的变量,单击按钮移到“数据列变量”列表框中。选中变量在栏内的显示形式为“变量:合计”,是系统默认的形式。单击“摘要”按钮,弹出“报告:…的摘要行”对话框,如图1-67所示,在对话框中为选中的列变量指定一个概述统计量,各统计量意义与图1-60中各项相同,这里就不再赘述。
02 单击“继续”按钮回到“报告:列摘要”对话框,“数据列变量”列表框中此时显示为“变量:选定统计量”的形式。在“数据列变量”列表框中选择一个概述变量,单击“格式”按钮,弹出“报告:…的数据列格式”对话框,如图1-68所示。
图1-66 “报告:列摘要”对话框
图1-67 “报告:…的摘要行”对话框
在“列标题”列表框内输入列标题,从“列标题对齐”下拉列表中选择标题的对齐格式,在“列宽”文本框中输入数值指定列宽。“值在列中的位置”选项组中的选项,意义也与观测量按行概述中所述完全一样。
03 在“报告:列摘要”对话框中,当两个或更多的变量移入“数据列变量”列表框后,需要对选中变量进行某种算术运算,如和、差、积、商等,单击“插入总计”按钮,此时“数据列变量”列表框里出现名为“总计”的新变量,接着单击“摘要”按钮,弹出“报告:摘要列”对话框,如图1-69所示。从左侧“数据列”列表框中选择两个列变量移入“摘要列”列表框中,在展开的“摘要函数”下拉列表中选择摘要函数。选定“摘要”函数后,单击“继续”按钮,返回“报告:列摘要”对话框,“数据列变量”列表框中的新列变量变为“总计:概述函数名称”。
图1-68 “报告:…的数据列格式”对话框
图1-69 “报告:摘要列”对话框
04 在左侧变量框中选择分组变量移至“分界列变量”列表框中,在其中选择一个分组变量,单击“选项”按钮,弹出“报告:…的分界选项”对话框,如图1-70所示,进行相应的设置后,单击“继续”按钮,返回“报告:列摘要”对话框。
05 在“报告:列摘要”对话框中单击“选项”按钮,弹出“报告:选项”对话框,如图1-71所示。
在“总计”选项组中选中“显示总计”复选框,则“标签”文本框被激活,输入“总计”标签。其余选项为缺失值的处理与标记方式、页码设置,可参见行概述报告过程中相应的选项。“报告:列摘要”对话框中另外两个功能按钮“布局”和“标题”及其选项与行概述报告中相应的内容完全一致,这里不再赘述了。“报告:列摘要”对话框中其他功能选项与行列报告的主对话框相应选项相同。最后,单击“确定”按钮,提交计算机运行。
图1-70 “报告:…的分界选项”对话框
图1-71 “报告:选项”对话框