1.1 统计报告
在分析处理数据时,有时需要对数据进行一系列处理,形成含有多种统计量的报表,从而获取一些有价值的信息,以便进一步作更深的分析。
SPSS 的所有统计结果都会以表格的形式输出在结果浏览窗口,但这里介绍的是比统计分析结果更简单明确的数据报表。SPSS的报告功能(Reports)是以表格的形式,按照一定的要求对数据进行列表以表现数据内在的联系,让用户在进行具体分析之前先大致了解数据之间的内在联系,以便更准确地确认进一步分析所应使用的工具。
运用 Reports 功能可以得到许多统计学的基本指标,如平均数、方差、标准差、极大值、极小值、偏度、峰度及标准误差等,能进行常态性检验、独立性检验等检验单变量的特征及与多变量之间的相互关系,还可以按照用户规定的格式输出报表。
1.1.1 在线分析处理报告
在线分析处理报告的英文全称为Online Analytical Processing(缩写为OLAP),其功能是对于按一个或多个分组变量所分的组,计算所考察的连续变量的总体值、均值以及其他基本统计量,并且以分层的方式输出结果,表中每一层是依据一个分组变量的结果输出。
首先打开数据文件之后,打开OLAP Cubes对话框。在主菜单栏中选择Analyze菜单,然后选择OLAP Cubes命令,打开如图1-1所示的对话框。
图1-1 OLAP Cubes对话框
在OLAP Cubes对话框的左边为包含所有变量的列表框,右边包含两个列表框,即Summary Variable(摘要变量)列表框和Grouping Variable(分组变量)列表框。
进入Summary Variable列表框中的变量要求是数值变量,SPSS程序将自动对该框中的变量作摘要分析。从左侧的源变量列表框中,选择取值有限的数值型或字符型变量作为分层变量进入Grouping Variable列表框,SPSS程序将自动按照每个分组变量的类别进行摘要分析。
需要说明的是,这里的分层变量在实际的运算过程中并不起到分组的作用,而仅仅是确定进入统计过程的观测量的范围。
在对话框中选择了分析变量和分组变量之后,单击 Statistics 按钮,打开如图1-2所示的OLAP Cubes: Statistics对话框。在OLAP Cubes: Statistics对话框中可以选择需要输出的统计量。
图1-2 OLAP Cubes: Statistics对话框
在Statistics列表框中可供选择的统计量有:Sum(总和)、Number of Cases(观测量数目)、Mean(均值)、Median(中位数)、Grouped Median(分组中位数)、Standard Error of the Mean(均值标准误差)、Minimum(最小值)、Maximum(最大值)、Range(范围)、Standard Deviation(标准差)、Variance(方差)、Kurtosis(峰度)、Standard Error of Kurtosis(峰度的标准误差)、Skewness(偏度)、Standard Error of Skewness(偏度的标准误差)、First(首值)、Last(尾值)、Percentage of Total Sum(占总和的百分比)、Percentage of Total N(占观测量总数的百分比)、Geometric Mean(几何均数)、Harmonic Mean(调和均数)等。
系统默认的需要分析的统计量包括Sum(总和)、Number of Cases(观测量数目)、Mean(均值)、Standard Deviation(标准差)、Percentage of Total Sum(占总和的百分比)、Percentage of Total N(占观测量总数的百分比),用户可以根据自己的需要选择添加或删除一些统计量。
在OLAP Cubes: Statistics对话框中单击Help按钮,可得到相关的帮助文档。在选择完需要分析的统计量之后,单击Continue按钮,回到如图1-1所示的OLAP Cubes对话框中。然后单击OK按钮即可进行相关的摘要分析。
1.1.2 个案摘要报告
个案摘要报告(Cases Summary),也称观测量摘要报告,主要用于按指定分组统计量不同水平的交叉组合(即类内各子类的统计量),对变量进行记录列表,并计算相应的统计量。它主要为定量数据的描述服务,是一个比较常用的过程,可以利用Case Summaries来预览以及打印数据。所以对已知数据进行统计分析时,先对数据的实际统计量以交叉列表的形式显示,有利于用户比较直观地掌握数据的基本特征,可以提高统计分析的效能。
分组变量可以是一个,也可以有多个,如果是多个的话,将在所有水平进行交叉组合。每个组中,变量值可以显示出来,也可以不显示。对大数据集,可以仅列出前面的观察值。
同样,在主菜单栏中单击Analyze菜单,然后选择Reports命令,再选择Case Summaries选项,打开Summarize Cases对话框,如图1-3所示。
图1-3 Summarize Cases对话框
在Summarize Cases对话框中,左边是所有变量的变量列表框,右边的Variables列表框用于选择需要进行记录汇总分析的变量,如果选入多个变量,则系统会在同一张表格内依次对它们进行分析。在Grouping列表框中可选择用于分组的变量,分组变量可以是数值型或是短字符型变量,变量值仅表示分类,取值应尽可能小。如果选择了多个分组变量,则系统会按各个变量不同取值的交叉汇编对汇总变量进行分析,并在表格合适的位置给出各个分组变量不同取值的合计结果。Display cases复选框用于确定是否输出详细的记录列表,选择该选项后,下方的三个复选框被激活,用于选择具体的输出方式。系统默认输出前100个记录,并且不显示无效或缺失记录。单击Statistics按钮,可打开Statistics对话框。Statistics对话框用于选择需要输出的一些常用的统计量,属性和 OLAP 过程相同,唯一不同的是这里的系统默认统计量只有Number of Cases(观测量数目),读者可参照上节进行学习。单击Options按钮,即可打开Options对话框,在该对话框中,可以确定输出结果的标题(Title)、脚注(Caption)、分组统计量的标题(Subheadings for Total)、在分析过程中是否剔除带有缺失值的观测量(Exclude Cases with Missing Values Listwize)以及标记缺失值(Missing Statistics Appear As)等。
1.1.3 行形式摘要报告
行形式摘要报表和列形式摘要报表(Report Summaries in Row/Columns)这两个过程是专门用于生成复杂报表,它们均可以对输出表格进行精密定义,以满足用户的各种严格要求。不仅如此,为了方便用户使用,它们输出的结果均为纯文本格式,如果用户感到不满意,可以根据自己的需要将它们导入到任何文字处理软件进行编辑,这是它们的一个显著特点。这也是SPSS设计人性化、个性化的表现。
在建立或打开一个数据文件后,就可进行行形式摘要分析了。在主菜单栏中选择 Analyze菜单,单击Reports子菜单,然后选择Report Summaries in Rows命令,打开Report: Summaries in Rows对话框,如图1-4所示。
图1-4 Report: Summaries in Rows对话框
由于有很多输出的格式需要精确定义,Report: Summaries in Rows对话框中有很多的按钮组件,比较复杂,为了便于了解和利用,它们按用途组合成按钮组,下面将分别进行讲解。
1. Data Columns选项组
从左边的源变量列表框中,选择要进行报告分析的变量进入Data Columns列表框。每选择一个变量进入该列表框内,单击Format按钮,打开Report: Data Column Format for extrusn对话框,如图1-5所示,在其中对每一变量的输出格式进行设置。
图1-5 Report: Data Column Format for extrusn对话框
在Column title下拉列表框中输入变量的列标题,如果不输入,那么系统将输出变量的标签或者名称作为变量的列标题。
在Column title下拉列表框中可以选择列标题对齐的方式:Left(左对齐)、Center(居中对齐)、Right(右对齐),系统默认为Right(右对齐)。在Value Position within Column选项组中选择变量值所处的位置,如果选中Offset from right单选按钮,将以缩进的形式输出,数值缩进的位置从右开始,字符缩进的位置从左开始,Offset 文本框用于输入缩进的数值,如果选中Centered within column单选按钮,变量值将位于列中央。
在Column文本框中可以输入列宽数值。如果不设列宽,SPSS将根据以下原则自动设置列宽:如果输出数值标签,那么列宽为数值标签中的最长者;如果输出变量值,那么列宽为变量所定义的宽度;如果设置了列标题,那么列宽为列标题的最长者;如果没有设置列标题,那么列宽为所输出的变量标签的最长者。
在Column Content选项组中选择输出的内容。如果选中Values单选按钮,将输出变量值;如果选中Value labels单选按钮,将输出变量标签。
2. Break Columns选项组
进入列表框中的变量作为分组变量,可以有多个,选中分组变量后,该选项组中的Summary、Options、Format三个按钮被激活。
在Sort Sequence选项组中确定分组变量排序的规则,选中Ascending单选按钮,表示从左到右按升序排列,选中Descending单选按钮,表示从左到右按降序排列。
如果已经按分组变量排好序,选中Data are already sorted复选框将会节省时间。
单击Summary按钮,将会打开Report: Summary Lines for additive对话框,如图1-6所示,在该对话框中可以确定分组后列变量要输出的统计量。
图1-6 Report: Summary Lines for additive对话框
在Report: Summary Lines for additive对话框中列出的统计量包括:Sum of values选项,输出列变量之和;Mean of values选项,输出列变量的均值;Minimum value选项,输出列变量中的最小值;Maximum value选项,输出列变量中的最大值;Number of cases选项,输出列变量中观测量的数目;Percentage above选项,输出列变量中高于其后Value文本框中设定值的观测量数占总数的百分比;Percentage below选项,输出列变量中低于其后Value文本框中设定值的观测量数占总数的百分比;Percentage inside选项,输出列变量中位于Low文本框与High文本框中设定值之间的观测量数占总数的百分比;Standard deviation 选项,输出标准差;Kurtosis选项,输出峰度;Variance选项,输出方差;Skewness选项,输出偏度。
单击Options按钮,即可打开Report: Break Options for additive对话框,如图1-7所示,在该对话框中可以进行页面设置。
图1-7 Report: Break Options for additive对话框
在Report: Break Options for additive对话框中,Page Control选项组用于进行页面设置:选中Skip lines before break单选按钮,并在其后的文本框中输入不超过20的数,表示分组变量间的间距行数;选中Begin next page单选按钮,表示每个分组变量都在新的一页输出;选中Begin new page & reset page number单选按钮,表示在新的一页输出下一个分组变量,并接着上一页的页码输出下一页的页码;在Blank Lines before文本框中可设置分组标题和报告内容之间的间距,最多可插入20行空白。
单击Format按钮,打开Report: Data Column Format for extrusn对话框,在该对话框中可进行分组变量输出格式的选择,该对话框的功能同Data Columns选项组中的Format选项功能一样。
3. Display cases复选框
选中此复选框将会输出一个单独的观测量列表。
4. Preview复选框
选中此复选框,表示只输出报告的第一页,便于用户查看报告的格式。
5. Report选项组
在该选项组中可对整个报告进行管理,包括Summary、Options、Layout和Titles 4个按钮。
单击Summary按钮,打开Report: Summary Lines for additive对话框,对整个报告的所有统计量进行管理,该选项组同上文所讲的Break Columns选项组中的Summary选项功能一样,读者可参照上文进行学习。
单击Options按钮,打开Report: Options对话框,如图1-8所示,在该对话框中进行缺失值和输出页码的设置。
图1-8 Report: Options对话框
选中Exclude cases with missing values listwise复选框,表示剔除带有缺失值的观测量;在Missing Values Appear文本框中输入一个字符,代表系统的和用户的缺失值;在Number Pages文本框中可以设置报告的起始页码,可以输入0~99999间的任意一个数。
单击Layout按钮,打开如图1-9所示的Report: Layout对话框。用户可以在该对话框中对整个报告的输出布局进行设置。
图1-9 Report: Layout对话框
在Page Layout选项组中可以设置每一页的输出格式:Page Begins on文本框中输入的数值表示报告的每一页输出从第几行开始;Ends on Line文本框中输入的数值表示报告的每一页输出在第几行结束;Line Begins in文本框中输入的数值用于规定每一页输出的左边间距;Ends in文本框中规定每一页输出的右边间距;在Alignment within下拉列表框中可以选择输出报告内容的对齐方式,但是右对齐和中间对齐只有在规定了每一页输出的左边间距和右边间距的情况下才有效。
在Page Titles and Footers选项组中可以设置页面的标题、脚注和页面的距离:在Lines after title(s)文本框中可以设置标题与报告的距离;在Lines before文本框中可以设置脚注与报告的距离。
在Break Columns选项组中可以设置分组变量显示的位置:选中All breaks in first column复选框表示所有的分组变量值均位于第一列,并且Indent at each文本框被激活,在该文本框中可以设置分类变量值缩进的位置,系统默认值为2个空格。
在Column Titles选项组中可以设置列标题的输出格式:选中Underscore titles复选框表示在列标题下添加下划线;在 Lines after title(s)文本框中设置列标题下的空白行数,默认值为1行;在Vertically下拉列表框中可以选择列标题的对齐方式,Bottom表示列标题的底部对齐, Top 表示列标题的顶部对齐。
在 Data Column Rows & Break Labels 选项组中设置分组变量的显示位置:选中Automatically align vertically单选按钮表示分组变量值显示在统计量的上一行;选中Display on same row单选按钮,分组变量值显示于统计量的同一行,并且覆盖统计量标题;选中Display below label单选按钮,设置分组变量值与统计量间的空白,在其后的文本框中输入空白行数。
单击Titles按钮,打开Report: Titles对话框,如图1-10所示。
图1-10 Report: Titles对话框
在Report: Titles对话框中可以规定标题和脚注的输出内容和格式,每页可设置多达10行的标题及脚注。在Page Title Line 1 of 1栏中设置标题,在Page Footer Line 1 of 1选项组中设置脚注。当设置完一行的标题或脚注的输出内容后,单击 Next 按钮可进入下一行的设置,再单击Previous按钮可返回上一行;Left、Right、Center分别是左对齐、右对齐和居中对齐,可以选择变量进入某一框内,或者直接输入标题或脚注;Special列表框中可以选择特殊变量的值作为标题或脚注,选择DATE选项将输出系统时间,选择PAGE选项将自动编排页码。
1.1.4 列形式摘要报告
列形式摘要报告与行形式摘要报告不同的地方在于,行变量为分组变量值,列变量为进行分析的变量,并且对每个分析变量只有一个统计量输出。但是与行形式摘要报告(Report Summaries in Rows)相比,列形式摘要报告(Report Summaries in Columns)更加容易定义,这也使得它比较简单,更方便操作。
同样,在Analyze菜单中选择Reports子菜单,然后单击Report Summaries in Columns命令,就打开了Report: Summaries in Columns对话框,如图1-11所示。
图1-11 Report: Summaries in Columns对话框
Report Summaries in Columns 对话框的大部分功能选项都与上一小节所讲的 Report Summaries in Rows中的一致,在这里不再一一讲解,读者可参照上一小节进行学习。下文只介绍它与Report Summaries in Rows对话框不同的地方。
1. Data Columns选项组
从图1-11中可以看出,Report: Summaries in Columns对话框和Report: Summaries in Rows对话框非常相似,只是Summary按钮被放在了Data Columns选项组中,并且该组增添了一个Insert Total按钮,用于加入汇总变量。
Insert Total按钮比较特殊,单击该按钮之后并不弹出对话框,而是直接在Data Columns的列表框中添加一个名叫“total”的系统汇总变量,可随后对该变量进行进一步的定义,以求出用户需要的汇总指标。此处系统汇总变量所采用的并非原始数据,而是变量的相应指标。
选中total变量,单击Summary按钮,打开Summary对话框,该对话框与前述 Summary 对话框不一样。在 Summary 对话框中,从左边变量列表框中挑选至少两个要计算和的变量进入右边变量列表框,然后单击Continue按钮返回到主对话框。
2. Break Columns 选项组
选中一个分组变量后,Options按钮和Format按钮同时被激活,单击Options按钮,打开Report: Break Options for opacity对话框,如图1-12所示。
图1-12 Report: Break Options for opacity对话框
Report: Break Options for opacity对话框中的选项用于对分组输出时的页面进行设置,功能与Report Summaries in Rows(行形式摘要报告)中单击Options按钮弹出的对话框基本一样,只是多了Subtotal选项组,用于选择是否为该分组变量的每一个取值计算小计结果。选中Display subtotal复选框,将显示每一类分组变量小计,Label文本框用于输入分组变量的标签。
3. Report选项组
在该选项组中规定整个报告的输出内容和格式。该选项组中的Layout按钮和Titles按钮均与行形式摘要报告中的按钮功能一致,这里主要讲述单击 Options 按钮弹出的对话框中一些不同的地方。
Report: Options对话框用于定义整个报表输出中的一些选项,与Report Summaries in Rows中的功能基本一致,只是左上方增添了Grand Total组,用于选择是否为所分析的变量给出总的合计结果。
单击Options按钮,打开Report: Options对话框,如图1-13所示。
图1-13 Report: Options对话框
在Grand Total选项组中选中Display grand total复选框,表示在每一列的底部显示该列的总和,Label文本框用于输入标签。
其他的选项与Report Summaries in Rows的各选项功能一致,读者可参考上文进行学习。