实验2-1 频数分析
素材文件:sample/Chap02/fre.sav
多媒体教学文件:视频/实验2-1.mp4
实验基本原理
对数据中的单个变量进行频数分析是了解数据的第一步,一般要通过简单的频数分析达到下面几个目的。
● 了解变量取值的一般特征。比如哪些数值出现的频率最高?变量取值的大致范围是什么?
● 考察数据是否符合要进行的统计分析的假设。比如样本数足够大吗?每个变量的观测值是否合理?
● 评估数据的质量。比如有多少缺失值,或者有多少数据录入错误?
SPSS 25.0中的频数分析过程是用来分析单个变量基本频数统计特征的有力工具,它可以用来分析多种类型的变量,并能产生多种统计量及图形。
实验目的与要求
实验目的:通过本次实验熟悉SPSS中频数分析的过程,了解常见频数统计量的含义,如均值、中位数、众数、最大值、最小值、偏度、峰度等,能够使用此过程对数据进行基本的频数分析。
实验要求:理解各个频数统计量的计算方法,并能解释这些统计量在实际问题中所反映的事实。通过频数分析加深对要分析数据特征的了解,在实际操作中能熟练地对数据进行基本的频数分析。
实验内容及数据来源
本次实验使用的数据来自数据文件fre.sav,里面记录了100名健康成年人的血清总蛋白含量(serum,克/升),共有100个样本观测值和一个属性变量serum(血清蛋白总含量),图2-1给出了部分数据。我们实验的内容是对血清总蛋白含量这个变量进行频数分析并绘制直方图,从而初步了解这100名健康成年人的血清中蛋白含量的统计特征。
图2-1 fre.sav数据集的部分数据
实验操作指导
实验的操作步骤如下:
01 选择“文件︱打开︱数据”命令,打开fre.sav数据表。
02 选择“分析︱描述统计︱频率…”命令,弹出“频率”对话框,在左侧变量框中选择“血清总蛋白”变量,单击按钮将其选入右侧的“变量”列表框中,如图2-2所示。
03 单击“统计”按钮,弹出“频率:统计”对话框。该对话框中有很多频数统计量可以选择,分为百分位值、集中趋势、离散和表示后验分布4部分,每一部分都有若干统计量,在实际工作中我们可以根据需要选用。在本次实验中,为了尽可能完整地展示SPSS的分析功能,我们把除“百分位数”之外所有的统计量都选上,如图2-3所示。
图2-2 “频率”对话框
图2-3 “频率:统计”对话框
04 单击“继续”按钮回到“频率”对话框。单击“图表”按钮,弹出“频率:图表”对话框,选中“直方图”单选按钮,并选中“在直方图中显示正态曲线”复选框,如图2-4所示。
05 单击“继续”按钮回到“频率”对话框。单击“格式”按钮,弹出“频率:格式”对话框。将“排序方式”选为“按值的升序排序”,将“多个变量”选为“比较变量”,这样输出结果就会在一个表中显示所有变量的统计结果。最后选中“排除具有多个类别的表”复选框,这样当频数表的分类超过n时,就不显示频数表。还可以设置“最大类别数”,系统默认值为10,如图2-5所示。
图2-4 “频率:图表”对话框
图2-5 “频率:格式”对话框
06 单击“继续”按钮回到“频率”对话框,单击“确定”按钮,进入计算分析。
计算机运行完成后会得到分析结果,如图2-6和图2-7所示。
图2-6 频数统计量汇总表
图2-7 频数直方图
实验结论
从图2-6所示的100名健康成年人的血清总蛋白含量观测值中,有效样本数为100、缺失值个数为0、平均值为73.696、平均值标准误差为0.3926、中位数为73.792、众数为73.5、标准偏差为3.9264、方差为15.417、偏度为0.039、偏度标准误差为0.241、峰度为0.071、峰度标准误差为0.478、范围为20.0、最小值为64.3、最大值为84.3、总和为7369.6,另外还得到了等距为10的百分位数。
关于有效样本数、缺失值、平均值、平均值标准误差、中位数、众数、标准偏差、方差等统计量很常见,不需要特别说明和解释。其他统计量方面,偏度是对分布偏斜方向及程度的测度,测量偏斜的程度需要计算偏态系数。偏态系数如果为正,就表示分布为右偏;偏态系数如果为负,就表示分布为左偏,本例中计算的偏度为0.039,表明数据分布存在很小程度的右偏。峰度是频数分布曲线与正态分布相比较,顶端的尖峭程度,统计上常用四阶中心矩测定峰度。当计算的峰度恰好等于3时,说明数据分布曲线为正态分布;当计算的峰度小于3时,说明数据分布曲线为平峰分布;当计算的峰度大于3时,说明数据分布曲线为尖峰分布,本例中计算的峰度为0.071,表明数据分布曲线为平峰分布。关于百分位数,如果将一组数据排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。常用的有四分位数,是指将数据分为四等份,分别位于25%、50%和75%处的分位数。百分位数适合于定序数据及更高级的数据,不能用于定类数据,百分位数的优点是不受极端值的影响。本例中50%的分位数为73.792,说明将数据按大小排序后,位于中间的数值为73.792,与中位数一致。
直方图的意义是更加直观地展示数据的分布特征,在直方图中显示正态曲线意味着数据分布与正态分别进行直观地比较。从图2-7中的直方图中可以看出,本例数据的高峰在75左右,两侧频数逐渐减小且基本呈对称分布。