实验2-1 序列基本统计分析
素材文件:sample/Example/table 2-1.wfl
多媒体教学文件:视频/实验2-1.mp4
实验基本原理
本次实验是对序列进行描述统计并绘制序列的单因素列联表。在描述统计分析过程中以及以后的统计分析中会涉及一些重要统计量,这些统计量及其计算公式如下:
标准差的计算公式:
偏度的计算公式:
峰度的计算公式:
Jarque-Bera检验统计量的计算公式:
上述公式中,n表示序列观测值个数,即样本量;xi和分别是样本观测值和样本均值;m是产生样本序列时所估计系数的个数。对于正常的序列,m值取零,如果该序列是通过回归方程得到的残差序列,则m是回归方程中解释变量的个数。
绘制序列的单因素列联表是对序列进行分区间统计,给出其在各区间内的样本观测数、百分比、累积观测数以及累积百分比。
实验目的与要求
1.实验目的
(1)通过本次实验熟悉一些常用统计量,利用这些统计量描述序列的分布特征。
(2)着重了解序列偏度、峰度和Jarque-Bera等统计量的含义和作用。
(3)理解序列分组统计描述和单因素列联表的含义和作用。
2.实验要求
(1)熟悉序列基本统计分析方法和操作过程。
(2)了解序列直方图各统计量的含义和作用,分析序列的分布特征。
(3)熟悉序列分组统计描述、绘制序列单因素列联表的操作方法和过程。
实验内容及数据来源
表2.1给出的是从我国某市历年统计年鉴得到的该地区1978年至1998年人均消费支出(CONS,单位元)和人均国内生成总值(GDP,单位元)数据,本实验所用数据保存在本书下载资源的Example文件夹的table 2-1.wfl工作文件中。
表2.1 某地区1978年至1998年人均消费支出和人均GDP
根据这些数据对序列CONS进行基本统计分析,包括绘制直方图、绘制统计表格、进行分组统计描述以及绘制单因素列联表。对序列CONS进行分组统计描述时,序列GDP是分组变量。
实验操作指导
1.绘制序列直方图
绘制序列CONS直方图的主要操作过程如下:
01 打开工作文件table 2-1.wfl中的序列CONS,单击其工具栏的View功能键,选择Descriptive Statistics &Test命令,会出现如图2.3所示的菜单。
图2.3 Descriptive Statistics选项弹出菜单
弹出的该菜单有6个命令。
- Histogram and Stats:表示显示选定序列的直方图以及给出序列的有关统计量值。
- Stats Table:表示以表格的形式显示选定序列有关统计量的值。
- Stats by Classification:用于对选定序列以表格的形式进行分组统计描述。
- Simple Hypothesis Tests:用于单个样本简单的假设检验,如单样本均值、方差、中位数检验。
- Equality Tests by Classification:用于不同组样本之间的均值、方差、中位数检验,该检验方法需设定一个分组变量。
- Empirical Distribution Tests:分布检验,可以检验数据是否服从正态、指数、卡方等统计分布。
02 在如图2.3所示的菜单中,选择Histogram and Stats选项,得到如图2.4所示的输出结果。
图2.4的左边显示出序列CONS的直方图,其反映了人均消费支出在各个区间的分布频数。例如,该地区人均消费支出在(0,5000)范围有7个观测值,在(5000,10000)范围有4个观测值,等等。图2.4的右边方框列出了根据序列CONS的21个观测值计算出的描述性统计量,包括均值(Mean)、中位数(Median)、最大值(Maximum)、最小值(Minimum)、标准差(Std. Dev.)、偏度(Skewness)、峰度(Kurtosis)以及Jarque-Bera统计量与其概率值(Probability)。
图2.4 序列CONS的直方图与统计量
图2.4显示,序列CONS的偏度1.1034,峰度2.78763,因此,与正态分布相比,该地区的人均消费支出呈现“右偏、矮胖”的分布形态。同时,Jarque-Bera =4.3004,其概率0.1165,说明至少在90%的置信水平下(检验水平=10%),不能拒绝原假设:序列CONS服从正态分布。
说明
正态分布的偏度,呈对称分布。若样本序列的,则呈右偏分布;否则呈左偏分布。正态分布的峰度3,若样本序列的3,则序列分布的尾部比正态分布的尾部厚,其分布呈现出“高瘦”形状,即“尖峰”;否则其分布的尾部比正态分布的尾部薄,其分布呈现出“矮胖”形状。大多数金融时间序列呈“尖峰厚尾、非对称分布”。Jarque-Bera检验统计量用来初步检验某个分布是否为正态分布。在序列观测值为正态分布的原假设下,Jarque-Bera统计量服从分布,可以根据Jarque-Bera统计量的概率值来决定是否拒绝零假设。若大于检验水平,则不能拒绝样本序列服从正态分布的原假设。
2.绘制序列统计表
在窗口工具栏中,单击View功能键,并选择Descriptive Statistics &Tests| Stats Table命令,屏幕会出现如图2.5所示的输出结果。
图2.5 序列CONS的统计表
从图2.5可以看到,EViews以表格的形式显示序列CONS的有关统计量。用户可以使用序列窗口工具栏中的Freeze功能键冻结该表格,对其命名并保存。
3.序列分组统计描述
序列的分组统计描述是指将序列的观测值根据分组变量划分成若干个子集后,对序列各个子集分别进行统计描述。对序列CONS进行分组统计描述的主要过程如下:
01 单击View功能键,选择Descriptive Statistics & Tests| Stats by Classification命令,屏幕会出现分组统计描述定义对话框,如图2.6所示。
左边的Statistics选项组允许用户选择希望计算的统计信息。Statistics选项组中有11个选项,用户可以根据需要选择一个或者多个输出统计量(Quantile选项用于设定显示的分位数,#of NAs选项用于显示样本缺失观测值的个数,Observations选项用于显示样本观测数,其他选项的定义与图2.4所示有关统计量相同)。
图2.6 分组统计描述定义对话框
Series/Group for classify编辑框需要用户输入用来分组的标识(分组变量,可以是序列或者序列组),也可以有多个分组变量。在Series/Group for classify字段中,输入定义子组的Series或Group名称。用户必须输入至少一个名称。除非选择binning,否则将为分类系列的每个唯一值(也称为因子)计算描述性统计。用户可以输入多个系列或组名,用空格分隔每个名称。分位数统计量需要一个额外的参数(0~1之间的数字),该参数对应于所需的分位数值。单击Options按钮,在计算分位数的各种方法中进行选择。对话框的其他选项一般可以使用默认设置,并不需要用户改动。
默认情况下,EViews排除任何分类系列中缺少值的观察结果。若要将NA值视为有效的子组,请选择NA handling选项。
Output Layout允许用户控制统计信息的显示。Table display以表格形式显示统计信息。list display以一行的形式显示统计信息。
只有在使用多个系列作为分类器时,表和列表选项才是相关的。
Row Margins、Column Margins和Table Margins指示EViews计算子组聚合的统计信息。例如,如果用户根据性别和年龄对样本进行分类,EViews将计算每个性别/年龄组合的统计信息。如果用户选择计算边缘统计信息,EViews还将计算对应于每个性别和每个年龄子组的统计信息。
分类可能会导致大量不同的值,而单元格大小非常小。默认情况下,EViews自动将观察分组到类别中,以保持适当的单元格大小和类别数量。
设置# of values选项告诉EViews,如果分类器系列接收的不同值超过指定的数量,则对数据进行分组。
如果分类器系列的每个不同值的平均计数小于指定的数字,则使用Avg.count选项来存储该系列。
Max # of bins指定最大子组数量。注意,这个数字只提供了对箱子数量的大致控制。
02 本例用序列GDP作为分组变量,幵将其输入Series/Group for classify编辑框中。设定完分组统计描述对话框后,单击OK按钮,会得到如图2.7所示的输出结果。
图2.7所示的结果显示,序列GDP被划分为4个区间范围,并以此来对序列CONS的观测值进行分组统计描述。Mean所在列显示序列CONS各个子集的均值;Std. Dev.所在列显示各个子集的标准差;Obs.列用于显示各个子集的观测值个数。例如,GDP在(0,20000)内,对应的CONS序列子集的观测值个数是13,均值是5734.2,标准差是3102.824。
4.绘制序列单因素列联表
绘制序列CONS单因素列联表的主要过程如下:
01 选择View | One-Way Tabulation命令,EViews将对序列CONS建立单因素列联表,此时屏幕会出现如图2.8所示的对话框。
图2.7 序列CONS分组统计描述
图2.8 绘制序列单因素列联表对话框
02 对话框中的Output选项组供用户选择输出结果中的显示项,包括是否显示序列在不同区间内的观测值计数(Show Count)、是否显示百分比和累计百分比(Show Percentages)以及是否显示频数和累积频数(Show Cumulatives)。对话框下面的NA handling选项组用于选择对序列中缺失观测值的处理方式,若选择Treat NAs as category复选项,则表示处理过程中将会排除缺失值。对话框右边的选项一般不需要用户迚行设定。
03 设定完毕后,单击OK按钮,屏幕会输出序列CONS的单因素列联表,得到如图2.9所示的输出结果。
图2.9 序列CONS的单因素列联表
在图2.9中,最左边的Value所在列显示按升序排列的观测值数值范围;Count列显示处于某个观测值区间的样本个数,即频数;Percent列显示观测值频数占样本容量的百分比,即频率;Cumulative Count列和Cumulative Percent列分别显示序列观测值的累积频数和累积频率。例如,在序列CONS观测值中,处于(10000,20000)范围内的观测值有4个,即频数为4,占总体的百分比为19.05%,该区间相应的累积频数(观测值小于20000的观测值个数)为15,累积频率为71.43%。