实验3-1 简单线性回归模型估计
素材文件:sample/Example/table 3-1.wfl
多媒体教学文件:视频/实验3-1.mp4
实验基本原理
本实验是建立简单线性回归模型并估计其参数。对于所建立的多元线性回归方程(3.1),采用的是最小二乘估计(OLS),即最小化式残差平方和:
利用上式可以得到解释变量回归系数向量β的估计值以及随机误差项方差σ2的估计值,即:
其中,为回归方程的残差。
实验目的与要求
1.实验目的
(1)通过本次实验,掌握方程OLS估计的操作方法和估计步骤。
(2)掌握利用OLS估计方法解决实际问题,对方程估计结果进行合理的解释说明。
2.实验要求
(1)掌握对经济现象中有关变量进行相关分析的方法。
(2)掌握使用OLS方法估计方程,熟悉操作过程中各选项和参数的设置。
(3)着重理解方程OLS估计的输出结果,对实际输出结果给出有意义的分析。
实验内容及数据来源
从有关统计部门得到美国1959年第一季度(1959Q1)至1996年第一季度(1996Q1)的人均消费支出(cs)和人均可支配收入(inc)有关数据(单位为美元),且这些数据为经过物价指数调整后的数值,以1992年为基准年。表3.1给出的是部分有关数据,完整的数据保存在本书下载资源Example文件夹下的table 3-1.wfl工作文件中。
表3.1 CS和INC的部分数据
宏观经济中的消费理论认为,人均消费支出(cs)和人均可支配收入(inc)存在很强的线性关系。现以cs为因变量,inc为自变量,建立如下消费模型:
并利用1959Q1至1996Q1共149个观测数据估计模型中的参数。
实验操作指导
本实验的具体操作由变量之间的相关分析、模型建立与参数估计、方程估计结果解释三部分组成。
1.变量之间的相关分析
在建立消费模型之前,为了保证线性模型的合理性,首先需要分析cs和inc之间的相关性,可以通过计算两者的相关系数以及绘制两者之间的散点图进行分析。根据第2章所介绍的使用EViews进行序列组相关分析的方法,可以得到序列cs和序列inc之间的相关系数r=0.999732。同时,绘制序列cs和序列inc的回归散点图,如图3.1所示。
cs和inc的相关系数以及两者之间的回归散点图表明,cs和inc确实存在高度的线性关系。
图3.1 序列cs和序列inc的回归散点图
2.模型建立与参数估计
确定序列cs和inc之间存在高度的线性关系后,接下来可以建立式(3.5)的消费函数模型,其主要过程如下:
01 打开工作文件“table 3-1.wfl”,先建立一个方程对象(Equation)。有两种方法:一是在菜单栏中选择Quick | Estimate Equation命令;二是先在菜单栏中选择Object | New Object命令,然后在新建对象对话框中选择Equation。这两种操作都会出现如图3.2所示的方程定义对话框。
图3.2 方程定义对话框
这一建立方程对象的操作对后面各种模型的建立都适用。在这个对话框中,用户需要对方程的形式进行说明、指定估计方法并选择样本范围。
方程定义对话框中要求用户在Equation specification(方程说明)编辑框中对方程形式进行说明,即输入因变量、自变量以及函数形式。有列表法和公式法两种说明方程的方法。
列表法是指在编辑框中列出建立的方程所需要使用的变量,先输入因变量名或表达式,再列示解释变量,变量之间用空格隔开,列表法可有多种输入。
例如,本实验需要建立如式(3.5)的消费函数,因此使用列表法在方程说明编辑框中输入:cs c inc。
有时,也需要使用表达式来定义方程,例如在编辑框中可以输入:log(y) c log(x)。
在建立模型中q也会用到滞后序列(例如后面将介绍的滞后分布模型),此时可以把滞后值放在序列名后面的括号中,例如输入:y c x x(-1)。通常在滞后中使用关键词to可以包括几个连续的滞后序列,例如输入:y c x x(-1 to-3)等价于y c x x(-1) x(-2) x(-3)。
说明
EViews在回归中不会自动包括一个常数(截距项),因此当用户需要建立包含截距项的方程时,必须在方程说明编辑框中输入c。工作文件中的系数向量对象“”是在建立工作文件时EViews自动预先定义的默认对象。当通过列表法说明方程的形式时,EViews会根据变量在列表中的顺序,在这个向量中存储方程估计的系数。例如,用列表法输入:cs c inc,常数项估计值存储于c(1),inc的系数估计值存储于c(2)。
列表法简单,但是只能用于不严格的线性说明,当列表法不能说明方程时,此时可以使用公式法。EViews中的公式是一个包括回归变量和系数的数学表达式。用公式定义方程,只需在编辑框中输入表达式即可,EViews会在方程中添加一个随机扰动项。例如本实验中,使用公式法说明方程时,可以输入:cs=c(1)+c(2)*inc。
Estimation settings下面有Method和Sample两个选项需要设定。方程形式设定后,用户需要选择一种方程参数估计的方法。选择Method选项,会出现如图3.3所示的下拉列表,表3.2列出了各种估计方法的含义,如LS(最小二乘法)、TSLS(两阶段最小二乘法)和ARCH(自回归条件异方差)等。本书在后续章节中将对常用分析方法进行讲解。
表3.2 方程参数估计方法
Sample选项用于设定用来估计方程系数的样本区间,在默认情况下,EViews用当前工作文件的样本区间来填充Sample选项的对话框,用户也可以根据实际需要自由改变估计样本区间。如果回归方程中包括滞后变量,样本会自动做出调整。例如,样本区间为1959年~1996年,回归方程设定为:y c x x(-2),EViews会把样本自动调整为1961~1996年,因为对于x(-2),1959年和1960年没有数据。
单击图3.2所示对话框顶端的Options标签,切换至该选项卡,如图3.4所示。Options选项卡里面的内容根据Estimation settings的Method下拉列表框中回归方法选择的不同而改变。其中,LS-Least Squares(NLS and ARMA)方法下相应的Options选项卡的设定是针对模型回归的残存项存在异方差、自变量与随机项存在相关性时修正模型的,这些选项的应用将在后面的章节详细说明。
图3.3 Method下拉列表
图3.4 Options选项卡
02 在方程定义对话框的Equation specification编辑框中输入“cs c inc”,在Method下拉列表中选择“LS-Least Squares(NLS and ARMA)”,且不对Options选项卡做任何设置,单击“确定”按钮,EViews会显示如图3.5所示的方程估计结果。
在如图3.5所示的估计结果中,窗口的顶部显示执行此次EViews操作的一般信息,包括因变量的名称、参数估计所使用的方法、回归结果产生的日期时间、变量的样本范围以及此次操作所包含的样本实际范围等信息。中间部分显示的是回归的结果,包括模型各个参数的估计值、参数估计值的标准差、t统计量及其相应的概率。窗口最下面的是回归的一些统计量。
图3.5 方程估计结果
3.方程估计结果解释
下面对图3.5所示的普通最小二乘法估计输出结果进行解释说明,后面许多模型估计的输出结果都和图3.5相似。关于模型估计的说明和模型解释变量的估计结果分别如表3.3和表3.4所示。
表3.3 模型估计的说明
表3.4 模型解释变量的估计结果
针对模型整体分析结果的各个指标分析解释如下:
- R-squared:模型回归的R方,是样本可决系数(也称方程拟合优度)。
- Adjusted R-squared:模型估计的调整R方,是修正的样本可决系数,利用这两个统计量可以对模型进行拟合优度检验,即判断模型的估计值(拟合值)对实际观测值拟合的好坏。R2值或较大说明模型对因变量拟合得较好,模型中的解释变量能够解释因变量变动的很大一部分。
说明
R2并不是判断模型拟合好坏的唯一指标,回归模型的R2较小,并不一定说明模型拟合程度很差。有时,如果回归方程中没有截距项或常数项,或者使用了两阶段最小二乘法(TSLS),则R2可能为负数。
- S.E. of regression:回归标准误差,用于度量残差的大小。大约67%的残差将位于正负一个标准误差范围之内,而95%的残差将位于正负两个标准误差范围之内。
- Sum squared resid:残差平方和,可以用作某些检验的输入值(如F检验)。
- Log likelihood:对数似然值(简记为L),是基于极大似然估计得到的统计量。在线性回归中,其计算公式为:。对数似然值用于说明模型的精确性,L越大说明模型越精确。同时,可以通过比较有条件约束方程和无条件约束方程的对数似然估计值的差异进行似然比检验。
- Durbin-Watson stat:DW统计量,用于检验残差序列的自相关性,其计算公式为:D.W.=。Durbin和Watson给出了在5%和1%显著水平下,不同的样本量n和自变量个数k检验的临界值,用户可以将Durbin-Watson统计量值与临界值进行比较,从而判断模型的残差序列是否存在自相关。一般情况下,如果DW统计量值比2小很多,则说明该序列存在正的自相关。
- Mean dependent var和S.D. dependent var:分别是因变量的均值和因变量的标准差。
- Akaike info criterion(AIC)和Schwarz criterion(SC):分别是赤池信息准则和施瓦茨准则,其计算公式为:。AIC信息准则和SC准则用于评价模型的好坏,一般要求AIC值或SC值越小越好。当选择变量的滞后阶数(如协整检验中)时,可以通过选择使AIC或SC达到最小的滞后分布长度。
- F-statistic和Prob(F-statistic):分别是F检验统计量及其相应的概率,用于对方程的整体显著性进行检验。F检验是一个所有系数估计值都不为零的联合检验,即使所有系数的t统计量都是不显著的,F统计量也可能是显著的。
根据图3.5所示的输出结果,可以写出消费函数的估计方程(小数点后保留4位有效数字):
其中,括号内是相应系数估计值的t统计量值。
在方程(3.6)中,回归系数的t统计量都很显著,并且相应的概率值Prob.0.0001。因此,至少在99.99%的置信水平下,可以认为常数项以及INC系数的估计值都显著地不为零。回归方程的R2=0.9995,=0.9995都很接近于1,说明回归方程的拟合效果非常好。变量INC对应的系数(边际消费倾向)估计值为0.9263,说明当可支配收入增加1美元时,消费支出将增加0.9263,表现出很强的消费倾向。
一般的线性回归模型,其解释变量的取值都是具体的连续数值,例如人均可支配收入、资本投入、劳动投入等,这些都属于定量变量。然而在实际问题中,经常会遇到这样一些变量,例如性别、类别等,它们不是用数值来度量的,被称为定性变量。解释变量中含有定性变量的问题比较简单,在建立模型之前,先对属于定性变量的解释变量进行数量化处理,然后使用EViews进行模型参数估计操作,步骤与一般的多元线性回归模型的操作过程基本相同,只需将定性的解释变量当作一般的定量变量操作即可。