§3.5 多元回归模型的设定偏误
一、正确的多元回归模型
在前面的讨论中,我们假定所用回归模型是正确设定的,正确设定的回归模型应具有如下特点:
(1)模型中只包含关键变量,也就是说所选定的模型是最简便的。
模型是对现实经济系统的抽象。一个模型应尽量简单,我们应在设定模型时只引进抓住现实本质的关键变量,把影响微弱的变量放到干扰项u中去。
(2)模型参数可识别。对于给定的一组数据,估计的参数具有唯一值。
(3)较高的拟合优度。
要用解释变量X解释被解释变量Y, X对Y的解释能力就应该较高,就要求有尽可能高的R2。
(4)估计的回归系数与经济理论一致。
如果回归模型中估计的参数的符号是错误的,那么回归模型也是不成立的。
一个正确的回归模型的判定并没有一个统一的标准,在计量经济分析实践中,我们会使用各种检验方法去判断回归模型的性质,第四章会重点阐述这些内容。
多元回归模型的设定偏误主要包括以下三种:
(1)回归模型中包含了无关解释变量;
(2)回归模型中遗漏了重要解释变量;
(3)回归模型中的函数形式设定偏误。
下面将分别予以讨论。
二、回归模型中包含了无关解释变量
多元回归模型中包含了无关解释变量,即对模型进行了过度设定。就是说,我们把一个在总体回归模型中对Y没有影响的解释变量放到了样本回归模型中。假定真实模型为:
而我们设定的回归模型为
解释变量X3对Y没有影响,X3在总体回归模型(3.91)中的参数β3=0。在模型(3.92)中,X3是一个与被解释变量Y无关的变量。引入X3将导致如下结果:
(1)有误模型(3.92)的参数最小二乘估计量均无偏,即E()=β1,E()=β2和E()=β3=0。
(2)的方差非最小,都大于正确模型(3.91)中的方差。也就是说,在模型(3.92)中,X3的引入将使,的方差无必要地增大,降低估计的精度。
三、回归模型中遗漏了重要解释变量
在多元回归模型中,遗漏了一个实际上应该包括在总体模型中的解释变量,称为对模型设定不足。就是说,我们遗漏了一个对被解释变量有显著影响的解释变量。
假定真实模型为
而我们设定的回归模型为
X3是对Y有显著影响的变量,而在模型(3.94)中却将其漏掉了。遗漏X3将导致如下后果:
(1)如果遗漏的变量X3与包含的变量X2相关,则和是有偏误的,且非一致。就是说,E()不等于β1,E()不等于β2,而且不论样本多大,偏误都不会消失。
(2)如果X3与X2不相关,则是有偏误的,而则是无偏的。
(3)σ2不能正确地估计。
(4)根据所估计的参数的统计显著性,容易导出错误的结论。
例3.10 在例3.8中,为了说明线性到对数回归模型的应用,使用了一元回归模型,但这很可能是一个有误的设定。因为影响经济增长的因素除了能源消费量外还有劳动投入、资本投入、技术进步、制度、金融等非能源类因素的影响,在此我们用时间变量t代表这些因素。则回归模型应为
其中Y是国内生产总值(亿元),X为能源消费总量,t是时间(t=1,2,……,15)。
时间变量t的使用是计量经济分析中的常用手段。第一,当我们研究的兴趣仅仅在于变量的时间特性时,我们就使用时间t作解释变量。例如,研究GDP、就业率、股票价格随时间变化的规律性。第二,有时要选择的解释变量是无法观测的或难以获得数据,我们就用t变量作为它们的替代变量。此时,我们假定这个无法测定的变量是时间变量t的函数。
在本例中,我们用时间变量t代表所有除能源消费量外影响经济增长的因素,设定其他影响因素是时间变量t的函数。
利用表3.4中的数据,设定t=1,2,……,15,使用普通最小二乘法,得到回归模型
对比式(3.85)和式(3.96)可知:
(1)一元回归模型中,能源消费量每增加1%,GDP平均增长2306.05亿元。而在引入时间变量t的多元回归模型中,能源消费量每增加1%,GDP平均增长574.71亿元。一元回归模型中由于设定偏误,高估了能源消费量对经济增长的影响。由于遗漏了时间趋势变量,能源消费量就承担了遗漏变量对GDP的影响,因而无法准确测定能源消费量对GDP的真实影响。
(2)两个模型的标准误也是不同的。
(3)多元回归模型中拟合优度要优于一元回归模型。
由此可见,如果在回归分析中遗漏了重要解释变量,将会带来较严重的后果。所以在建立回归分析模型时,就必须深入了解建模的有关经济理论,将影响被解释变量的重要变量引入到回归模型中。
四、回归模型的函数形式设定偏误
如果回归模型的函数形式设定有误也会产生设定误差。
经济理论只能告诉我们经济系统中各经济变量之间的相互关联性,并不能阐明变量之间关联的函数形式。
例如,使用生产函数时,根据经济理论我们只能知道产出是投入要素的函数,并未告诉我们具体的函数形式。我们可以用线性函数也可以用对数线性函数去研究它:
式(3.97)中β2,β3为斜率;式(3.98)中α2,α3为弹性,两者意义不同。在线性函数中,弹性为β2(X2/Y),β3(X3/Y),是一个变弹性模型,而式(3.98)的弹性α2,α3为常数,是一个不变弹性模型。只有选择了正确的函数形式,才能得到有效估计和正确的经济解释。
为了研究的方便,我们通常将非线性模型用线性模型去近似表达,这种近似必然存在误差,从而影响参数估计的效果。
例如,当变量真实关系为多项式模型:
而我们在研究中使用了线性模型
则线性模型(3.100)中,遗漏了变量X2和X3,且遗漏变量与X相关,用普通最小二乘法估计参数是有偏误的。
函数形式的设定偏误有多种多样,我们在选择模型的函数形式时必须谨慎小心,而这又是一个探索和改进的过程,我们只能通过不断的尝试来找到最恰当的函数形式。