§2.3 最小二乘估计
在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘法(method of ordinary least squares, OLS)
一、普通最小二乘法(OLS)
普通最小二乘法是由德国数学家高斯(C.F.Gauss)最早提出和使用的。在一定的假设条件下,最小二乘估计量有着非常好的统计性质,从而使它成为回归分析中最有功效和最为流行的方法之一。我们首先从最小二乘原理谈起:
一元线性回归模型(总体)
是一个不可观测的模型。因为通常得不到总体的全部观测值,我们只能通过总体的一个样本去推测它。即只能通过样本回归模型去估计总体回归模型。样本回归模型为
其中是E(Y|Xi)的估计量。
那么,样本回归模型又是怎样确定的呢?将式(2.10)写成
其中残差ei是实际值Yi与估计值之差。对于给定的Y和X的n对观测值,我们希望样本回归模型的估计值尽可能地靠近观测值Yi。为了达到此目的,我们就必须使用最小二乘准则,使
尽可能地小,其中e2i是残差的平方。
由式(2.12)可以看出:
也就是说,残差平方和是估计量的函数,对任意给定的一组数据(样本),选择不同的和值将得到不同的ei,从而有不同的∑e2i值。微积分的知识告诉我们,∑e2i对和的偏导数为0时,将使∑e2i最小。
令
得到下列方程:
其中n是样本容量。求解该联立方程,可得
分别为X和Y的样本均值
上面得到的估计量,是从最小二乘原理演算而得的。因此,称其为最小二乘估计量。
在此需要交代相关的两个重要概念:估计量(estimator)和估计值(estimate)。给定X和Y的样本数据,就可以据式(2.18),(2.19)计算出和的结果值,这是根据一个确定样本计算出来的,称其为参数β1,β2的估计值。在没有确定具体样本前,式(2.18)和(2.19)是和的表达式,它们都是Yi的函数。由于Yi是随机变量,所以和也是随机变量,因此称其为估计量。
二、经典线性回归模型
如果我们的目的仅仅是估计β1和β2,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得β1,β2的估计值,,而是要对真实β1和β2做出推断。例如,我们想知道和离它们的总体真值β1和β2有多近,或者距离其期望值E(Y|Xi)有多近。为达这一目的,我们不仅要确定模型的函数形式,还要对Yi的产生方式做出某些假定。在总体回归模型中,Yi=β1+β2Xi+ui,Yi依赖于Xi和ui。因此,除非我们明确Xi和ui是怎样产生的,否则,我们将无法对Yi做出任何统计推断,同时,也无法对用和推断其真实值β1和β2的效果进行判断。就是说,为了回归估计的有效解释,对Xi变量和误差项ui做出假设是极其重要的。
对于总体线性回归模型,其经典假定如下:
假定1 误差项ui的均值为零。对于给定的Xi值,随机误差项ui的均值或期望值为零,即ui的条件均值为零,记为
这一假定的实际意义为:凡是模型中不显含的并因而归属于ui的因素,对Y的均值都没有系统的影响,正的ui值抵消了负的ui值,它们对Y的平均影响为零。
假定2 同方差性或ui的方差相等。对所有给定的Xi,ui的方差都是相同的。就是说,ui的条件方差是恒定的,即
其中Var表示方差。
该假定表示对应于不同X值,ui的方差都是某个等于σ2的正的常数。
假定3 各个误差项之间无自相关,ui和uj(i≠j)之间的相关为零,即
其中i和j为两次不同的观测,而Cov表示协方差。该假定还可以称为无序列相关假定或无自相关假定。
假定4 ui和Xi的协方差为零或E(uiXi)=0。
该假定表示误差项u和解释变量X是不相关的。也就是说在总体回归模型中,X和u对Y有各自的影响。但是,如果X和u是相关的,就不可能评估他们各自对Y的影响。
假定5 正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。
正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型正确为条件的。因此,在建立计量经济模型时,必须谨慎小心。
假定6 对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的线性关系。
至此,我们完成了关于经典线性回归模型的经典假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。如果线性回归模型满足经典假定,则称其为经典线性回归模型。
三、最小二乘估计量的性质:高斯-马尔可夫定理
1.估计量的评价标准
对于回归模型中的参数,如果采用不同的方法估计就会得到不同的估计值。我们希望选择最好的估计量来推断总体参数,因此就需要研究估计量优劣的评价标准。当然,我们希望估计值与真实值β之间的偏差越小越好。但是由于真实值β是未知的,并且由于样本是随机的,使得估计量也是随机的,所以要判断偏差的大小就是不可行的。基于上述原因,我们只能通过估计量的统计性质来判断估计量的优劣。
对于估计量的优劣可以通过估计量的有限样本特性和无限样本特性进行评价。有限样本特性(小样本特性)是指样本容量n有限时估计量的统计性质。主要包括线性性、无偏性和有效性。估计量如果具备这些性质,则与样本大小无关。具备这些性质的估计量被称为最佳线性无偏估计量(best linear unbiased estimator, BLUE)。无限样本特性是指当样本容量n趋于无穷大时估计量具备的统计特性。主要包括一致性、渐近无偏性和渐近有效性。当小样本不能满足估计的性质要求时,就需要考察参数估计量的大样本性质。
2.高斯-马尔可夫定理
在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这些性质包含在高斯-马尔可夫定理之中。
高斯-马尔可夫定理 在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。
该定理说明最小二乘估计量是βj的最佳线性无偏估计量,即:
第一,它具有线性性,即它是回归模型中的被解释变量Y的线性函数;
第二,它具有无偏性,即它的均值或期望值E()等于其真值βj,即E()=βj;
第三,它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫作有效估计量。
下面,就普通最小二乘估计量的性质给予说明:
线性性
令
则有
这说明是Yi的一个线性函数,它是以ki为权的一个加权平均数,从而它是一个线性估计量。同理,也是一个线性估计量。
无偏性
即对β1是无偏的,对β2是无偏的。也就是说,虽然由不同的样本得到的,可能大于或小于它们的真实值β1,β2,但平均起来等于它们的真实值β1,β2.
由式(2.25)可知
据经典假定,ki非随机,E(ui)=0,则
因此,是β2的一个无偏估计量。同理,可证明也是β1的一个无偏估计量。
在此要特别注意,无偏性是和的抽样分布的性质,并没有告诉我们从特定样本中得到的估计值是什么,我们希望得到较好的样本,那样就会得到接近于总体参数βj的估计值。但由于是随机获得样本,就有可能得到远离总体参数βj的估计值的较差样本。并且,我们无法判定所得到的样本是哪一种。
当X是非随机变量和E(u)=0这些经典假定不满足时,那么无偏性也就不成立了。
最小方差
(1)最小二乘估计量的方差与标准误
普通最小二乘估计量,的方差Var(),Var()分别代表了估计参数,的估计精度。据方差定义,可知:
同理,的方差为
式(2.30)是依赖于同方差和无序列相关假定的。影响估计精度的因素为随机误差项的方差σ2和Xi的总变异随机误差项的方差σ2越大,Var()越大。因为,影响Y不可观测的因素变异越大,要准确地估计β2就越难;另一方面,自变量的变异越大,估计的精度就越高。因为Xi的变异性增加时,的方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出E(Y|Xi)和Xi间的关系,即越容易准确估计β2。如果Xi没有什么变化,就难以准确地确定E(Y|Xi)是如何随着Xi的变化而变化的。当样本容量扩大时,Xi的总变异也增加。因此,较大的样本容量会产生较小的的方差。
最小二乘估计的标准误为
其中se()表示的标准误,se()表示的标准误。除σ外,式(2.32)和(2.33)中变量的数据都是已知的。
从式(2.30)和式(2.31)可以看到,影响Var()和Var()的因素除σ2外,均为已知数。通常误差项的方差σ2是未知的,只能通过观测数据去估计σ2,从而估计出Var()和Var()。
(2)σ2的最小二乘估计量
在此,我们要区分误差与残差的概念。误差ui出现在总体回归模型Yi=β1+β2Xi+ui中,ui是第i次观测的误差,由于βj未知,ui无法观测到。残差ei出现在样本回归模型Yi=+Xi+ei中,,是估计参数,通过观测值Yi,Xi可得到残差ei。据残差定义可知:
已知由于ui不可观测,σ2无法计算。我们可通过最小二乘法的残差ei估计σ2.用残差ei代替ui就得到σ2的一个估计但这是一个有偏估量。这是使用残差代替误差的缘故,调整自由度后,我们就得到σ2的无偏估计量:
在经典假定条件下,可以证明E()=σ2。σ的估计量为
我们称其为回归的标准误。估计量是对影响Y的不可观测因素的标准误的估计。也就是说,估计了把X的影响排除之后Y的标准误。至此,用代替σ,我们可利用式(2.32)和(2.33)估计和的标准误:
当对Y的不同样本使用普通最小二乘法时,我们要注意将se()看作一个随机变量,这是因为是随着样本的不同而变化的。对于一个给定的样本,se()是一个数字,就像我们用给定的数据计算时一样,它也只是一个数字。
(3)可以证明,在满足经典假定条件下,普通最小二乘估计量,是所有线性无偏估计量中方差最小的。
四、判定系数R2——拟合优度的度量
为了评价一个回归方程的优劣,我们引入拟合优度的概念。即考查对一组数据所拟合的回归线的拟合优度,表示出样本回归线对数据拟合得有多么好。如果全部观测点都落在样本回归线上,我们就得到一个完美的拟合,但这种情况很少发生。一般情况下,总有一些正的ei和一些负的ei,我们只能希望这些围绕着回归线的残差尽可能小。判定系数R2就是表示这种拟合优劣的一个度量。
计算R2的步骤如下:
据样本回归模型可得
为被解释变量的样本均值,式(2.39)可表示为
式(2.41)两边取平方得
对所有观测值求和,得
其因此
式(2.44)中,表示实测的Y值围绕其均值的总变异,称为总平方和(TSS);表示来自解释变量的回归平方和,称为解释平方和(ESS);∑e2i表示围绕回归线的Y值的变异,称为残差平方和(RSS)。式(2.44)可表示为
这说明Y的观测值围绕其均值的总变异可分解为两部分,一部分来自回归线,而另一部分则来自扰动项ui,其几何意义如图2.4所示:
图2.4 Yi的变异分解为两个部分
用TSS除式(2.45)的两边,得
定义R2为
或
上述定义的R2称为判定系数(可决系数),它是对回归线拟合优度的度量。也就是说,R2测度了在Y的总变异中由回归模型解释的那个部分所占的比例或百分比。
据判定系数的定义可知:0≤R2≤1。当R2=1时,意味着一个完美的拟合,即对每个i都有=Yi。另一方面,当R2=0时,意味着被解释变量与解释变量之间无任何关系(即=0),这时,Yi==Y,就是说,对任一Y值的最优预测值都是它的均值,从而回归线平行于X轴。
与R2关系紧密但概念上与R2差异较大的一个参数是相关系数,它测度了两个变量之间的关联度,即
也可据R的定义计算
从定义可以看出-1≤R≤1。在回归分析中,R2是一个比R更有意义的度量,因为R2告诉我们在被解释变量的变异中,由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量,而R则没有这种作用。
五、案例
例2.1 根据凯恩斯理论,我们可以建立消费与可支配收入的线性回归模型,模型形式如下:
其中Y为消费,X是可支配收入,u为随机误差项。
从引例的表2.1中可获取一个样本如表2.2,为了表达方便将其复制于表2.4中。
表2.4 每月家庭消费支出Y和每月家庭收入X
进行最小二乘估计可得
得到的样本回归线为
其几何图形如图2.5所示。
图2.5 样本回归线
样本回归线定义:回归线上的点是给定Xi值相对应的Yi的期望值或均值的一个估计值。回归线的斜率=0.7616表示,在X的样本区间(1000,5500)内,X每增加1元,平均每月消费支出增加0.7616元。回归线的截距为159.8788,直观的解释是当每月收入X值为零时,每月消费支出的平均水平,但是这种解释是不恰当的。因为X值的变化范围并不包括零这样一个观测值。截距项的解释只能借助于经济理论或其他知识来解释。通常可理解为是所有未包括在回归模型的变量对Y的综合影响。
R2=0.9970,说明有99.70%的每月消费支出的变异,可以由收入来解释。
例2.2 中国城镇居民消费函数(1985—2014年)。
表2.5给出1985—2014年中国城镇居民家庭人均可支配收入与人均消费支出。
表2.5 1985—2014年中国城镇居民家庭人均收入与支出
注:表中数据来源于《中国统计年鉴》(1986—2015),根据1985年可比价格计算。
根据表2.5的数据,使用普通最小二乘法,得到中国城镇居民消费函数。消费函数为
在该模型中,Yt为城镇居民人均消费性支出,Xt是城镇居民人均可支配收入。
1985 2014 1均消费支出增加0.66元,边际消费倾向为0.66,截距项=215.12,从表面上看,是当居民可支配收入为0时的消费支出水平,但这是一种毫无意义的解释。因为在样本中,并不存在居民可支配收入为0的样本。判定系数R2=0.999,说明城镇居民可支配收入解释了城镇居民消费支出变异的99.9%,这是一个非常好的拟合。