§2.6 回归分析的应用——预测
一、预测概述
计量经济分析的目的之一就是预测。预测是关于未来事件可能结果的估计,对结果的估计依赖于过去和现在的信息。而预测信息就包含在回归分析模型中。把模型结果外推到样本区间以外,就能对被解释变量的未来值进行预测。
在时间序列分析中,预测就是指对事物未来状态的估计。在截面数据分析中,预测分析同样适用,此时的目的是预测当X取特定值X0时,Y的可能结果值为Y0。
点预测就是对预测对象的未来值给出一个估计值,区间预测就是给出预测对象实际值的一个置信区间。
由预测分析得到的信息有许多用途。经济系统中,预测常常用来指导经济政策和方针的制定。当预测到经济系统将出现高通货膨胀时,政府往往会提前采取紧缩的政策。当预测石油价格会上涨时,人们会增加石油的储备。预测结果还能用于指导建立模型。当预测结果与实际结果相差较大时,会利用误差信息对模型进行修正。
预测分事后模拟预测和事先预测。事后模拟预测指对样本区内已知Y的结果值的区间进行估计,也称为模拟值。事先预测指对样本区外未知Y的结果进行估计。
二、均值预测
在收入-消费模型中,我们得到样本回归模型为
其中是对应于给定Xi的Yi的总体均值E(Yi)的估计量。均值预测就是预测对于给定的X0,Y的条件均值的值,也就是预测总体回归线本身上的点。
利用式(2.82)进行预测,假定X0=2000,我们对Yi的均值E(Y|X0=2000)进行预测,预测的点估计为
其中是E(Y|X0)的估计量。可以证明,这个点预测是一个最佳线性无偏估计量。
是一个估计量,不同于它的真实值E(Y|X0)。因为是随机变量,的函数,因此,也是一个随机变量。
可以证明,是服从正态分布的,其均值为β1+β2X0,而方差为
用σ2的无偏估计量代替式(2.84)中的σ2,可得
其中se()代表的标准误。可以证明,式(2.85)中t服从自由度为n-2的t分布。据式(2.85)可得到E(Y|X0)的置信区间为
根据收入-消费例中数据(表2.4)可得
由此,可得到真实均值E(Y|X0)=β1+β2X0的95%置信区间为
即
上式的意义为,给定X0=2000,在重复抽样中,每100个类似式(2.87)的区间将有95个包含着真实的均值;真实均值的单个最优估计就是点估计值1683.879。
对表2.4中的每个X值求类似于式(2.87)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于总体回归模型的置信域。
图2.7 Y均值与Y个值的置信域
三、个值预测
如果我们想预测个别家庭的消费支出,即预测对应于给定X值(X=X0)的单个Y值(Y=Y0),其点预测为=+X0,为Y0的最佳线性无偏估计量。个值预测的点预测与均值预测的点预测结果相同,但其方差不同,区间预测的结果也不同。其方差为
可以证明,用代替σ2时,
服从t分布,可根据t分布推断Y0的置信区间,即对Y0进行区间预测。
在个值预测中,Y0-=,代表预测误差。的来源有两个,一个是的抽样误差,来自于我们对βj的估计,即Var(),它随样本容量的增大而变小。另一个是总体误差项u的方差σ2,它不随样本容量的变化而变化。
据式(2.89),可得到个值预测的置信区间为
以收入-消费模型为例进行个值预测。Y0的点预测与的点预测一样,同样是1683.879.在5%的显著性水平下,X0=2000时,(Y0-)的方差和标准误为
则Y0的置信区间为
即
可以看出个值预测的置信区间比均值预测的置信区间要宽。这是因为个值预测的误差除了来源于抽样波动外,还来源于误差项u的随机扰动,而均值预测的误差来源仅仅为抽样波动。
据表2.4中的每个X值求类似于式(2.91)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于Y的个值预测的95%的置信域。
在图2.7中,置信区间的宽度是随着X0与的距离而变化的。时,宽度最小。随着X0远置信区间的宽度变大。由此可知样本回归线对未来结果的预测能力随着X0远越来越低。因此,当进行均值或个值预测时,就必须慎重考虑它的可靠性。预测点距离样本期越远,其可靠性就越差。