心理与教育研究中的多元统计方法
上QQ阅读APP看书,第一时间看更新

3.3 应用SPSS实现多重回归分析

3.3.1 参数估计

在实际应用中,可利用统计软件获得偏回归系数估计值。下面我们以表3.1的数据为例使用SPSS来估计偏回归系数。基本步骤是:首先打开“分析(A)”,选择“回归(R)—线性(L)”(参见图3.2)。然后,选择因变量与自变量(参见图3.3)。再次点击图3.3所示窗口右端的“统计量(S)”,出现了图3.4,再选择所需统计量后点击“继续”返回图3.3窗口,最后点击“确定”即可。

图3.2 选择回归分析示意图

图3.3 选择因变量、自变量示意图

图3.4 选择统计量的示意图

表3.1数据的多重回归分析结果如下。首先呈现三个变量的基本统计量,列于图3.5。

图3.5 新生愉悦感、学习适应及人际关系的基本统计量

关于新生愉悦感在学习适应和人际关系上的偏回归系数的估计值列于图3.6。

图3.6 利用SPSS软件求得的偏回归系数

图3.6中的第一列是回归模型中的偏回归系数名,“常量”是截距的估计值b0,学习、人际两个自变量的偏回归系数估计值b1,b2。第二列为非标准化的偏回归系数估计:B与标准误,即b0,b1,b2的估计值与标准误。从图中得知,b0=-1.236,b1=0.077,b2=0.056。这里需要强调的是当因变量与自变量的标准差相差很大时,它们的差异会发生左偏或右偏,因此不能简单地按该列数值的大小来评价自变量对因变量的影响。若要比较回归系数的大小,就要查看第三列的标准偏回归系数。这时表示截距的b0经标准化后已变为0,另外两个标准偏回归系数分别记为beta1,beta2(即b1*,b2*),它们的数值正好等于偏回归系数估计值b1,b2分别乘以自变量与因变量标准差之比,

beta1=0.077×(7.863÷1.155)=0.525,

beta2=0.056×(7.478÷1.155)=0.363。

由于标准偏回归系数消除了因变量与自变量标准差的影响,这样就可以直接比较它们的大小。

图3.6的最后两列是关于偏回归系数是否为0假设检验的t值与p值。在0.05的显著性水平下,两个p值均小于0.05,可知这两个自变量的偏回归系数都拒绝为0的原假设。

得到了b0,b1,b2后,它们与自变量的线性组合就是因变量的预测式

由于预测由两个自变量组成,的几何表示是一个回归平面(图3.7的阴影平面)。在Y, X1,X2组成的三维空间里,b0是回归平面在因变量轴上的截距(在图3.7中,b0=0),b1表示固定自变量X2时,回归平面在X1方向上的斜率;同理,b2为固定X1时回归平面在X2

方向上的斜率。是Y与的夹角(弧度制)。若自变量有p(p≥3)个时,多重回归预测式是p个自变量的线性组合,在p+1维空间里组成了回归超平面,一般无法用视觉图像表示。

此时Y与的差记为e,称为残差,它是公式(3.3)中误差εi的估计式。表3.1的回归

预测值与残差结果列于表3.2(在图3.4窗口中选择“残差”下面“个案诊断(C)”的“所有个案(A)”即可得到)。

图3.7 二重回归平面的示意图

表3.2 愉悦感的观察值、预测值及残差

3.3.2 回归模型的评价与诊断

假如我们根据手中数据求出了偏回归系数、预测式后,但是在总体上这些系数为0,或者预测式不成立的话,那么就算多重回归估计再精确,它在应用上是没有实际意义的。因此多重回归分析除了获得参数估计之外,还有一个步骤必不可少:验证、评价被分析数据与回归模型的拟合程度。

这里,我们从五个方面进行评价:多重决定系数、方差分析、偏回归系数检验、残差分析、共线性分析。SPSS软件具备上述分析功能(参见图3.4)。

3.3.2.1 多重决定系数

在3.1小节中介绍了Y的预测式的四个性质。其中性质3为

如果等式的左右两边都除以Y的方差,则

其中,上式等号右边的第一部分定义为多重决定系数(multiple determination coefficient),记为

或者

公式(3.10)定义的多重决定系数在多重回归分析中是一个很重要的概念。为了进一步理解这个概念,可参考下面多重回归模型中的方差示意图(图3.8)。

图3.8 多重回归模型中的方差示意图

从图3.8中可知:

(1)Y的方差=a+b+c+d;

(2)的方差=a+b+c;

(3)多重决定系数:

R2就是由自变量组成的回归预测式的方差占因变量方差的比例。R2越大,说明这些自变量对因变量的贡献就越大。从几何学的角度,还可以证明R2的平方根是Y与的相关系数——复相关系数R,它正好是图3.7中Y与夹角的余弦值。

但是多重决定系数往往还会受到自变量个数p、样本量n的影响。如果不恰当地使用过多的自变量,或者缺少足够数量的样本量,会使多重决定系数虚高,影响结果的正确性。为了解决这个问题,可用下面公式对多重决定系数进行调整,记为:

其中,n为样本量,p为自变量个数。从该式中可以看出如果自变量个数越多,调整决定系数会相应降低。如果自变量数量较多时,建议利用调整多重决定系数。

一般来说,如果利用回归分析探索,R2最好不小于0.3;如果用于预测时,R2最好不小于0.6。

图3.9 多重回归模型的多重决定系数

图3.9中的第二列是复相关系数,即因变量Y与预测值的相关系数R=0.708,第三列是复相关系数的平方,即多重决定系数,R2=0.501,说明由学习、人际两个自变量组成的回归预测式方差占自我愉悦感方差的50.1%,调整后的R2adj为0.464,最后一列是R的估计标准误。

3.3.2.2 方差分析

多重回归分析中的方差分析可从整体上评价回归模型的有效性。在这里,原假设H0:β12=……=βp=0;备择假设H1:β1,β2,……,βp中至少有一个不等于零。因此方差分析的结论关系到多重回归模型能否成立。

图3.10是利用表3.1数据得到的方差分析结果。表中的离差平方和是各变量方差的n倍。例如因变量的离差平方和

它可分解成回归预测式的离差平方和SSR与残差的离差平方和SSE

其中

SSR,SSE分别除以各自的自由度(这里SSR的自由度是自变量个数p=2,SSE的自由度为n-2-1)得到相应的均方MSR,MSE。根据多重回归模型的正态性假设,MSR/MSE服从F分布,即可对方差分析的原假设进行检验了。图中的F(2,27)=13.54,p=0.000,说明表3.1新生适应性数据的回归模型是显著的。

图3.10 新生适应性数据回归分析中的方差分析结果

3.3.2.3 偏回归系数的检验

方差分析是从整体上来把握回归模型是否成立,而偏回归系数假设检验则是逐个地检验偏回归系数估计值在总体上是否为零。若偏回归系数在假设检验中判为不显著的话,相应的自变量就无法参与回归估计了。图3.6中的最后两列就是报告偏回归系数的检验统计量t值及其p值。其中t检验统计量是由第一列中的b分别除以各自的标准误得到的。观察t值及其p值可知,除了b0外,b1,b2偏回归系数均是显著的。b0的标准回归系数一定为零,由此得知b0在假设检验中不显著,并不影响回归模型的形式。

3.3.2.4 残差分析

回归分析中的残差分析内容很丰富。主要有检查误差是否服从平均值为0,方差为一常数的正态分布?有无极端值?误差间是否相互独立?等等。

图3.11是标准残差与Y的预测值的散点图,其中纵轴都是标准化残差、横轴是预测值。图3.11(a)的散点图呈等宽度的带状均匀地分布在残差为0的直线的两边,说明该数据分析的误差正态地分布在Y的每一个预测值周围,平均值为0,方差为一常数;图3.11(b)中的散布图就没有均匀地分布在残差为0的直线两边,而呈曲线状,这说明两者之间存在某种曲线关系。再观察图3.11(c)与图3.11(d)的散布图,发现在Y预测值的分布区间内,残差分布高度有大有小或者呈减少(增加)的趋势,说明残差方差不是一个常数。如果在图3.11(a)中残差的分布高度不超过±3的话,还可以判断这批数据不存在极端值。

图3.11 残差与预测值散点图

3.3.2.5 共线性

观察前面的标准偏回归系数估计式(3.5a)(3.5b),自变量间的相关系数是影响标准偏回归系数大小或者正负的因素之一。在实际数据处理中,我们也会遇到一些无法解释的情况。例如,在某高中生对班主任满意度的调查问卷中有四个指标:品质素养、教学效果、沟通能力、人格魅力。我们让这四个指标作为自变量、学生满意度分数作为因变量做多重回归分析(31位班主任的评价数据)。因变量及四个自变量间的相关系数列于表3.3,回归参数预测结果列于表3.12。

表3.3 变量间的相关系数表

注:表中数据均在p=0.001水平下达到显著。

观察表3.3,图3.12,首先发现不仅因变量与四个自变量的正相关值非常高,而且自变量间的正相关值也非常高。但是,沟通变量的偏回归系数估计值与另外三个的估计值相差悬殊,而且还是负值,即某班主任的沟通能力越强,学生对他越不满意,这从常理上难以解释。这种现象在多重回归分析中称为共线性问题。一般来说,多重回归分析存在共线性时,常会产生几种现象:①偏相关系数明明是显著的,但检验结果不显著;②对于不同抽样的偏回归系数,估计值差异很大;③如果删除其中一个与其他自变量相关很高的自变量时,结果差异很大。通常,自变量间的相关系数超过0.75时,就要警惕多重共线性的问题(当然自变量间高相关并不是共线性的必然结果)。原因解释可以参考图3.13。

图3.12 班主任满意度回归参数预测结果

图3.13 多重回归模型中的方差示意图

图3.13(a)(及图3.8)表示因变量、自变量在正常情况下的方差结构。从图中可知自变量X1,X2半偏相关系数平方分别是

而自变量的偏回归系数正好是半偏相关系数的函数,见公式(3.6a)(3.6b)。另外,图中c+d的面积就是共线性的程度。在图3.13(b)中X1,X2相关很高,它们的c+d面积扩张,严重挤压了a, b的面积,从而减少了半偏相关系数,使得偏回归系数变小。图3.13(c)中尽管自变量与因变量相关不低,但是共线性严重,几乎重叠的结果导致了自变量偏回归系数检验不显著。

如何判断是否存在共线性问题,最简单的方法是利用每个自变量的容许度(tolerance)指标:

其中,R2j是Xj作为因变量,用其余自变量进行多重回归分析时的多重决定系数。R2j越大,说明其他自变量预测Xj的能力就越大,则Xj的容许度指标TOLj越小。如果TOLj<0.1时,视为第j个自变量Xj存在共线性现象。还有一个是方差膨胀因子VIF(variance inflation factor),定义为

VIFj正好是容许度的倒数。如果VIFj大于10时就可判定这个自变量是共线性的。但是也有学者认为VIFj大于5就要警惕共线性的问题。利用SPSS软件进行多重回归分析时“统计量(S)”内有“共线性诊断(L)”的选项,我们选择后就可得到TOL与VIF的指标值。学生满意度数据中四个自变量的共线性评价列于图3.12的最后一列“共线性统计量”内。

从图3.12得知,沟通变量的容许度为0.07,VIF=14.225;素养变量的容许度为0.089,VIF=11.216,存在共线性问题。

如何处理共线性问题,最简单的方法是删除存在共线性的变量——沟通变量,考虑到素养变量的t检验是显著的,可暂时保留。图3.14是剔除了沟通变量之后的参数估计结果。

图3.14 剔除共线性变量后的参数预测值

从图3.14可知,删除了沟通变量后剩下的三个自变量的共线性程度都得到了缓解,基本符合多重回归分析的要求。于是高中生对班主任满意度的预测式为

从标准回归系数列中可知,在高中生对班主任的评价中,教师的品质素养起了首要作用。