上QQ阅读APP看书，第一时间看更新

第3章　多重线性回归

3.1　什么是多重线性回归

先从一个简单的研究说起。作者曾在大学新生适应性研究中发现，新生的愉悦感会受到多种因素的影响，特别是新生们在大学的学习适应状态以及人际关系。新生的学习适应状态以及人际关系是否直接影响其愉悦感？为此，我们假设第i个新生的愉悦感的自评分数用下面的线性公式来表示：

显然该公式是线性回归模型的推广，自变量由一个变成两个，因变量是愉悦感的自评分数。这样的回归模型我们称为多重线性回归模型，“多重”是指自变量（或称为预测变量）的个数超过一个，“线性”是指回归模型是由自变量的线性组合表示，一般省略为多重回归模型（multiple regression model）。

表3.1是在2012年某高校大学新生适应性调查中随机抽出的30名学生的测试分数。

表3.1　大学新生适应性测量结果（部分）

一般来说，如果有p（p≥2）个自变量X1，X2，……，Xp，对某个因变量Y进行预测或者探索自变量是否为引起因变量变动的原因时，可以利用上述回归模型。表达式为：

式中，Yi与X1i，X2i，……，Xpi都是连续变量，下标i是指第i个被试的观测值（i=1，2，……，n）。β0为截距，β1，β2，……，βp称为偏回归系数（partial regression coefficient），εi为被试i的误差分数，这些参数都有待估计。

在公式（3.1）中将不含误差项的部分称为因变量Yi的预测方，

误差就是因变量i与之间的差

在多重回归模型中，误差εi是指随机误差，并有如下假定：

（1）误差εi可能大于0，也可能小于0，但它的期望值，即平均值为0；

（2）误差εi的方差与因变量Yi的方差相等，且恒为定值σ2，记为

（3）误差εi服从期望为0，方差为σ2的正态分布；

（4）全体误差之间相互独立，在回归中残差与各个X和Y＾的相关均为0。

为方便起见，我们省略被试i的标记，如Yi为Y，为，εi为ε等。根据多重回归模型对误差的假设，我们还可导的四个性质：

（1）的平均值等于因变量Y的平均值；

（2）与残差e的相关系数为0；

（3）Y的方差等于的方差与残差方差的和；

（4）与Y的相关系数称为复相关系数，记为R（参见图3.7的）。

观察公式（3.2）（3.3）可知：如果求得β0，β1，β2，……，βp的估计值，就可以用来预测因变量Y；如果误差很小，或者在可以接受的范围内，则可认为自变量（不一定是全部）的预测效果比较好。

由此可见，应用多重回归分析可以达到两个目标：一是调查多个自变量是否为引起因变量变化的原因；二是探索这些自变量能否有效地预测因变量。还有人认为可用来探索新的理论架构。

为了实现上述目标，3.2小节将着重介绍参数估计的原理；3.3小节介绍如何利用SPSS实现多重回归分析以及评价结果的正确性与可靠性；3.4小节讨论如何建立有效的多重回归模型；3.5小节利用实际数据进行多重回归分析。