第3章 多重线性回归
3.1 什么是多重线性回归
先从一个简单的研究说起。作者曾在大学新生适应性研究中发现,新生的愉悦感会受到多种因素的影响,特别是新生们在大学的学习适应状态以及人际关系。新生的学习适应状态以及人际关系是否直接影响其愉悦感?为此,我们假设第i个新生的愉悦感的自评分数用下面的线性公式来表示:
显然该公式是线性回归模型的推广,自变量由一个变成两个,因变量是愉悦感的自评分数。这样的回归模型我们称为多重线性回归模型,“多重”是指自变量(或称为预测变量)的个数超过一个,“线性”是指回归模型是由自变量的线性组合表示,一般省略为多重回归模型(multiple regression model)。
表3.1是在2012年某高校大学新生适应性调查中随机抽出的30名学生的测试分数。
表3.1 大学新生适应性测量结果(部分)
一般来说,如果有p(p≥2)个自变量X1,X2,……,Xp,对某个因变量Y进行预测或者探索自变量是否为引起因变量变动的原因时,可以利用上述回归模型。表达式为:
式中,Yi与X1i,X2i,……,Xpi都是连续变量,下标i是指第i个被试的观测值(i=1,2,……,n)。β0为截距,β1,β2,……,βp称为偏回归系数(partial regression coefficient),εi为被试i的误差分数,这些参数都有待估计。
在公式(3.1)中将不含误差项的部分称为因变量Yi的预测方,
误差就是因变量i与之间的差
在多重回归模型中,误差εi是指随机误差,并有如下假定:
(1)误差εi可能大于0,也可能小于0,但它的期望值,即平均值为0;
(2)误差εi的方差与因变量Yi的方差相等,且恒为定值σ2,记为
(3)误差εi服从期望为0,方差为σ2的正态分布;
(4)全体误差之间相互独立,在回归中残差与各个X和Y^的相关均为0。
为方便起见,我们省略被试i的标记,如Yi为Y,为,εi为ε等。根据多重回归模型对误差的假设,我们还可导的四个性质:
(1)的平均值等于因变量Y的平均值;
(2)与残差e的相关系数为0;
(3)Y的方差等于的方差与残差方差的和;
(4)与Y的相关系数称为复相关系数,记为R(参见图3.7的)。
观察公式(3.2)(3.3)可知:如果求得β0,β1,β2,……,βp的估计值,就可以用来预测因变量Y;如果误差很小,或者在可以接受的范围内,则可认为自变量(不一定是全部)的预测效果比较好。
由此可见,应用多重回归分析可以达到两个目标:一是调查多个自变量是否为引起因变量变化的原因;二是探索这些自变量能否有效地预测因变量。还有人认为可用来探索新的理论架构。
为了实现上述目标,3.2小节将着重介绍参数估计的原理;3.3小节介绍如何利用SPSS实现多重回归分析以及评价结果的正确性与可靠性;3.4小节讨论如何建立有效的多重回归模型;3.5小节利用实际数据进行多重回归分析。