3.5 实例
表3.1的30人数据来自某大学的新生适应性调查,用来说明多重回归模型的参数估计。但作为正式分析,样本量偏小。在实例中,样本量达335人,其中男生162人,占48.4%。自变量与人数比达到1:60以上。所用的大学新生适应性问卷分为六个维度:学习、专业、人际、想家、情绪与经济,共50个项目,每个项目6点计分,所有反向计分均转化为正向分,新生得分越高表示越认可该项目的正向陈述。在预分析中我们发现情绪尺度牵涉面较广,需要更复杂的分析工具,前面提及的因变量愉悦感是情绪中的一个项目。为了探究影响大学新生愉悦感的原因,我们用其余五个分量表的总分作为自变量(学习、专业、人际、想家与经济变量)。
表3.4 因变量愉悦感与五个自变量的相关系数表
注:**表示在p=0.001水平下达到显著。
表3.14中的最后一行是因变量愉悦感与五个自变量的相关系数,显然第四个自变量“想家”的相关系数接近0,假设检验不显著,不应放进回归模型内。“经济”变量虽然与因变量相关系数低,但假设检验是显著的,暂且进入多重回归模型。另外,五个自变量间的相关系数没有超过0.7,故共线性的可能性不会太大。于是多重回归模型假设为:
通过SPSS得到以下结果,整理如下。
表3.5 因变量、自变量的基本统计量
表3.6 新生适应性数据的多重决定系数
表3.6中最后一列称为Durbin-Watson统计量,时常缩写成DW。DW通过确定两个相邻误差项的相关性是否为零来检验回归残差是否存在自相关。DW越接近2,判断无自相关性把握越大。
从表3.6可知,不论多重决定系数R2还是调整后的R2adj的数值均超过了0.3,说明这4个自变量都有可能引起新生愉悦感的变化。
表3.7 新生适应性数据的方差分析表
表3.7中,F(4,330)=51.787,p=0.000,说明这个新生适应性的多重回归模型能够成立。
表3.8 多重回归模型的参数估计、检验、相关系数及共线性指标一览表
表3.8中的t检验结果显示,这4个自变量的偏回归系数都是显著的。相关系数一栏内有三列,第一列(zero-order)是相关系数,第二列是偏相关系数,第三列是部分相关系数,即前文所提及的半偏相关系数。最后一列是共线性统计量,无论是容许度(TOL)还是方差膨胀因子(VIF)都表明不存在多重共线性,参数估计没有受到共线性问题的干扰。
表3.9、表3.10是残差分析的部分内容。表3.9告诉我们第197号被试的残差标准差超过3,可视为极端值,对他进行个别辅导时可以进一步了解个人情况。由于这批数据中只有这位同学出现偏离现象,可忽略不计。如果极端值人数较多时,需要剔除这些数据后重新进行回归分析。表3.10是残差统计量,分别是预测值、残差e、标准化后与标准化残差的最小值、最大值、平均值及其标准差,最后一列N是总人数。图3.15是残差的直方图,通过图中的标准正态曲线可知残差服从标准正态分布。图3.16是标准化后的预测值与残差的散点图,由图中散点的分布可知预测值与残差是独立的(图中颜色深的大点表示残差点重叠程度比较高)。从而判断这批数据满足多重线性回归的前提。
表3.9 极端值的被试编号
表3.10 残差统计量
图3.15 新生适应性的残差直方图
图3.16 标准化后的预测值与残差的散点图
总之,这批335人的新生适应性数据经多重回归分析后,可以确认新生的愉悦感分数的变动可以由四个因素(学习、专业、人际关系与经济状态)引起,预测方程为
结合表3.8的标准回归系数Beta值,可以发现学习适应性与人际关系这两个因素较之专业喜欢与经济状态会较大地影响新生的愉悦心情,这个结果可以为新生适应性的辅导人员提供有益的参考。