心理与教育研究中的多元统计方法
上QQ阅读APP看书,第一时间看更新

2.4 协方差分析的功能与注意事项

自Fisher(1932)提出协方差分析方法以来,越来越多的使用者认为只要运用得当,ANCOVA是一个非常有用的工具。ANCOVA可以在实验研究(experimental research,其特点是抽样的随机性和分配的随机性)的设计中控制干扰变量(协变量),从而提高检验力的敏感性,也可以在非实验研究(non-experimental research,一般以调查等方式为主,往往无法保证上述随机性)中消除系统偏差、减少误差方差。所谓系统偏差是指各组在与因变量变化有关的重要变量上存在系统差异。如果有系统偏差的话,各组接受不同的处理后,因变量出现显著性差异,追究其原因可能是由不同处理造成的,也可能是实验开始时各组在这个重要变量上不相等造成的。协方差分析就是通过调整因变量来校正实验开始时各组本身存在的差异。关于误差方差,很多书里常常会提醒读者在单因素方差分析变异源中的误差方差(组内方差)是个大杂烩,凡是无法解释的变异通通归为误差源中。而协方差分析将协变量的变异从误差变异中单独列出来以减少误差变异,从而增加了检验力。查看上面图2.10与图2.11中的误差变异即可明白。

尽管协方差分析只是在方差分析模型中增加了一个或数个协变量,但是如果忽视了协变量的质量与选择,会给统计结果的解释带来很大的麻烦。对于初学者来说应该注意以下几个方面。

(1)协变量与自变量独立。

从一般线性模型(general linear model)的角度来看,协方差分析中的协变量与分组变量都是自变量,其中协变量是连续变量,自变量是离散变量或分组变量。协变量与自变量相互独立,是指协变量的变化不受分组影响(即假设各组协变量的样本平均值间的差异是由抽样误差造成的)。在图2.13(a)中,因变量的总方差由Ⅰ,Ⅱ,Ⅲ三部分组成,其中Ⅰ是因变量自身引起的方差,Ⅱ是协变量解释的方差,Ⅲ是由自变量解释的方差;因变量的误差方差由Ⅰ与Ⅱ组成。删除了协变量方差后,即调整后的因变量的误差方差就剩下Ⅰ,调整后的总方差为Ⅰ与Ⅲ之和。

然而如果协变量与自变量无法保证相互独立,各变量的方差结构就变得复杂起来。观察图2.13(b)中增加的Ⅳ与Ⅴ两部分。因变量的总方差随即变成由Ⅰ,Ⅱ,Ⅲ,Ⅳ四部分组成;Ⅳ既是协变量解释的方差又是自变量解释的方差,Ⅴ是自变量方差中由协变量解释的部分。尽管调整后的误差方差(Ⅰ)与调整后的总方差(Ⅰ+Ⅲ)结构不变,但是处理与解释Ⅳ与Ⅴ这两部分的方差是比较困难的。因为在这种情况下,调整后的误差变量(参见公式(2.2)),消除了协变量影响的同时也会消除一部分自变量的效应。一般来说,若事先了解到协变量与自变量相互独立的话,例如保证分组的随机性或者事先掌握了自变量的分组对于协变量没有差异等信息,有助于协方差分析结果的解释。

图2.13 协方差分析中因变量方差结构示意图

(2)协变量的选择。

所谓协变量,是指与因变量有关的但又不是研究对象的一类连续变量。Miller和Chap-man曾经举出一些协变量选择不当的例子。例如年龄为协变量,年级为分组变量,由于这两个变量相关性很高,协方差分析就变得没有意义;又如在心理病理学中,抑郁与焦虑情绪同时出现的可能性很大,若将焦虑测量的得分作为协变量处理,抑郁测量的得分的残差便缺少良好的结构效度。因此协变量的确定是协方差分析中极为重要的一环,尤其是在准实验研究和非实验研究中更需慎重,因为在这两类研究中可以不必满足分组的随机性这一前提条件。

(3)协变量的信度与数量。

观察协方差分析的数学模型(2.1)式,其中的误差分数εij表示第i个个体所有能够影响因变量的无法控制的变异源。它是只与因变量有关的随机变量,不包括协变量的随机误差。这就要求协变量需有相当高的信度。理论上协变量中不允许误差存在,但在实际上又是不可能的。因此一般我们要求协变量的信度至少要在0.8以上。

在前面的说明中,我们重点介绍了单因素协方差分析,即只有一个协变量和一个自变量。其实协变量可以有多个,依研究的实际需要而定。一般来说,我们希望这些协变量与因变量有中等程度以上的相关,但协变量之间的相关性要尽可能低,否则会出现共线性问题(详细解释见第3章)。在实际应用时,协变量个数尽量少些是一种明智的选择。那么是否有较为具体的标准呢?1980年Huitema提出了计算协变量合理个数的公式:[C+(J-1])/N≤0.1。其中,C为协变量的数量,J为处理组数,N为被试总数。例如有三个处理组,被试总数为30,则C≤1,即最多只能有1个协变量。Huitema指出,若[C+(J-1])/N>0.1,即使协方差分析的F检验正确,调整后平均值的估计值也会十分不稳定。