1.5 协方差矩阵与相关矩阵
1.5.1 协方差矩阵
两个变量之间的样本协方差,等于其对应观测值离均值乘积的平均,即
其与分别表示变量X1与X2的一组观测数据的平均值,n为样本量。
若有p(p≥2)个变量的话,其样本协方差S可用下面的矩阵来表示:
式中Xc为(1.4)定义的离均值矩阵,p为变量个数。S矩阵是对称矩阵,即
利用(1.6),我们可以算出表1.1(a)中三个变量的协方差矩阵(参见表1.5(a))。表1.5(a)中对角元素为各个变量的方差、非对角元素就是变量与其他变量间的协方差。显然对角线两边的协方差对应相等(例如,右上角语文与英语的协方差为24.25,左下角英语与语文的协方差同样为24.25),故协方差矩阵常用下三角式表示(表1.5(b))。
表1.5(a)多元变量数据的协方差矩阵
表1.5(b)三角式的协方差矩阵
但是统计软件SPSS输出协方差矩阵时,无偏协方差矩阵是其默认值。表1.1(a)中数据的无偏协方差矩阵如表1.6所示。样本量较小时,方差(或协方差)与无偏方差(或无偏协方差)略有差异,当样本量足够大时,则基本一致。
表1.6 多元变量数据的(无偏)协方差矩阵
1.5.2 相关系数矩阵
两个随机变量X和Y的协方差可以反映这两个变量相关变化的趋势。但是协方差受到诸变量测量单位的影响,其数值无法比较大小。统计学中将样本协方差除以两个变量的标准差之积,称为样本的积差相关系数(product-moment coefficient of correlation,简称为相关系数),标记为rXY,即
相关系数是没有单位的数(scale),下限为-1,上限为1。相关系数大于0时,常称两变量为正相关,反之则称为负相关;相关系数为0时,称两变量无相关。
如果用x表示变量X的n个离均值构成的向量,用y表示变量Y的n个离均值构成的向量,则式(1.7)中各项可表示为
将式(1.8a, b,c)代入式(1.7),则
式中θXY为向量x与y之间的夹角。从而可知,对于中心化的数据,相关系数也可视为两个随机变量构成的向量间夹角的余弦函数。
如果有p(p≥2)个标准化变量,则样本相关系数矩阵R为
式中Z为式(1.5)定义的标准分矩阵。各变量自身的相关均为1。比较式(1.10)与(1.6)可知,相关系数矩阵与其标准化变量的协方差矩阵是一致的,即
相关系数=标准分的协方差。
例如,表1.1(a)的变量间相关系数如表1.7所示,这个表一般称为相关系数矩阵。相关系数矩阵中元素是关于对角线对称的,通常只标出下三角中的元素。
表1.7 多元变量数据的相关系数矩阵