心理与教育研究中的多元统计方法
上QQ阅读APP看书,第一时间看更新

第1章 多元变量数据

1.1 什么是多元变量数据

在统计学中,变量(variable)是指具有相同属性的观测对象(个体)的数据集合。例如,人的身高变量,这个数据集合中所有数据必须取自人体身高的测量结果:160 cm,178 cm,154 cm……有时变量的取值不一定是数值,例如汽车颜色是描述汽车属性的一个变量,可以是白、红、黑、黄等不同颜色。但是在统计处理时,我们也可以将车色变量变换为一个数据的集合,例如,“1”表示白色,“2”表示红色,等等,只不过这些数据只是表示颜色的类别而已。一旦确定了变量的某个值,这个值就称为变量的一个观测值(observation),即一个具体的数据(datum)。

多元变量数据是包含两个以上变量的观测数据的统称,是对一组观测对象关于两个以上变量进行联合观测所取得的数据集合(Anderson,2003)。例如,表1.1(a)中的各个被试对应着各自的性别及学科成绩变量,表1.1(b)中的各地区对应着学校数、在校学生数、专任教师数等不同的变量。表中的每行数据称为某观察对象的记录,例如(0,72,68,82)是对1号同学的观察记录。

表1.1(a)多元变量数据

表1.1(b)多元变量数据(2012年部分地区普通高中基本情况)

多元变量数据有一个重要的特征,即变量间含有相互关系的信息。我们对多元变量数据进行统计分析,不仅要探讨各变量内在的变化规律,还要在此基础上把握全体数据的结构、分布规律,进而对研究对象、变量进行分类和简化。这些分析都离不开变量间的相关性的信息。由多元变量数据拆分成单变量数据很简单。例如,从表1.1(a)中只取出语文成绩的数据就是一个单变量的数据。但是,对于多元变量数据,如果只用单变量的统计方法分析的话,就会丢失变量间相互关系的重要信息,导致结论出现偏差。

另外,不管有多少个单变量的数据,如果各变量的观测值之间不能保证一一对应的关系(例如表1.1(a)中同一行的数据来自同一名被试),是不能合并为多元变量数据的。

为了让初学者能够正确分析和应用多元变量数据,我们将在本章中介绍这类数据的基本知识。方便起见,以后文中提及多元变量数据将简称为多元数据。