2.3 多级计分项目反应理论模型
多级计分项目反应理论模型是一组用于阐述考生在多级计分项目中的答题行为与潜在能力之间关系的数学模型。在多级计分项目中,考生在题目上的得分有0分、1分、2分等多种可能性,如简答题、利克特量表。简答题中评分者往往根据考生回答题目的完整性,分别给予不同的分数或等级。利克特量表中考生的答题反应通常被分为完全不赞成、不赞成、无所谓、赞成、完全赞成五类,并分别赋予1~5分。
与二级计分项目反应理论模型一样,多级计分项目反应理论模型根据参数数量,可分为单参数、双参数、三参数。更为复杂的是,多级计分项目反应理论模型根据不同的模拟过程,可分为减法式模型(difference models)与除法式模型(divide-by-total models)(Thissen & Steinberg, 1986; Embretson &Reise, 2000)。
减法式模型分两步确定考生在多级计分模型中得到相应分数的概率。最常见的减法式模型为Samejima(1969)的等级反应模型(graded response model)。除法式模型中,考生得到相应分数的概率通过计算单个方程式一步得出。最常见的除法式模型为分部评分模型(partial credit model; Masters, 1982)与广义分部评分模型(generalized partial credit model; Muraki, 1992)。尽管文献中至少存在几十种多级计分项目反应理论模型,我们在此仅详细介绍使用最为广泛的三种模型,即等级反应模型、分部评分模型、广义分部评分模型。
2.3.1 等级反应模型
等级反应模型(Samejima, 1969)源于Thurstone量表法(Thurstone, 1925, 1928),用于模拟有序的多级反应项目。等级反应模型是双参数模型在多级项目情况下的延伸,采用两个步骤模拟考生回答多级计分项目的方式。第一步,将得分类别人工一分为二,然后计算能力为θj的考生 j在项目i上得 x 分的条件概率:
其中,是条件概率,ai是项目i的区分度参数,bix是项目i的类别分数x与 x-1之间的类别阈值(category threshold)。等级反应模型中,不同项目的区分度参数ai不一样,但同一项目所有类别的区分度参数是一样的。同一项目的各个类别的类别阈值bix不一样,且需满足bx-1< bx< bx+1。
第二步,将两个相邻类别的条件概率相减,则得到考生在该项目上得到相应类别分数的概率。可以用以下公式表示:
同时,等级反应模型限定考生得分为最低类别分数或超过最低类别分数的概率为,考生得分超过最高类别分数的概率为。设置了这些限定条件后,公式(8)即可适用于任何类别分数。
2.3.2 分部评分模型
分部评分模型由Master(s 1982)首次提出。该模型是Rasch模型的拓展,假定不同项目的区分度参数相同。正如上文所述,分部评分模型为常见的除法式模型,可以直接计算考生得分为某一类别分数的概率。除模型类别不同之外,分部评分模型不同于等级反应模型的另一个方面是:等级反应模型中用类别阈值(category threshold)描述考生得分从一个类别跨到另一个类别的概率,而分部评分模型采用难度阶(step)参数进行描述。也就是说,分部评分模型认为考生回答项目的方式就如通过一系列连续的“阶段”。能力为θj的考生j在项目i上得x分的概率Pix(θj)用分部评分模型可表示如下:
其中,mi是项目i的所有得分类别之和减去1, bik是项目i中得分为k 的难度阶参数。分部评分模型中的难度阶参数bik不同于等级反应模型中的类别阈值参数。分部评分模型中的难度阶参数指考生得分从一个类别跨到另一个类别的难度,其值为类别反应曲线中两个相邻类别得分概率相同的那个点。等级反应模型中的类别阈值指的是考生得分为该类别分数的概率等于或大于50%的那个点。同时,分部评分模型中的难度阶参数不一定按从小到大的顺序排列,而等级评分模型中的类别阈值遵循从小到大的顺序(Embretson &Reise, 2000)。
2.3.3 广义分部评分模型
广义分部评分模型由Muraki(1992)首次提出,是双参数函数在多级计分项目中的拓展。能力为θj的考生j在项目i上得x分的概率Pix(θj)用广义分部评分模型可表示为:
其中,mi和bik的概念跟分部评分模型中的概念一样。ai指项目i的区分度参数。从公式(10)中可以看出,当限定ai为1时,公式(10)便与公式(9)完全一样。因此,分部评分模型是嵌套于广义分部评分模型中的一种更为简约的模型。分部评分模型中不允许项目区分度参数在不同项目中有所不同,而广义分部评分模型则允许不同的项目有不同的区分度参数。需要指出的是,多级计分项目反应理论中的区分度参数概念与二级计分项目反应理论中的区分度参数概念不完全一致。在多级计分项目反应理论中,项目的区分度不仅取决于区分度参数 ai,还取决于项目各类别反应曲线上类别阈值(对于等级反应模型而言)或类别交叉点(对于分部评分模型与广义分部评分模型而言)的分布状况(Embretson & Reise, 2000; DeMars, 2010)。各类别阈值或类别交叉点之间的距离越远,说明项目各类别越能更好地区分考生的能力水平;距离越近,则类别间差异越小,即区分能力越弱。
总之,等级反应模型与广义分部评分模型都是双参数模型的拓展。只有两个反应类别时,两者可以互换。但是,有三个或三个以上的反应类别时,这两种模型中估计出来的参数不存在可比性,因为这两种模型模拟考生反应过程的方式不同。分部评分模型是单参数模型的拓展,嵌套于广义分部评分模型中。
2.3.4 多级计分模型的项目信息量与测试信息量
计算多级计分项目反应理论模型的项目信息量与测试信息量时,需采用比二级计分项目反应理论模型更为复杂的方法,因为多级计分项目中涉及多个类别,而每个类别都提供一定量的信息。Samejima(1969)认为多级计分项目i的类别信息量函数可以表示为:
其中,Pix(θ)代表能力为θj的考生j在项目i上得x分的概率,为Pix(θ)的一阶导数,为Pix(θ)的二阶导数。
多级计分项目i的项目信息量函数可以表达为:
相对于二级计分项目而言,多级计分项目的信息量大小不仅取决于区分度参数,还取决于类别参数的分布状况(DeMars, 2010)。
由于多级计分项目中包含多个反应类别,因此多级计分项目往往能在更大的能力区间上提供更多的信息(Ostini & Nering, 2006; Jiseon, 2010),且有可能出现多个项目信息量峰值(DeMars, 2010)。
多级计分项目反应理论中的测试信息量概念与二级计分项目反应理论一致。同样,测试信息量可以表述为项目信息量的总和。若采用最大似然估计法,则测试信息量与能力估计标准误差之间存在反向关系。