第4章 测验的编制(1)
任何测量都有测量工具,心理测量的工具通常叫测验。编制测验的方法,依测验的性质而异。不同类型、不同用途的测验,编制的具体过程是不同的。但由于测验原理大体相同,因而可以概括出一套通用的编制程序。总的说来,编制心理测验一般要经过以下几个步骤,确定测验的目的,制订编题计划,编辑题目,题目的试测与分析,集合成测验,将测验标准化,对测验的鉴定,编写测验说明书。
一、确定测验的目的
(一)测量对象
在编制测验前首先要明确测量对象,也就是该测验编成后要用于哪些团体。只有对受测者的年龄、智力水平、社会经济和文化背景以及阅读水平等心中有数,编制测验时才能有的放矢。
(二)测量目标
所编的测验用来测量什么,是测能力、人格,还是学业成就,也是必须首先考虑的问题。不但要明确测量的目标,还要对测量目标加以分析,将此目标转换成可操作的术语,即将目标具体化。
(三)测量目的
所编出的测验是要对被试做描述,还是做诊断,抑或是选拔和预测,这一点也是在测验编制前就应明确的。目的不同,编制测验时的取材范围以及试题难度等也不尽同。譬如,中学毕业考试的目的是考查学生是否掌握了中学阶段所学的各学科的基本知识,在命题时主要注意取材的代表性,不必过多考虑题目的难度。而大学入学测验的目的是把学生作区分,以便择优录取,因此试题取样的代表性并不重要(在我国,高考实际上还具有左右中学教学的指挥棒作用,所以应考虑题目取样是否符合教学大纲),但必须根据录取率来确定适当的难度。而一个学科诊断测验,则只要能找出学生学习困难之所在就可以了,对题目的难度和取样的代表性都不必考虑。
二、制订编题计划
编题计划,实际上就是编制测验的蓝图,通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容、技能的相对重视程度。不同的测验有不同的内容和技能,对于学绩测验来说,所谓内容就是某一学科教材中的各个课题;所谓技能,就是在教学中要达到的行为目标。美国心理学家布鲁姆最早提出教育目标的分类问题。他把学习的心理活动过程分成认知、精神运动和情感三个领域,又把认知领域具体分为知道(记忆事实、条件、方法、原理等的能力)、理解、应用、分析、综合、评价六个层次。在布鲁姆等人编的《教育目标的分类》一书中,为每个认知层次提供了许多题目范例。后来人们一般就依据布鲁姆的认知性行为目标编拟学科试题,以测量学生的学习结果。
三、编辑项目或题目
(一)搜集有关资料
测验计划编好后,就要搜集有关资料作为命题取材的依据,一个测验的好坏和测验材料的选择适当与否有密切关系。为此要注意以下几个问题:
1.材料要丰富
资料搜集愈齐全,命题工作便愈顺利,这样测验内容便不致有所偏颇,而且能提高行为样本的代表性。如编制人格测验,搜集的资料应包括:人格的主要理论,用于描述人格的术语,临床观察的资料,以及其他人格调查表的题目等。
2.材料要有普遍性
所选择的材料对测验对象要尽可能公平,即受测者都有相等的学习机会。譬如,编制标准化的学科成绩测验时,要以统一的教学大纲和统编教材作为题目来源,不能只考虑个别教师的意见,而要考虑大多数教师和专家的意见。在编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。
(二)选择项目形式
测验编制者还必须确定题目的表现方式,是纸笔测验还是操作测验,是只要受测者认出正确答案,还是需要他自己做出正确答案。在大多数情况下,任何题目都可以用几种形式呈现,问题是如何选择“最优的”形式。在一个测验中,可以采用一种形式,也可以采用几种形式。
在选择题目形式时,要考虑以下几点:
1.测验的目的和材料的性质
如果要考查学生对概念和原理的记忆,适于用简答题,要考查对事物的辨别和判断,适于用选择题,而要考查综合运用知识的能力,则适于用论文题。
2.接受测验的团体的特点
如对幼儿宜用口头测验,对于文盲识字不多的人不宜采用要求读和写的项目,而对有言语缺陷的人(如聋哑、口吃)则要尽量采用操作项目。
3.各种实际因素
譬如,当被试人数过多,测验时间和经费又有限时,宜用选择题进行团体纸笔测验,而人数少,时间充裕,又有某些实验器和设备,则可用操作测验。
我国的廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则:使被试者容易明了测验做法;在做测验时不会弄错;做法简明省时,计分省时省力;经济。
(三)编写和修订题目
制定测题的过程包括,写出、编辑、预试和修改等一系列过程。在获得一个令人满意的测题之前,这些步骤是不断重复的。在这个过程中,编制者和有关方面专家要对题目反复审查修订,改正意义不明确的词语,取消一些重复的和不合用的题目,然后将初步满意的题目集起来组成一个预备测验。编写题目要注意以下几个问题:
1.题目的范围要与测验计划所列的内容技能双维表相一致。
2.题目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复份。
3.题目的难度必须符合测验目的的需要。
4.题目的说明必须清楚明白。
四、项目的试测和分析
初步筛选出的项目虽然在内容和形式上符合要求,但是否具有适当的难度与鉴别作用,必须通过实践来检验,也就是要通过预测进行项目分析,为进一步筛选题目提供客观依据。
(一)试测
项目性能之优劣,不能仅凭测验编制者主观的臆测来决定,必须将初步筛选出的项目结合成一种或几种预备测验,经过实际的试测而得客观性资料。预测应注意以下几个问题:
1.预测对象应取自将来正式测验准备应用的群体。例如,对于一个学绩测验来说,进行预备测验的学生必须和测验所指定的被试属于同一个年级,并且具有相同的课程背景。取样时应注意其代表性,人数不必太多,亦不可过少。
2.预测的实施过程与情境应力求与将来正式测验时的情况相近似。
3.预测的时限可稍宽一些,最好使每个受试者都能将题目做完,以搜集较充分的反应资料,使统计分析的结果更为可靠。
4.在预测过程中,应对受试者的反应情形随时加以记录,如在不同时限内一般受试者所完成的题数、题意不清之处及其他有关问题。
预测的目的在于获得被试对题目如何反应的资料,它既能提供哪些题目意义不清,容易引起误解等质量方面的信息,又能提供关于题目好坏的数量指标,而且通过预测还可以发现一些原来想不到的情况,如检验时限长合适,在施测过程中还有哪些条件需要进一步控制等。
(二)项目分析
对项目的分析包括质的分析和量的分析两个方面。前者是从内容取样的适切性,题目的思想性以及表达是否清楚等方面加以评鉴,后者是对预测结果进行统计分析,确定题目的难度、区分度、备选答案的合适度等。
编制一套测验,只依据一次预测的结果所作的题目分析是不够的。由于预测的被试样本可能会有取样误差,故由此得到的项目分析结果未必完全可靠;为了检验所选出的项目的性能是否真正符合要求,通常需再选取来自同一总体的另一样本再测一次,并根据其结果进行第二次项目分析,看两次分析结果是否一致。如果某个题目前后差距较大,说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫作复核。
五、合成测验
合成测验就是把经过预测和项目分析以后证明有价值的题目排成有组织的测验。
(一)测验项目的选择
在选择项目时,不但要考虑项目分析所提供的资料,还要考虑测验的目的、性质与功能。最好的题目,就是只测定所需要的特征,并能对该特征加以有效区分的难度合适的题目。如果我们想测定语言推理能力,就不要包括主要测量阅读能力或算术知识的项目。题目性能好坏是相对的,不同的测验对题目的难度和区分度有不同的要求。
一般说来,题目的区分度越高越好,这是选择题目的一条重要标准。特别是对于选拔测验,此条尤为重要。但有时根据需要也可以保留个别鉴别力不高的题目。如在学科成就测验中有些内容十分重要,即使区分度低一些,也要包括在内。
选择题目的另一个指标是难度。难度多大合适并无一个绝对标准,而要根据测验目的来确定。有的要求难一些,有的则要求容易一些,有的可不考虑难度,就是同一张试卷,题目难度也可以不同,只要整个测验的平均难度符合测验要求即可。
根据题目分析资料选出的题目,还要与测验计划(双向细目表)再次对照,看看在材料内容以及所测量的认知技能上的比率是否与计划相符,必要时须加以适当调整。此外题目的数量还必须适合于所限定的时间。
(二)项目的编排
项目选出之后,必须根据测验的目的与性质,并考虑受试者作答时的心理反应方式,加以合理安排。
在测验开头应该有一两个十分容易的题目,以使受测者熟悉作答程序,解除紧张情绪,建立信心,进入测验情境。对试题的总的编排原则是要由易到难。这样可避免受测者在难题上耽搁时间太多,而影响对后面问题的解答。在测验最后可有少数难度较大的题目,以测出受测者的最高水平。
下面是两种常见的排列方式:
1.并列直进式
此种方式是将整个测验按试题材料的性质归为若干分测验,在同一分测验的试题,则依其难度由易到难排列。
2.混合螺旋式