第5章 测验的编制(2)
此种方式是先将各类试题依难度分成若干不同的层次,再将不同性质的试题予以组合,作交叉式的排列,其难度则渐次升进。此种排列的优点是,受试者对各类试题循序作答,从而维持作答的兴趣。
(三)编造复本
为增加实际的效用,一种测验至少要有等值的两份,份数越多,使用起来愈便利。例如,我们要用测验来考查一班学生在一学期中的进步,必须测量两次,一次在开学初,一次在学期末,两次结果的差别代表一学期中成绩的提高。如果测验只有一份,用两次就难免有练习的影响,不能完全代表进步的数量。要是这个测验有好几份替换使用,就可以免掉这种困难。
测验的各份复本必须等值,所谓等值需符合下列几个条件:
1.各份测验测量的是同一种心理特性。
2.各份测验具有相同的内容和形式。
3.各份测验的题目不应有重复的地方。
4.各份测验题目数量相等,并且有大体相同的难度和区分度。
5.各份测验的分数分布(平均数和差异度)大致相等。
只要有足够数量的题目,编造复本的手续是很简单的。先将所有合用的题目按难度排列,其次序为1、2、3、4、5、6……如果要分成两个等值的测验本,可采用下面的分法。
A本:1、4、5、8、9、12、13、16、17、20……
B本:2、3、6、7、10、11、14、15、18、19……
如果要分成三个等值的测验本,可用采用下面的分法:
A本:1、6、7、12、13、18、19、24……
B本:2、5、8、11、14、17、20、23……
C本:3、4、9、10、15、16、21、22……
采用上面的分法可使复本之间在难度上基本相等,从而获得大体相同的分数分布。复本编好后,应该再试测一次,以决定各份究竟是否等值。
六、将测验标准化
一套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差,就要控制无关因素对测验目的的影响,这个控制的过程,称作标准化。具体包括以下几方面:
(一)内容
标准化的首要条件,是对所有受测者施测相同的或等值的题目。测验的内容不同,所得的结果便无法比较。
(二)施测过程
尽管对于所有的受测者使用了相同的题目,但如果在施测时各行其是,所得的分数也不能进行比较。为了使测验条件相同,必须有统一的指导语和时间限制。
1.指导语
给受测者的指导语属于测验刺激的一部分,它的内容通常包括对测验目的说明和受测者应该如何作答的指示(包括如何选择反应、记录反应以及时限等)。对于纸笔测验来说,这些指示一般印在测验的开始部分,也可以印在另外一张纸上。要求简单明确,不引起误解。如果题目形式对被试是生疏的,还应该有一些例题。
指导语会直接影响受测者的作答态度与方法。有人以不同的指导语对几组被试实施同一个能力测验,结果表明,将该测验说成“智力测验”的一组,成绩最高;将之说成“日常测验”的一组,成绩最低。
为了保证测验情境的一致,还要有对主试者的指导语,主要是对测验细节作进一步解释,以及其他一些有关事项,包括测验房间场地的安排(照明、桌掎、隔音、温度等),测验材料的分发,如何计时、记分,对被试的各种提问如何回答,以及在测验中途发生意外情况(如停电,有人迟到、生病、作弊等,应该如何处理。由于主试者的一言一行,甚至表情动作都会对受测者产生影响,所以主试者一定要严格遵守施测指导,不要任意发挥和解释。总的要求是,无论什么人在什么时候、什么地点使用同一测验,都必须做同样的事,说同样的话。对主试者的指导语与测验是分开的。
2.时限
确定测验的时限,要考虑施测条件和实际情况的限制(如一节课时间的长度),以及被试的特点(如对儿童、老人、病人施测时间不宜过长),不过更重要的是考虑测量目标的要求。
对于人格测验来说,反应速度是不重要的,可不必规定严格的时限,但是在测量能力和学绩成就时,速度是需要考虑的一个重要因素。依据速度在活动中所起的作用,可以把测验分成速度测验和难度测验。纯速度测验时间应当严格限制,使被试中没有人能在规定时间内做完全部题目。纯难度测验只考查察被试解决难题的水平而不考虑完成时间。实际上,大多数能力和学绩测验介于上述二者之间,既考查反应的速度也考察解决难题的能力。通常所用的时限是使大约90%的受训者能在规定时间内完成全部测验,如果题目由易到难排列,应使大多人在规定时间内完成他会答的问题。
确定时限一般采用尝试法,即通过预测来决定。假设根据第一次试测的经验,我们估计大部分被试可以在25分钟内做完,在第二次试测时,可以先叫被试用黑铅笔做20分钟,然后换成红铅笔,再过5分钟换成蓝铅笔,这样便可了解被试在规定时间内完成题目的数量。另一种方法是在施测现场挂一只钟,每个被试做完后即将当时时间写在试卷末尾。试卷收齐之后再根据被试完成情况规定合适的时限。
(三)评分
标准化的第三个要素是客观评分。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。一般说来,自由反应的题目(如问答题、论文题等)评分者之间很难取得完全一致,而选择题的评分较为客观,因此有人将选择题组成的测验叫客观性测验。无论哪种测验,为使评分尽可能客观,有三点要求:
1.对反应的及时的和清楚的记录。特别是对口试和操作测验,此点尤为重要,必要时可以录音和录像。
2.要有一张标准答案或正确反应的表格,即计分键。选择题测验的计分包括一系列正确的答案和容许的变化;论文题的计分键包含各种可能答案的要点;人格测验不可能有明确而统一的答案;计分键上指明的是具有或缺少某种人格特征者的典型反应。
3.将受测者的反应和计分键比较,对反应进行分类。对于选择题来说,这个程序是很容易的,但是当评分者的判断可能是一个起作用的因素时(如问答题、论文题),就需要对评分规则作详细的说明,评分时将每一个人的反应和评分说明书上所提供的样例相比较,然后按最接近的答案样例给分。
无论采用何种评分方法,都必须符合客观、正确、经济、实用四项原则。
(四)常模
一个标准化测验,不但内容、施测和评分要标准化,对分数的解释也必须标准化,如果同一个分数可做出不同的推论,测量便失去了客观性。
多数测验用常模作解释分数的依据。测验分数必须与某种标准比较,方能显出它所代表的意义。例如。某学生成绩单上写着:物理——85分。我们仅从这个分数很难断定他学得如何,因为没有一个比较的标准。在传统心理测验中,是把个人所得的分数与代表一般人同类行为的分数相比较,以判别其所得分数的高低。此处所指的“代表一般人同类行为的分数”,即为“常模”。例如,以摄氏温度计38℃,便可确诊为发烧,因为一般人的正常体温是37℃,这就是成人体温的常模。
建立常模的方法是,在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整体,得出一个具有代表性的分数分布。标准化样本的平均数,即为该测验的常模。
常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。
七、对测验的鉴定
测验编好后,必须对其测量的可靠性和有效性进行考验,为此就要进行测量学方面的分析,搜集信度和效度资料。
(一)信度
信度指的是测量的可靠性或一致性。我们用钢片卷尺去量黑板的长度,所得的结果是可靠的,因为无论是由一个人量数次还是分别由几个人去量,所得的结果都是一致的。如果我们改用橡皮筋做的软尺去测量黑板的长度时,因为拉力大小不同,多次或多人测量所得的结果就难得一致。因此,用橡皮筋做的软尺测量长度是不可靠的,也就是说,这样的测量工具是缺乏信度的。
一个测验在标准化的时候,必须确定它的信度。确定信度多采用相关法。以相关系数的大小表示信度的高低。
(二)效度
效度指的是测量的有效性或正确性,这是测量工具的最基本的要求。衡量一个测量工具有没有效,就是看它所测量的是不是它所要测的东西。例如,以磅秤量体重是有效的,但如果用它量身高,虽然多次测量结果一致(信度高),但所得的数量并不能代表个人的身高,因此对量身高来说,磅秤是个无效或效度极低的工具。
在编制心理测验时,如何提高效度,无疑是个首要的问题。效度的确定方法,视测量的性质和目的而定。一般将效度分为三大类:实证效度、内容效度、构想效度。关于信度和效度问题,本书有专章讨论。
八、编写测验说明书
为使测验能够合理地实施与应用,在正式测验编写完成后,还要编制一份说明书,就下列问题作出详尽而明确的说明:
(一)本测验的目的和功用。
(二)编制测验的理论背景以及选择题目的根据。
(三)测验的实施方法、时限及注意事项。
(四)测验的标准答案和评分方法。
(五)常模资料,包括常模表,常模适用的团体及对分数如何做解释。
(六)测验的信度效度资料,包括信度系数、效度系数以及这些数据是在什么情境下得到的。
经过以上八个步骤,一个测验便可正式交付使用了。