第一章
应试教育:古德哈特定律与衡量指标悖论
2015年4月27日,珍妮·沃雷尔—布里登(Jeanene Worrell Breeden)在纽约地铁站里等待地铁列车。沃雷尔—布里登是一名小学校长,被称为“孜孜不倦的奋斗者”,并因在她任教的所有学校(通常有许多贫困学生)中创造了“卓越的教学文化”而受到称赞。[1]她是纽约哈莱姆区师范学院社区学校的创始校长,纽约市议员马克·莱文(Mark Levine)称这所学校“取得了巨大的成功”[2]。沃雷尔—布里登的学校是社区的骄傲,附近的每个人都希望自己的孩子去这所学校上学。2015年,该校收到了超过464份申请,而学校仅有50个招生名额。
在4月27日之前的两个星期,师范学院社区学校的三年级学生进行了一次考试。沃雷尔—布里登在考试当天早上为学生提供早餐,并举行考前动员会来鼓舞学生的士气。[3]学校通常不会在考试前举行动员会,但那次特殊的集会有很多原因。
2013年,纽约州和其他42个州一起通过了“共同核心计划”(Common Core program),这是奥巴马政府出台的一项教育标准,是“力争上游”(Race to the Top)计划的一部分,打算在全美推广。该计划出台了学生在每个年级结束时需要学习的英语和数学知识的标准,开发了根据这些标准对学生进行评估的考试,并实施了一项教育拨款计划,考试成绩在确定资格方面发挥了重要作用。[4]第一年的评估在2014—2015学年进行,三年级的学生是参加考试的学生中年龄最小的。
考试是由两个联盟开发的,一个是“智者平衡评估联盟”(SBAC),另一个是“大学学习和就业准备联盟”(PARCC),它们获得了3.6亿美元来开发新的考试。这些考试在评估教师和校长,以及确定学校能否获得“力争上游”拨款资格方面有很大影响。学生在考试中的表现不仅关系到学生、家长和教师,还关系到成千上万美元的拨款,着实意义重大。
2015年4月27日,就在沃雷尔—布里登站在135街和圣尼古拉斯大道附近等地铁B线的几个小时前,她的一名同事向纽约市教育局匿名投诉了她。投诉人声称,沃雷尔—布里登已经承认在“共同核心计划”考试中伪造了几名三年级学生的考试成绩。
当地铁B线列车驶近时,珍妮·沃雷尔—布里登,这名教育工作者、导师、妻子,以及数百名学生的激励者,纵身一跃,跳到了列车前……她被紧急送往哈莱姆医院中心。一周后,她去世了。
* * *
每年,世界各地的高中生都要为毕业考试做准备。对学生来说,这次考试极其重要。在许多国家,毕业考试的分数占高中生最后成绩的一半,甚至更多。这些成绩会决定他们可以被哪所大学录取,影响他们接受教育的质量,影响他们在大学期间建立的人际关系,最终影响他们未来的职业道路。这些成绩还将决定他们是否有资格获得数千美元的奖学金,进而影响到他们是否需要做兼职来帮助支付学费,占用宝贵的学习时间和课外活动时间,甚至会影响他们未来的雇主对他们的评价。说这些考试影响巨大,这一点儿也不为过。
以数学毕业考试为例,这是一场长达3个小时的数学解题马拉松。大多数学生要在高中体育馆内与成百上千名不同焦虑程度的学生一起进行考试。考试内容涵盖学生全年所学科目,其中大部分是选择题。社会研究、英语和科学学科的考试也是如此。
考试不仅对学生很重要,教师、校长和学校董事会的业绩也在很大程度上取决于学生在考试中的表现。由于这项考试关系到大学招生,家长会向教师施压,以确保他们的孩子在考试中取得好成绩,从而可以进入一所好学校。[5]
校长也感受到了考试的压力——在很多地区,学校的考试成绩会刊登在当地报纸上。学校的成绩可能会影响学校未来的招生和声誉,因为家长会为孩子选择“成绩更好的学校”。如果学校所在的州实施了“共同核心计划”以及随之而来的拨款政策,或采用了类似的标准,那么考试成绩就决定了学校获得的拨款金额。学校董事会也感受到了压力,因为其所在地区学校的表现会影响其吸引学生和筹集资金的方式。更大的压力还在后面,州议员、教育部部长、州长,甚至总统都感受到了改善教育的压力。这通常会转化为一句简单的口号:“考试分数太低,要提高分数。”[6]
这种情况对读过高中的人来说再熟悉不过了,大多数正在读这本书的人对此也很熟悉。可悲的是,对那些年龄小得多的低年级学生来说,这种情况也越来越熟悉。在实施了“共同核心计划”的州,标准化考试在三年级就成为学生课程的一部分。
但是,这有一个问题。
问题不是我们不应该要求学生努力学习,也不是教师、校长和学校董事会不应该尽心尽力地教育孩子。这些都不是问题,因为我们不应该要求知道学生、教师和学校的表现如何。然而,这又确实是一个问题,因为标准化考试,特别是那些有大量选择题、需要计时且很重要的考试并不能很好地衡量学生的理解力或综合能力,而且考试伤害了学习。
让我们从问题本身说起,特别是那些选择题。选择题经常用于考试题目,因为它是一种有效的考试方式。它有几个优点:客观,容易评分,学生容易填写,教师无须辨认高中生潦草的字迹就能确定正确答案。这些优点的问题在于,它们都与阅卷的难易程度有关,而与考试方法能否很好地反映学习情况无关。布鲁斯·C.鲍尔斯(Bruce C. Bowers)就说过下面这段话。
标准化考试的主要目的是以尽可能有效的方式对大量学生进行分类。这个有限的目标很自然地产生了简答题、选择题。当考试以这种方式进行时,主动技能,如写作、说话、表演、绘画、建造、修理,以及其他任何可以而且应该在学校教授的技能,都自动降到次要地位。[7]
鲍尔斯的观点是,选择题考试歧视那些比死记硬背层次更高的问题,因此也歧视与之相关的思维方式。单纯地选择出正确答案有很多不足之处。选择题考试使学生认为,所谓的“聪明”只是知道很多事实,能够快速记住东西。选择题考试衡量的往往是学生短期记忆的表现。
选择题考试还缺少一个好的考试的重要组成部分:要求学生自己写出答案。这样的问题被称为自由回答,不仅要求学生进行更多的批判性思考,而且能防止他们在考试中抄袭。想象一下,你在一次考试中被问到如下问题。
美国第27任总统是谁?
(A)乔治·华盛顿
(B)亚伯拉罕·林肯
(C)威廉·霍华德·塔夫脱
(D)温斯顿·丘吉尔
毫无疑问,答案是威廉·霍华德·塔夫脱。乔治·华盛顿是美国首任总统,林肯是第16任总统,丘吉尔根本就不是美国总统。要知道这道题的答案,你根本不需要知道关于威廉·霍华德·塔夫脱的任何事情。你不需要知道他是第27任总统,甚至根本不需要知道他是总统。你只要能排除其他答案,就能得到正确答案。这个问题的备选答案A、B和D之间的差别类似于史酷比狗、机械战警和野蛮人柯南的差别。
选择题的另一个缺陷是,有一部分学生在做选择题时特别吃力。这些学生并不是因为不懂教材而苦恼,也不是因为他们患有考试焦虑症。事实上,许多在选择题上有问题的学生是教师眼中的好学生。这些学生之所以在选择题上有困难,是因为他们太聪明了。
理解力更强的学生在阅读题目时,会更多地体会到题目的复杂性和细微的差别,因此他们思考问题的时间会比考官计划的时间长得多,这导致他们要在临近考试结束时匆忙完成大部分内容。他们会选择一个答案,但一分钟后又会怀疑自己。通常,天才学生面对选择题时会想:“不可能这么简单,他们一定是想骗我们。”正因为如此,很多天才学生的成绩不会像他们的课堂表现和对教材的理解那样好。
这些学生并没有表现出缺乏信念或信心。他们不是因为不理解问题而在问题上花很长时间。这些学生中的许多人对教材的理解比班上的其他学生更加微妙和细致。他们在更高的层次上思考。他们对题目有深刻的理解,知道现象是复杂的,原因是多方面的。他们的思考水平是我们希望经理、领导者、政治家以及每个人都能达到的。但是,当他们在简化了复杂问题的考试中面对一道选择题时,他们会犹豫不决。
我们对世界的信念和价值观是通过我们的行动和与周围世界的互动来表达的,而这些行动和互动反过来又最全面地反映了我们的____。
(A)意识形态
(B)文化
(C)社会
(D)个人主义
上面这道题取材于十二年级的社会学实践文凭考试,这就是那种对优秀学生来说很困难的问题。事实上,对任何一个对这个问题有着微妙理解的人来说,这道题都有点难。我本科学的是政治学,辅修历史学,我没有信心回答这个问题。这道题的正确答案是(A)意识形态。
这道题提到了一个极其复杂的现象,涉及文化、意识形态、个人信仰和社会规范在多大程度上影响我们的行动以及我们与周围世界的互动,并将其简化为一句话。这种简单化令人沮丧。政治哲学家可以就这个问题争论几年,甚至几十年。“意识形态”很可能是这道题的答案,因为在学生教科书的某一页上,有这样一句话:“意识形态是我们对世界的信念和价值观,它影响着我们的行动和与周围世界的互动。”出题人只是希望学生记住它。
这个问题不在于学生是否理解什么是意识形态,而在于学生是否记得读过课本上节选的某句话。难怪那么多孩子对教育制度感到失望和困惑,因为很多评价都取决于是否记得课本上的某句话。
这就是选择题不能很好地体现理解能力的另一个原因。学生越是见多识广,选出答案就越难,需要花费的时间就越多。在有时间限制的考试环境中,这可能意味着这些学生会比那些选择简单答案的学生考得更差。[8]
此类问题可以在所有不同的课程和科目中找到。选择题本质上要求将题目简化,进而使答案更清晰。在这个过程中,学生们失去了对细微差别、复杂性、创造性或多样性的感觉。本应是辩论性的、充满个人差异的、场景化的主题却被简化为一个标准答案。以下是由美国大学理事会[SAT(美国高中毕业生学术能力水平考试)的出题机构]制作的在线练习SAT中写作和语言部分的一个例子。[9]
古生物学家正在利用现代技术来更好地了解遥远的过去。借助计算机断层扫描(CT)和3D(三维)打印,研究人员能够创建史前化石的精确模型。
此时,作者正在考虑添加下面这句话。
化石为古生物学家提供了一种估算化石所在岩层年龄的便捷方法。
作者是否应该在这里加上这句话?
(A)是,因为它用一个重要的细节支持了本段的论点。
(B)是,因为它提供了与前一句话的逻辑过渡。
(C)否,因为它与这段的主旨没有直接关系。
(D)否,因为它破坏了这段的主要主张。
这道题的问题在于,它把写作和编辑这种极其复杂的、主观的、个人化的过程简化为一个标准公式。根据写作的受众(考试中没有给出考生相关信息),作者的个人风格和想法,作者的文章将在哪里刊登,以及作者身处的社会氛围,答案可能会有所不同。学生怎么知道读者是否知道化石是什么?如果受众不同,这句话可能是有用的信息。
我猜那些从事写作行业的人——作家、编辑、营销人员、代理人、出版商——不仅对如何最好地组织一篇文章有不同的看法,而且对如何选择词语、段落结构和语气都有不同的意见。我甚至可以确信,他们都不会认为只有一种“正确”的写作方式。作家、编辑和其他每一个参与写作过程的人都会不断地对写作进行讨论和修改,没人有一个“正确”答案。然而,SAT的考试问题恰恰假设:只有一个正确答案。上述这道题的答案是(C)。下面是我家乡的化学实践文凭考试中的三道题。
符号“Ga”代表什么元素?
钒的符号是什么?
符号“Cm”代表什么元素?
虽然这三道题都有明确的答案,但对所有这些问题的回答应该为:“谁在乎呢?”或者,如果你是化学家,你会说:“你如果忘了,看看你桌子上的元素周期表就知道答案了。”这是标准化考试的另一个缺点:它们常常问一些没有明显用处的问题,仅仅因为这种题目很容易评分。这是为了记忆而记忆。
此类问题对理解或准备工作来说毫无价值。如果你的雇主问“钒的符号是什么”,然后因为你不知道答案而解雇你,那是多么可笑的事情啊!这些问题都不是在考核有用的知识。它们只是要求你记住元素周期表。除了能考你之外,我们完全不清楚为什么要问这些问题。
标准化考试也普遍对女性不公平。像SAT这样的考试往往有大量的选择题,而女性在这方面可能不如男性。爱尔兰的一项研究用选择题考试和自由回答考试比较了相似学科的结果。男性在选择题上表现更好,而女性在自由回答上表现更好。[10]这是为什么?
首先,在回答选择题时,男性往往比女性使用更多的捷径和技巧,而女性在回答过程中往往更有条理。其次,更多的女性患有考试焦虑症,她们喜欢自由回答的问题,因为这样她们就可以充分表达对问题的理解。她们不愿意做选择题,因为在选择题中,她们更容易质疑自己,从而进一步加剧她们的焦虑。[11]这种试题歪曲了教育评价,使聪明和有天赋的女性无法在学校取得成功,并使她们对教育系统更加失望。除了严重依赖选择题之外,学校中的几乎每一次标准化考试都是限时的。考试时间的倒计时也许是考试经历中最容易引发焦虑的一个因素。考生在一道题上多花一分钟,在别的题目上就要少花一分钟。随着时间一分一秒地过去,焦虑感会不断加剧。
考试不再是正确地回答问题,而是变成了快速回答的练习。计时考试假定知识和学习是关于记忆和快速回忆的。当今世界,许多人的手机都可以上网,更不用说电脑了,几乎任何信息都可以随时随地被获取,记忆的作用值得怀疑。即使无法访问信息丰富的网络资源,现实生活中也很少需要人们当场记住事实、公式或过程。除了创伤外科医生和运动员,有多少职业需要人们立即对问题做出反应?有多少工作场合不允许人们在制订行动计划之前对问题进行规划、制定策略?正如阿尔菲·科恩(Alfie Kohn)所问的:“人们有多少次被禁止向同事寻求帮助?”[12]同样,有多少工作阻止员工获得与其工作相关的信息?把说明书从工作场所移走的公司是愚蠢的公司。
标准化考试考的是选择题,因此这种考试很难为更高层次的思维设计问题。设计一个选择题考试来对学生的创造性思维和解决问题的能力进行分类是极其困难的。那会发生什么呢?考试考查的是学生对细枝末节和不相关事实的记忆。考试考查学生是否记得内维尔·张伯伦(Neville Chamberlain)名字的正确拼写,而不是丘吉尔继任的原因。复杂的概念被简化为简单的定义和分类。更高层次的学习被牺牲了,因为出题人渴望出一些孩子会答错的试题,而不管他们为什么会答错。正如阿尔菲·科恩所言:“就分号是否使用正确达成一致意见,比就一篇文章是否代表清晰的思想达成一致意见要容易得多。”[13]
选择题和计时考试以客观和简单为目标。但学习很少是客观和简单的,至少重要的学习并不是客观和简单的。毫无疑问,学习中有客观或简单的要素,或者兼而有之;但这些要素并不构成我们学习的核心——理解。你记住一个公式并不意味着理解它。为了对学生进行分类,考试中的客观性被牺牲了,所以考题或者带有偏见,或者令人困惑,或者愚蠢至极。[14]
对于所有这些考试方式的缺陷,我们不禁要问:它们有什么好处?如果计时、选择题、常模参照测验对评估学生的创造性思维、批判性分析问题或深入理解所学材料的能力都没有帮助,那么它们还有什么用?考试尽管名为“考试”,但其实并不是为了评价学生对各学科教材的理解程度而设计的。它们真正的设计目的和潜在目的是对学生进行分类和排名。标准化考试如SAT、GRE(美国研究生入学考试)、GMAT(经企管理研究生入学考试)、MCAT(美国医学研究生院入学考试)和LSAT(美国法学院入学考试)的主要目的是对学生进行排名,以决定哪些学生能被哪些计划录取。标准化考试几乎是每所大专院校的标准。学校每年只能录取这么多学生,所以需要一种筛选方法来方便这种排序。最具成本效益(换言之,最划算)的学生分类方法就是考试。考试不是真实评价学生能力和潜力的工具,而是“给孩子贴上标签;将他们分类,进而限定他们的未来”[15]。
即使让每个学生都对所学科目有出色的理解,让每个学生都取得100分的考试,对进入大学来说也不是一个很好的考试。(至于有多少人应该能够上大学,我们是否应该完全限制人们上大专院校的资格,应该为他们提供多少奖学金,以及这对我们的社会有什么影响,这些完全是另一回事。)如果每个人都在考试中得了100分,那么考试肯定不够难,也没有提供足够的分辨能力来淘汰不及格的学生。然而,难道我们不应该期望所有的学生每次考试都拿到100分吗?教育的目的不就是学好学科知识吗?学会70%似乎不太好。所以,考试就会变得更难,至少考试的创造者是这样告诉我们的。通常情况下,考试中多了很多考查记忆的内容和一些刻意模糊的问题,这就使考试本身变得更加武断。
从理论上讲,标准化入学考试的目的是确定哪些学生在学校表现最好。高校希望录取那些最有可能在班级中表现最好,并最有可能在未来的职业生涯中取得更大成功的学生。这个想法是说,我们投入高等教育的资源,应该用在那些能产生最大影响的学生身上。在我们这个喜欢考试的社会里,这些学生就是那些考试成绩最好的学生。这是考试机构、学校管理者和提倡标准化考试的政客们一再重申的信息。
可能会让人感到震惊的是,在控制其他因素的情况下,标准化考试与在大学里取得成功几乎没有关联。[16]像MCAT这样的考试几乎不能预测学生在医学院实践方面的表现,如临床轮换和实习工作。[17]SAT也好不到哪里去。有一所大学——贝茨学院——决定完全取消入学考试,因为入学考试几乎无法预测学生的大学表现。贝茨学院仍然允许学生自愿提交SAT成绩作为录取时的参考因素,而那些选择不提交SAT成绩的学生提交分数只是出于研究需要(SAT成绩不用于评估他们的录取要求)。然后,研究人员比较了那些提交SAT成绩的人(成绩普遍较高)和不提交SAT成绩的人(成绩普遍较低)在大学的表现。他们发现,尽管不提交SAT成绩的学生成绩平均比提交SAT成绩的学生成绩低160分,但是这两类学生的大学成绩之间没有统计学意义上的差别。[18]
标准化考试成绩好的学生,在毕业后并没有更好的表现。考试成绩和职场成功之间没有多大关联。这并不奇怪,因为考试偏重于记忆和快速思考,而不是解决复杂问题和进行全面分析。考试也不能评估动机、社会技能和职业道德,而这些通常是职场中更重要的特征。在许多工作场所,最有价值的员工并不是那些能最快记住最多事实的人,而是那些能做出最佳决策的人。当人们很容易获得信息的时候,在规定的时间内记住某个事实是完全无用的。
那么,如果那些在SAT、LSAT、MCAT、GRE等标准化考试中成绩优异的人,在本科阶段、法学院阶段、医学院阶段或研究生阶段的成绩并不比其他人好,那么他们在什么方面表现更好呢?在这些考试中取得优异的成绩到底预示着什么?正如彼得·萨克斯(Peter Sacks)所说:“在标准化考试中得高分是一个人在标准化考试中得高分能力的一个很好的预测因素。”[19]
在创建可以用来区分大学录取、奖学金资格或未来工作的“客观”标准的过程中,我们偏离了学习的真正目标。学校变成了备考中心,专注于教孩子如何做题,而不是真正理解他们所学的东西。标准化考试给学生传递了错误的信息。选择题和计时考试告诉学生,教育应该是记忆事实和数字的艰苦工作。它向学生传达了一个信息,即最重要的评价标准是谁能在考试前最努力地将尽可能多的无关信息塞进自己的脑袋里。它消除了人们在学习新思想、发现解决问题的方法、理解我们的世界如何运行和相互配合的过程中产生的所有惊奇、敬畏和好奇心。学习数学、科学、社会研究和语言的过程中应该充满着迷、惊奇、好奇心和求知欲。但现实正相反,这变成了一项艰苦的记忆工作。难怪大多数学生都讨厌学校。
这不仅是因为考试不能很好地评估学习情况,也不仅是因为考试关注的是无关的信息和被简化的教材。当考试的压力越来越大时,课堂就会发生变化。教师面临着让学生在标准化考试中取得更好成绩的压力,开始减少对学习的关注,而更多地关注如何应对考试。他们开始进行“应试教育”。
第一,教师开始减少对那些可能不在考试范围内的内容的关注。他们把更多的时间花在训练学生掌握他们认为(有时甚至已经知道)会出现在考试中的内容上,而不是花在课堂讨论上。[20]一个特别热爱学习的学生如果想了解更多的知识,问了一个不在考试范围内的问题,教师会拒绝回答他,因为不想把时间花在不会被评估的东西上,尽管花些时间回答学生的问题会增强学生的求知欲。考试把课堂从探究和思考的地方变成了工作间,把教师从学习促进者变成了教官。受害的不仅仅是课堂。学校里其他让学习变得丰富和完整的部分——在运动队打球,参与学校演出,加入俱乐部——都是不断追求更高考试成绩的潜在受害者。有多少校队运动员被告知,除非提高考试成绩,否则不能加入校队?
第二,利益攸关的考试导致教师简化教材。专注于考试会使课堂的重点从理解概念转移到记忆事实和数字。这听起来可能不合常理,但学生想得越少,考试成绩就越好。那些抄袭答案、连蒙带猜、跳过难题的学生通常比那些复习自己不理解的部分、在阅读时问自己问题、试图将所学内容与正在做的事联系起来的学生成绩更好。那些好奇心旺盛的人在考试中会被那些对学习兴味索然的人打败。要知道,选择题、计时考试其实漏洞百出,这并不令人感到震惊。那些在尽可能短的时间内回答尽可能多的明确、简单问题的人,会比那些花更多时间深入思考模糊问题的人做得更好。但谁学得更多呢?考试让学生认为,学习不是为了寻找解决问题的方法,不是为了了解新概念,也不是为了发现我们生活的美好世界的另一面。考试告诉学生,学习就是要记住无用的事实,为考试死记硬背,努力不被令人困惑的问题欺骗。学习中所有的惊奇、尝试和发现都被压力之下的空洞和无用的记忆取代。
第三,应试型学校的教师更注重应试技巧,而不是学习本身。他们向学生传授考试的技巧和策略,特别是在短时间内应对选择题考试的技巧和策略。猜答案和答题前先看答案只是教师教授的两种策略,而这两种策略的传授是以牺牲真正的学习为代价的。托马斯·奥谢(Thomas O'Shea)和马文·维登(Marvin Wideen)在加拿大不列颠哥伦比亚省进行的一项研究发现,标准化考试导致教师在课堂上花更多的时间讲课,而花更少的时间来引导课堂讨论。[21]相反,在日本,学校通常不太重视标准化考试。与美国同行相比,日本教师要求学生自己想出解决问题的方法,并把它们解决掉,而在美国,学生只是被告知解决问题的“正确”方法,然后付诸实践。[22]他们不知道为什么这个方法是正确的,只是教师告诉他们这是正确的。
第四,教师开始操纵课堂由哪些学生组成,以确保得到较高的考试成绩。在学习教材方面有困难的学生被战略性地赶出课堂。有时他们被认为有学习障碍,或者干脆被排除在考试之外,以保证平均分不被拉低。为了不断提高平均考试成绩,那些考试成绩不好的学生会被安排到补习班,这样教师就可以把他们从分数计算中排除。有时,被排除在外的学生也会搞政治。2015年,纽约教育官员面临着一个困境:很多学生决定不参加标准化考试。那一年,近20%的学生选择不参加标准化考试。[23]
这些学生的能力不一定比其他学生差,事实上,他们可能表现出更高的思维水平。但由于考试简化概念,惩罚创造性和细致入微的思考,奖励速度,所以那些更喜欢沉思默想、更细致缜密的学生实际上被告知,他们不如其他学生聪明。
标准化考试对学校有什么影响?首先,学校把课堂的重点从真正的学习转移到了死记硬背上。这样一来,学校疏远和排斥了那些比同龄人有更深层次思考的学生。标准化考试给学校带来了一个残酷无情的排名系统,确保只有少数精挑细选的人能够晋级。问题是,这少数人并不一定比其他人更聪明或更有能力。他们只是擅长考试而已。
在考试对学校造成的所有这些影响中,有一个共同的主题:考试损害了真正的学习。由于太过专注于对学生进行分类,我们的考试变成了一种反常的工具,它奖励简单化的思维方式,削弱真正的理解。考试已经成为学习的对立面。
在学校中使用选择题考试作为衡量指标是因为它容易使用和实施,而不是因为它准确反映了我们想衡量的能力。我们不应该因为某个衡量指标很简易就使用它。当然,通过做选择题来测试学生对基本事实和数字的记忆是很容易的,但这并不意味着我们应该这样做。衡量员工在工作中花了多少时间也很容易,但这并不意味着我们应该以此衡量他们的表现。易于测量并不能使测量变得相关、重要或有用。
标准化考试无法很好地衡量创造性地解决问题的能力。这并不意味着创造性地解决问题的能力不重要,也不意味着我们应该完全取消选择题、计时考试。这仅仅意味着我们需要确保标准化考试不会主导课堂,也不会成为我们认为重要的东西的替代品。考试改变了学校,这完全不应该。
标准化考试对学校的影响应该是一个警告,它告诉我们盲目遵守和遵从衡量指标会扭曲我们的努力,导致事与愿违。这种现象并不局限于学校。当我们盲目追随时,任何衡量指标都会使我们与我们所做的任何事情背后的最终目的和意义分离。就像追随信息素踪迹的蚂蚁一样,盲目地坚持标准化考试已经把我们的教育系统引向了一条不正常的道路,使我们为了考试成绩好而牺牲了学习能力。我们万万不可做“蚂蚁”。
“应试教育”可能是教育系统常用的一个说法,但“争分夺秒”“看起来不错”“得分很高”也同样耳熟能详。它们都指向一种情况,即某件事情可能测量结果很好,但实际上可能很失败。但是,对考试成绩的强调并不只是改变了教师在课堂中的工作方式,有时,在利益攸关的考试环境中,教师甚至会作假。
* * *
2008年,希瑟·福格尔(Heather Vogell)和约翰·佩里(John Perry)注意到佐治亚州迪卡尔布县的阿瑟顿小学有些异常。那年春天,该校32名五年级学生中有近一半没有通过每年一度的州教育考试。该校在该州的小学中仅仅排在第10百分位数,这意味着90%的学校在考试中表现更好。然而,当学生们在秋季重新参加考试时,联邦当局实施了一项规定,允许学校使用最新的考试成绩来申请联邦拨款,这次,全体学生都通过了考试。最重要的是,26名学生在考试中获得了最高的分数。该校在全州的排名从第10百分位数上升到第77百分位数。
考试成绩的提高意味着,学校达到了联邦教育计划《不让一个孩子掉队法案》所规定的“适当年度进步”。达到要求意味着学校将有资格获得更多的联邦拨款,更重要的是,这将避免学校因未达标而受到惩罚。该校校长将学生成绩的突飞猛进归于暑假期间的强化补习,以及教师更加重视考试。
佐治亚州的其他几所学校也有类似的异常结果。亚特兰大的亚当斯维尔小学和帕克莱恩小学,以及格林县和盖恩斯维尔的另外两所学校的成绩也出现了令人难以置信的提高。[24]《亚特兰大宪法报》的两名记者福格尔和佩里在报纸上发表了他们的调查发现。
一定是有什么事情发生了。
* * *
匹兹堡是亚特兰大南部一个以黑人居民为主的贫困工人阶级社区,距离市中心约3英里[25]。它毗邻亚特兰大的佩格勒姆铁路商店,它的名字表达了对宾夕法尼亚州匹兹堡钢铁厂的致敬。从20世纪60年代开始,较富裕的黑人家庭开始搬离这个社区,在城市中寻找更富裕的地区。1970—1990年,这里的人口减少了一半。到2014年,匹兹堡社区有近一半的房屋空置,卖淫和盗窃行为在这一带很普遍。在匹兹堡所属的学区,3/4的学生生活在贫困线附近或以下的水平,90%的人是黑人或拉丁裔,只有不到40%的人从高中毕业了。[26]匹兹堡是人们想要逃离的社区,许多人也确实逃离了。对那些生活在匹兹堡的人来说,生活没有希望。帕克斯中学正位于匹兹堡。
2005年,克里斯托弗·沃勒(Christopher Waller)出任帕克斯中学的校长,他发现学校濒于倒闭。前任校长虽然通过翻新校舍和聘请辅导员改善了学校,但因被指控在之前的工作中存在性行为不端而引咎辞职。[27]教师士气低落。学生则努力挣扎着想要达到为他们设定的越来越高的标准,但往往不能保持他们在小学阶段取得的进步。沃勒是一位教师的儿子,在佐治亚州的一个乡村小镇长大。在孩提时代,他喜欢和兄弟姐妹玩过家家,他总是扮演教师和牧师。他大学毕业后获得了教育学学位,和他的母亲一样,他的教育经验主要来自与低收入家庭的孩子打交道。
曾经,在沃勒的第一份工作中,他不得不没收学生的武器。在来到帕克斯中学之前,沃勒曾在佐治亚州的多所乡村学校任教,担任科学教师、足球助理教练、行政助理和校长助理等,到了晚上和周末,他是教会的牧师。[28]
帕克斯中学的许多学生没有父亲,有些学生甚至无父无母。许多孩子是由祖父母抚养长大的,有一些孩子正处于被送进少年拘留所的边缘,还有一些孩子的父母吸毒,或因其他原因不在孩子身边。在帕克斯中学工作期间,沃勒经常在法庭上恳求法官不要把他的学生送进监狱。[29]教师和家长的汽车在学校里会被偷走。学校里,入室盗窃也很常见,有一次,失窃的设备在一名家长的家中被找到。一些学生甚至在放学回家的路上遭到性侵犯,沃勒甚至不得不作证指控一名男子对他的一名学生进行性侵犯和禁闭。[30]
沃勒面临着一项艰巨的任务。帕克斯中学在过去几年的考试中表现不佳,情况岌岌可危。沃勒必须扭转这所濒临绝境的学校的情况,以确保达到绩效目标,否则学校可能会失去拨款,甚至被关闭。这是一项令人难以置信的任务。32岁的沃勒是整个亚特兰大公立学校系统中最年轻的校长。[31]
2001年,乔治·沃克·布什总统签署了《不让一个孩子掉队法案》。该法案提出将大幅增加联邦政府对教育的拨款,但学校要达到一定的标准才有资格获得这笔拨款。2001—2004年,联邦政府对教育的拨款增加了25%以上。该计划基于一种叫“基于标准的教育改革”的教育理念。这一教育理念认为,如果你为教育设定高标准,建立可衡量的绩效目标,并要求教师和行政人员对这些目标负责,那么学生的个人成绩就会提高。这套系统严重依赖于使用标准化考试确定学生的表现,跟踪学生的进步。
《不让一个孩子掉队法案》根据标准化考试的实施情况给州政府拨款。为了获得拨款资格,学校必须证明其成绩逐年提高。然而,绩效标准由各州自行制定。在佐治亚州,绩效标准是通过CRCT(标准参照能力考试)实施的。考试的重点覆盖5个领域:阅读、数学、英语/语言艺术、科学和社会研究。[32]学校被分为两类:一类是达到“适当年度进步”的学校,即学校的考试成绩正在提高;另一类是“需要改进”的学校,即学校的成绩不合格。对于达到“适当年度进步”的学校,联邦基金将提供额外的支持。那些没有达到“适当年度进步”要求的学校,将不得不制订计划来提高未来两年的表现。一旦一所学校被列为“需要改进”的学校,学生就可以选择转学(并获得相关资金)。如果学校的表现在两年计划后没有得到改善,学校将被迫向学生提供免费辅导,这会进一步加大资源压力。如果到了第4年还没有改善,学校可能要采取违背自身意愿的措施,包括大规模更换教职员工或引入新课程。如果到了第6年,学校的表现还没有改善,政府就会对学校采取严厉的措施,比如由州政府接管学校,或者完全关闭和解散学校。
这就是克里斯托弗·沃勒在2006学年陷入的困境。帕克斯中学之前几年的成绩很差,它被列为“需要改进”的学校。这一年,该校58%的学生需要通过数学CRCT考试,67%的学生必须通过语言CRCT考试,否则学校可能面临停课。[33]正如沃勒所说:“不管孩子被教了多少或学了多少,如果不能达到目标,我们就不能帮助孩子继续学习。如果我们没有达到‘适当年度进步’,学校就会被关闭。”[34]
* * *
1999年,贝弗利·霍尔(Beverly Hall)成为亚特兰大公立学校的督学。霍尔在服务弱势学校和表现不佳的学校方面有丰富的经验。她出生于牙买加蒙特哥湾,毕业于布鲁克林学院,随后获得纽约市立大学硕士学位和福特汉姆大学博士学位。[35]她曾在布鲁克林的格林堡和纽瓦克工作,自1995年起,她在那里担任督学。[36]当她来到亚特兰大时,她不仅带来了教育弱势学生的热情,还带来了筹款的诀窍。但最重要的是,霍尔相信责任。[37]
除了联邦《不让一个孩子掉队法案》对学校实施的激励和惩罚措施之外,在贝弗利·霍尔的领导下,亚特兰大公立学校还设计了与考试成绩挂钩的附加措施。学校董事会有一个名为“研究、规划和责任部”的部门,为每所学校制定了要实现的年度目标。学校董事会的副督学会监督各个学校的表现,并要求校长承担责任。[38]
如果学校达到了绩效目标,霍尔就会用捐赠者担保的资金来奖励学校。如果学校达到目标,教师、校长、后勤人员,甚至校车司机将会获得高达2 000美元的现金奖励。相反,如果在3年内没有达到绩效目标,校长就会被解雇。[39]没有例外,没有借口。[40]霍尔说到做到。在她担任督学的10年里,90%的校长都被换掉了。[41]
在亚特兰大公立学校,考试成绩就是一切。每年秋季,该学区都会在佐治亚球馆(亚特兰大猎鹰队的主场)举行毕业典礼。成绩达标的学校将得到认可,坐在球场上,而成绩不佳的学校则被安排在看台上。座位安排非常重要,人们甚至为此创造了一个词:“铺地板”[42]。
对沃勒来说,亚特兰大公立学校以CRCT成绩的形式关注考试,这与他以前经历的任何事情都不同。根据他在农村地区的工作经验,重点是教学或表现,在一个农村里,重点甚至只是让孩子们来上课,而不去打架。[43]但在亚特兰大公立学校,重点是考试、考试、考试!学校要达到的标准不仅比《不让一个孩子掉队法案》规定的标准高,而且还在不断提高,因为霍尔认为进步应该是持续的。霍尔实施了一个制度,要求达标的学生人数必须每年增长3%。[44]正如沃勒所说:“即使达标的孩子成功升入下一个年级,学校也为接下来的年级设定了标准。年复一年,要实现让孩子们达标的目标变得越来越困难。”[45]
在贝弗利·霍尔领导下的亚特兰大公立学校,你要么达到标准,要么承担后果,没有任何借口。霍尔向系统中包括沃勒在内的每一位校长明确表示了人们对校长的期望:“在亚特兰大,人们保住工作的方法就是制定目标。”[46]当校长们与霍尔会面时,她会以10人或12人为一组,把每所学校的分数用大图表的形式展示在房间里,并询问每位校长当年是否能实现目标。没人敢说不能。[47]
除了通过《不让一个孩子掉队法案》获得联邦政府的资助外,霍尔还为亚特兰大公立学校争取到了数百万美元的私人捐款,并在整个系统内进行分配。霍尔会利用慈善家提供的资金支付教师的工资,并帮助学校建立课外项目。霍尔认可教育在帮助人们摆脱贫困方面的作用,仅从通用电气基金会、比尔及梅琳达·盖茨基金会,她就为学区筹集了4 000多万美元。[48]
整个亚特兰大取得的成果简直令人震惊。当贝弗利·霍尔开始担任督学时,只有不到50%的八年级学生达到该州的语言艺术标准。到2009年,这个数字已经上升到了90%。学校发生了变化,学生们看到了希望。霍尔证明了教育改革运动和绩效目标是有效的。通过制定严格的目标,问责教师、校长和行政人员,霍尔为亚特兰大公立学校带来了转机。她在亚特兰大公立学校的工作引起了美国学校管理者协会的注意,2009年,该协会将她评为年度国家督学。贝弗利·霍尔在亚特兰大公立学校取得的成果令人难以置信,市议会宣布,将2009年9月8日定为“贝弗利·霍尔博士日”,还为她举行了一场仪式。[49]
* * *
当沃勒开始在帕克斯中学担任校长时,他注意到了一些很不寻常的事情。从帕克斯中学周边的小学进入帕克斯中学的学生在CRCT语言艺术考试中的成绩很好。然而,当他们来到帕克斯中学上课时,他们甚至很难达到一年级的阅读水平。他无法解释为什么学生的综合阅读水平会在一个夏天的时间里从五年级水平跌到一年级水平。沃勒认为这种差异只有一个解释:小学在作假。[50]
沃勒试图向负责帕克斯中学所属地区的副督学迈克尔·皮茨(Michael Pitts)反映这一情况,但皮茨拒绝解决。相反,皮茨对沃勒的担忧做出了回应,他威胁说,如果沃勒继续喋喋不休,帕克斯中学将只会接收那些在小学里“表现最差”的学生,那样将进一步加重沃勒的任务。[51]
这种处境让沃勒不知所措,他向学校的几位教师提出了这个难题,以及考试结果让他们陷入的困境。一位教师告诉他,她听说有一所小学,教师会在学生写完试卷后涂改答案,以此篡改学生的考试成绩。副校长格雷戈里·里德(Gregory Reid)告诉沃勒,他听说有些学校的教师可以提前拿到试题。[52]
沃勒处境艰难。他所负责的学校濒临关闭,必须达到不切实际的标准。不仅仅沃勒自己会感受到没有达到这些目标的惩罚,而且教师会被调离,甚至有可能被解雇。更重要的是,学生可能会失学。对许多人来说,这是他们生活中唯一稳定的事情。因此,为了应对向帕克斯中学输送学生的小学所做的事情,并维持学校的运营,沃勒决定做亚特兰大公立学校系统的其他几十名校长正在做的事情:作假。[53]
沃勒知道,他必须与自己可以信任的教师合作。因此,他建立了专门的核心教师小圈子,帮助他确保学校达到年度绩效目标。在饱受了几个月的压力之后,他寻找到的第一位教师是该校的数学教师达马尼·刘易斯(Damany Lewis)。刘易斯当时还不到30岁,出生在东奥克兰,母亲是银行出纳员,父亲是瘾君子。他从2000年开始在帕克斯中学工作。他既是橄榄球教练,又是足球教练,还创办了国际象棋俱乐部。据大家所说,刘易斯简直是一个启明星一般的人。他知道很多学生没有钱洗衣服,就帮他们洗衣服。对其他学生来说,当他们的父母不在家或沉迷于毒品时,刘易斯会为他们提供一个睡觉的地方。[54]沃勒劝说刘易斯,如果学生考试不及格,学校就会关闭,学生将被分开,帕克斯中学在社区中扮演的角色就会荡然无存,这才说服刘易斯帮助作假。刘易斯只好委曲求全。
帕克斯中学的作假系统主要围绕着沃勒之前了解到的两种策略:在考试开始前先拿到试卷,然后把试卷分发给值得信任的教师;在交卷之后、评分之前篡改学生的考试答案。获取试卷并不难。刘易斯会潜入存放试卷的办公室,用剃刀打开试卷包装,复制出几份试卷的副本,然后用打火机加热的方式把包装上的塑料重新封好。然后,刘易斯将试题交给信得过的教师,他们会仔细思考这些试题,再把答案教给学生。为了操纵考试,沃勒会在考试日带着考试协调员阿尔弗雷德·基尔(Alfred Kiel)去市中心吃长时间的午餐,从而分散他的注意力。在他们离开后,一群教师就会走进基尔的办公室,篡改试卷。[55]教师们会复核学生的答案,以确保答案正确。
在学生答错的地方,教师会把错误答案擦掉,写上正确答案。不过,沃勒很谨慎,他要求教师们改动的题目不超过1/5,而且只改动一定数量的答案,使得学生成绩最终只超过及格线几分。[56]
沃勒领导下的帕克斯中学的考试成绩显著提高。2005年,86%的八年级学生数学成绩达到优秀水平。而在2004年,这个数字是24%。阅读成绩优秀水平从35%提高到了78%。[57]贝弗利·霍尔和亚特兰大公立学校从未容许作假,但每个人都知道发生了什么。沃勒在数年后讲述了这桩丑闻,他说,霍尔用各种方式明确表示,作假即使不被鼓励,也是可以接受的,但她从来没有直接这样说过。霍尔会用“高层改革”这样的暗语来描述学校为取得成果而采取的措施,而不直接指示任何人采取不当行为。[58]然而,霍尔会确保她所在系统内的校长清楚地知道对他们的要求。她让工作人员向校长展示到底有多少学生需要通过考试,以及需要多少正确答案才能达到标准。[59]霍尔还保护作假的教师和校长。当帕克斯中学的教师塔梅卡·格兰特(Tameka Grant)写信给霍尔,称沃勒劝说教师在考试中作假时,霍尔答复说:“沃勒没干什么。”在格兰特提出申诉后不久,她就被调到了该区最“危险”的学校之一。[60]霍尔说得很清楚,举报者会受到惩罚。这就是系统。校长会组建他们可以信任的核心教师小圈子,帮助学校在考试中作假。亚特兰大公立学校的督学和高层人员会保护这些校长,并给他们发奖金。如果有人抱怨,他们会被拒之门外,重新安置,或者被排斥。组织内外任何人对作假的指控都会被立即驳回或忽略。
几年之后,帕克斯中学的作假系统几乎变成了自动作假。沃勒相信他的核心教师小圈子会负责操纵考试结果,并在考试前拿到试卷。他从来没有直接指示教师操纵考试成绩,但大家都心照不宣。被信任的教师会参与其中,要么自己直接操纵学生的考试成绩,把错误的答案抹掉,换成正确的答案;要么提前拿到CRCT考试的试卷并做一遍,确保学生知道答案。没有人公开谈论学校发生的作假行为,但很多人都知道。正如沃勒所描述的那样,作假在帕克斯中学已经成为一台“运转良好的机器”[61]。
到了2009年,一切分崩离析。
* * *
希瑟·福格尔和约翰·佩里发表了一篇关于阿瑟顿小学和其他三所小学考试成绩大幅提高的问题的文章。两人使用了一种叫回归分析的统计方法,比较了几所选定的每年都会考试的学校的成绩。[62]两人在2008年12月发表了一篇文章之后,又在2009年10月发表了另一篇文章,也就是在该市庆祝“贝弗利·霍尔博士日”一个月之后。[63]这一次,两人考察了2008—2009年的CRCT成绩,并将每年的结果进行了比较。两人再次指出了全州各学校的一些令人难以置信的不正常的考试结果。韦斯特庄园小学和佩顿小学从前一年的成绩最差的学校一跃成为后一年成绩最好的学校之一。福格尔和佩里发现了许多一年之间成绩大幅提高的案例,但也有成绩急剧下滑的案例。[64]鉴于作假在亚特兰大公立学校和整个州是如此普遍,这就说得通了。学生在教师作假的情况下考试,成绩就会虚高,如果他们转到教师没有作假的班级,那么他们的成绩就会大幅下降,反之亦然。
有些结果着实令人难以置信。2008年,韦斯特庄园小学四年级学生的成绩排在全州第830名,但在2009年,这些上了五年级的学生的成绩在全州名列前茅。佩顿小学是2008年全州数学成绩最差的学校之一,但在2009年排名第四,尽管在模拟考试中,94%的学生的数学成绩是四个等级中最差的一等。
结果不容忽视。佐治亚州的学校发生了一件非常奇怪的事情,可能涉及不得体的行为,甚至可能涉及犯罪。记者们确信,必须做点儿什么。文章明确指出:“从统计学角度看,更多的班级出现了不太可能出现的考试成绩,这表明已经涉及4所学校的作假调查可能即将扩大。”[65]他们说的没错。这些文章不仅引起了亚特兰大公立学校董事会的注意,也引起了州长桑尼·珀杜(Sonny Perdue)办公室的注意。州长办公室迅速进行了调查,发现该地区约1/5的学校出现了异常结果。帕克斯中学也被发现有75%的班级在考试中有可疑迹象。[66]
亚特兰大公立学校承诺对可疑的结果进行调查,并成立了蓝带委员会[67]。该委员会由亚特兰大公立学校组织并配备工作人员,他们得出的结论是,不存在共同谋划操纵考试成绩的行为。[68]珀杜州长却并不信服。因此,2010年8月,他批准了一项行政命令,授权前州检察长迈克尔·鲍尔斯(Michael Bowers)、前地区检察官罗伯特·E.威尔逊(Robert E. Wilson)和特别调查员理查德·海德(Richard Hyde)彻底调查可疑的考试结果。珀杜州长赋予了他们传唤权,以及雇用50多名调查人员的预算。[69]
调查人员最初遭到了学校董事会和教师的强烈反对,似乎没有人愿意配合。但调查人员还是坚持了下来。当年秋天,佐治亚州调查局的50多名调查员花了一个月的时间走访了全州的各个学校,包括帕克斯中学。[70]调查人员坐在食堂、教师休息室、走廊和教室里,与教师接触,让教师协助调查。最终,他们成功了。调查人员说服了众多教师成为本案的证人,有的教师同意戴上窃听器,记录与其他教师的对话。[71]完整的调查持续了两年半的时间。贝弗利·霍尔和其他许多人在调查期间退休,还有许多人在调查期间被解雇或被吊销教师执照。
除了面谈之外,州长学生成绩办公室还与“麦格劳—希尔教育测评中心”(CTB McGraw Hill)签约,调查考试中由错到对的答案改动。麦格劳—希尔教育测评中心进行的分析包括找出选择题考试中哪些地方的答案被擦掉了,他们会统计这些答案由错到对的改动数量。通过将这些变化的数量与典型考试进行比较,研究人员能够确定考试成绩是否被篡改。麦格劳—希尔教育测评中心发现,在亚特兰大和其他34个学区,“相当数量的班级中由错到对的涂改次数大大高于全州平均水平,令人震惊”。帕克斯中学的改动发生率最高。[72]调查人员聘请的教育测量学教授格雷戈里·奇泽克(Gregory Cizek)这样描述随机涂改出现的概率:这种事出现的概率就像用人把佐治亚球馆填满的概率一样,而且“球馆里的每个人都要超过7英尺高”[73]。
这项调查涉及对全州各类教育工作人员的2 000多次采访。仅在亚特兰大就有44所学校存在作假现象,作假风气盛行,据估计,83%的亚特兰大公立学校都存在作假现象。[74]特别调查开始后仅10个月,2011年6月20日,调查人员就发布了一份报告,178名教师和校长卷入丑闻,其中82人已经认罪。[75]
该案的初步指控导致110名教师在承认作假或被怀疑作假后停职。[76]达马尼·刘易斯是第一批同意合作以换取指控豁免的教师之一。[77]事情败露了。调查人员还对亚特兰大公立学校和贝弗利·霍尔提出了严厉的指控,称“忧惧、恐吓和报复的文化充斥着整个学区,各级作假行为多年来一直得不到遏制”。他们还表示,学校系统内的考试成绩“被用作羞辱和惩罚学生的残忍武器”[78]。
调查人员得出结论:正是达到目标的巨大压力导致教师作假。亚特兰大公立学校达到目标的方式使教师和行政人员认为,他们必须在“为达到目标而作假”和“达不到目标而失去工作”之间做出选择。[79]
随着时间的推移,标准不断提高,学生每一年的成绩都要不断提高,再加上作假现象已经很普遍,这意味着教师如果不作假就几乎不可能达到预期的标准。调查人员提供的报告称:“该地区多年的考试不端行为加深了作假的程度,教职人员每年不仅要让学生成绩达到上一年的虚假分数,而且要超过这一虚假分数。学生的学业水平与他们所要达到的目标之间的差距越来越大。”[80]
对亚特兰大地区的校长和教师来说,作假不是一种选择,而是唯一的生存之道。
对帕克斯中学的许多教师来说,考试作假只是达到目的的一种手段。对他们来说,学生才是最重要的。对达马尼·刘易斯来说,重要的是让帕克斯中学的学生相信自己可以逃离这片社区。刘易斯在自己的脑海中为作假辩护,因为对他来说,如果学校关闭,如果学生被重新分配,这就像是社区失去了主心骨。学生在帕克斯中学得到的引领和指导,以及相信自己能有所成就的信念,足以让他们有充分的理由去篡改一些答案。学生相信自己可以做得比预期中更好,这就足够了。刘易斯说:“我会尽我所能来阻止那种‘为什么要努力学习’的情绪出现。”[81]对沃勒来说,学校的变化对学生产生了积极的影响。他们“开始以不同的方式看待事物。他们看到了出路”[82]。
总之,亚特兰大和佐治亚州其他地区的170多名教师、校长和高级管理人员被指控犯有各种罪行,其中许多校长和高级管理人员是根据《反敲诈勒索及腐败组织法案》(Racketeer Influenced and Corrupt Organizations,RICO)受审的,该法案与起诉有组织犯罪成员的法律条款相同。达马尼·刘易斯是第一名因该丑闻而被解雇的教师,此前他拒绝辞职。他在2012年3月的解聘听证会上宣读的声明中只是说:“我认为证据将证明亚特兰大公立学校存在系统性问题。这就是我的声明。”[83]
2013年3月22日,克里斯托弗·沃勒、贝弗利·霍尔和其他33名行政人员被大陪审团根据《反敲诈勒索及腐败组织法案》起诉。贝弗利·霍尔的罪名包括敲诈勒索、虚假陈述、盗窃、影响证人和共谋犯罪。直到2015年4月1日,亚特兰大地区的11名教育工作者才被判犯有敲诈勒索罪和其他几项与标准化考试作假有关的罪行。霍尔不在其中,她在此之前一个月死于癌症,但起诉书没有回避将丑闻的大部分责任归于霍尔。
久而久之,达到亚特兰大公立学校年度目标的过重压力导致一些员工作假。贝弗利·霍尔和其他高层管理人员拒绝接受任何未达成目标的行为,这创造了一种环境,在这种环境中,达到预期结果比学生的教育更重要。[84]
沃勒被判处5年缓刑,并处罚金4万美元。[85]帕克斯中学于2014年关闭,并与林荫山中学合并。
这一切都是因为考试。
* * *
发生在亚特兰大公立学校的事情并不是异常现象。据报道,费城、托莱多、埃尔帕索、巴尔的摩、辛辛那提、休斯敦和圣路易斯等城市也普遍存在作假现象。[86]在某些情况下,作假会导致悲剧性的后果。尽管我们永远不知道珍妮·沃雷尔—布里登(本章开头提到的纽约一所学校的校长,被举报在三年级的考试中作假,之后跳到地铁列车前自杀)在4月的那个悲惨的日子里经历了什么——她的祖母去世了,据报道,她还遇到了婚姻问题——我们只能推测,三年级考试的压力,以及对她涉嫌考试作假的调查,是她决定自杀的原因。
人们对绩效指标做出的反应出人意料、不合常理,有时甚至是不诚实的,但这并不仅仅发生在学校。事实上,在生活的方方面面,人们的反应几乎都像亚特兰大公立学校的教师那样。虽然这种反应可能不涉及作假或其他不道德或非法的行为,但人们会想方设法达到目标。这种现象非常普遍,甚至有一个名词来描述:古德哈特定律(Goodhart's Law)。[87]
查尔斯·古德哈特(Charles Goodhart)是一位研究货币政策的经济学家。他发现,当政府试图监管金融体系时,投资者将预见监管产生的影响,并从中获利。古德哈特的结论是,一旦任何测量结果与激励挂钩,人们就会想方设法最大限度地提高这一测量结果,无论他们的行为是否有助于实现该测量的初衷。对这一定律最好的诠释是:“当一项测量成为目标时,它就不再是一项好的测量。”这就是在亚特兰大发生的事情。考试不仅是评估学生进步的方法,而且成了与其相关的激励本身——巨大的奖励。如果考试成绩没有达到目标,校长和教师可能会失去工作。不仅如此,学校还可能被迫关闭或者被接管和重组。如果考试成绩达标,教师会获得奖金。因此,获得高分的动机非常强大。
人们以反常的方式回应衡量指标和激励的例子比比皆是。19世纪,在中国工作的古生物学家对搜集恐龙骨骼化石来研究史前动物很感兴趣。完整的化石很罕见,因为数千万年的地质力量会分解骨骼和其他遗留物,古生物学家通常不得不处理骨骼碎片或其他不完整的化石。于是,古生物学家向当地农民寻求帮助,提出每上交一块恐龙骨骼化石碎片,就付给农民一笔钱。农民很快就学会了如何玩弄这个系统:因为古生物学家是按“碎片”付费的,所以农民开始砸碎他们找到的恐龙骨骼化石,这样他们就可以上交更多的“碎片”。[88]1992年,西尔斯公司开始向机械师支付维修设备的费用,这导致机械师为了赚钱而进行不必要的维修。[89]
在澳大利亚,列车员会因晚点而受到处罚。因此,他们开始进站不停车,这让站台上候车的乘客感到很疑惑:为什么火车就这样呼啸而过?在英国,急诊科开始测量病人到达急诊室后看病所花的时间。于是,在医生准备好给病人看病之前,接诊人员拒绝让救护车里的病人下车。其结果是,救护车要一直等到医生准备好,这占用了宝贵的辅助医疗资源,减少了对紧急情况的响应时间。[90]20世纪90年代,纽约州和宾夕法尼亚州开始公布医院和外科医生的患者死亡率数据,目的是在医疗保健领域实施问责制度。这个想法的初衷是,患者能够选择表现更好的医院或外科医生,医生和医疗管理人员能有动力去改善医疗服务。但结果相反,外科医生为了提高治愈成功率,开始拒绝收治病情复杂的患者。[91]
英国殖民印度时在印度首都德里遇上了一个麻烦:眼镜蛇。这座城市里栖息着大量的毒蛇,给殖民政府和当地居民造成了危险。殖民政府想出了一个主意:悬赏捕蛇。当地居民每交出一条死眼镜蛇就会得到一笔奖金。这个计划似乎相当成功,许多蛇被杀死,政府也给了奖金。但很快,殖民政府发现了为什么这么多蛇能够被捕获并杀死:因为当地居民开始饲养蛇,再把死蛇卖给政府!英国人意识到印度人在玩弄这套系统,于是取消了捕蛇奖金。既然眼镜蛇已经没有价值了,那些养蛇的人就把蛇放生了。结果,城市里的眼镜蛇数量增加了一个数量级。英国人控制城市里眼镜蛇数量的计划反而让情况变得更糟糕。研究这种现象的德国经济学家霍斯特·西伯特(Horst Siebert)称之为“眼镜蛇效应”。[92]
人们以不正当的、适得其反的方式对衡量指标做出反应的现象,无论被称为“眼镜蛇效应”还是“古德哈特定律”,都将贯穿本书。我们将看到,当一个衡量指标被使用时,人们会想方设法去实现它,而不管他们的行为是否实现了衡量指标背后的目标。
亚特兰大公立学校丑闻可能是古德哈特定律的一个极端例子,但也是一个有用的例子。达到标准的压力越大,情况就越危急,人们就越有可能突破可接受的极限来达到标准,并为此想尽办法、不择手段。不过,他们不会以你预期的方式来做。
在亚特兰大公立学校的丑闻中,我们还看到了一个重要的区别,这个区别也将贯穿本书始终。为了应对考试成绩的压力,教师们以两种截然不同的方式做出了回应。第一种反应是,教师改变他们的教学方式。他们把更多的教学精力放在他们认为会考的材料上,把更多的时间花在备考和教授考试技巧上,他们在课堂上取消了那些不会出现在考试中的内容,无论这些内容是不是课程的一部分。这就是“应试教育”。第二种反应是,他们决定作假。
这两种反应之间的重要区别在于,第一种反应涉及对正在发生的事情的真正改变。应试教育意味着以牺牲学习的其他方面为代价教会学生如何考试。不在考试范围内的科目被忽略了,更深入的理解被牺牲了,重点变成了更容易应对考试的简单思维方式,而选择题考试中无法体现的学习内容,如创造性和探究性,也被遗忘了。作假虽然是不道德的,也是违法的,但并不一定会改变课堂本身。学生们仍然可以学习创造性,学习考试内容之外的科目,并探索教材中更深入、更持久的内容。作假只涉及对测量本身的操纵。
古德哈特定律没有做出这种区分,但这种区分很重要,贯穿本书。古德哈特只是说,任何测量,当被做成衡量指标时,都将不再有用,因为人们最终将学会玩弄这个系统。但古德哈特从未详述人们将如何玩弄这个系统。人们可以从根本上改变自己的行为(通常是以反常的方式),以此最大限度地提高他们被衡量的表现,或者他们可以简单地找到改变衡量结果的方法,而根本不改变他们的行为。这两种策略通常会同时出现,我们必须明白它们是不同的,但不一定是分开的。那些在考试中作假的教师可能也改变了他们在课堂上的教学内容,但他们不一定要这样做。
本章在讨论标准化考试时总结的另一个教训是,人们选择某些衡量指标,往往不是因为它们是需要测量的良好指标,而是因为它们容易测量。当简单的测量与按特定标准执行的激励措施结合在一起时,这些测量会扭曲人们的行为,让人们把注意力放在容易和可测量的事情上,而不是放在难而重要的事情上。
* * *
衡量指标会影响我们的工作、行为,以及我们最终选择的价值。豪泽和卡茨说过:“你测量什么,你就是什么。”[93]丹·艾瑞里(Dan Ariely)则有不同的说法:“你测量什么,你就得到什么。”[94]这句话里有一个警告:一旦你开始测量某件事情,并且强调它的重要性,就会有更多的人想方设法地去做这件事。他们会找到各种各样的方法来达到你测量的目标。如果你选择了错误的东西去测量,人们就会开始做错误的事情。你测量的是什么,你可能就会得到什么,但这就是你得到的全部。
过分重视考试对我们的学校造成的影响可以作为一个警示:任何衡量指标都可能扭曲我们的社会。很少有衡量指标设计得很好,或至少有相关性,有用的衡量指标更少,没有一个衡量指标是完美的。如果我们让一个衡量指标主导我们生活中一切事物的运行方式,从我们的学校到工作,再到社会,那么我们就会对衡量指标不能代表的一切事物视而不见。把一个衡量指标视为万无一失、无可争议或出圣入神的标准,永远不会有好的结果。如果我们不了解衡量指标背后强大的激励机制如何导致适得其反的行为,情况就会变得更糟糕。
任何衡量指标所带来的危害都不在于衡量指标本身,而在于如何使用和奖励。测量本身并不能改变我们的思想、行为或环境。然而,衡量指标的目的正是做这些事情:我们为事情设立衡量指标,是为了改变。如果一件事不会改变你看待、完成或影响它的方式,那么你为什么要去测量它呢?衡量指标的使用方式决定了它们带来的利与弊。它们可以有各种不同的使用方式。在本书中,我们会出于各种原因批评很多衡量指标。归根结底,我们批评的不是衡量指标,而是使用衡量指标的方式。应试教育就是一个过于强调衡量指标的案例。盲目相信任何衡量指标,并将强大的激励机制与之捆绑在一起,只会导致失败。任何衡量指标都不应阻止我们质疑我们要实现的目标以及测量它的方式。测量并不能代替理解,任何衡量指标都不能代替我们思考最终要实现什么目标。
衡量指标在很多方面都是不完美的,我们将在本书中探讨其中的许多方面。当我们把所有的努力都放在衡量指标上,而不是放在我们真正想达到的目标上时,我们就会采取适得其反的措施,扭曲我们的努力,或者效率低下地做事。本书将探讨衡量指标失效的许多原因。但是,我们可以从“投入和产出”开始,看看我们是如何混淆资源、努力、产出和结果的。
[1] Kate Taylor, “Principal Acknowledged Forging Answers on Tests for Students, Officials Say,”New York Times, July 28, 2015; Laila Kearney,“NYC Grade School Principal Who Committed Suicide Had Forged Tests,” Reuters, July 27, 2015.
[2] Abby Jackson, “How a cheating scandal at a well-regarded public school in New York turned tragic,”Business Insider, July 28, 2015.
[3] Susan Edelman, Amber Jamieson, and Jamie Schram, “Principal commits suicide amid Common Core test scandal,” New York Post,July 26, 2015.
[4] Alan Singer, “The Results Are In: Common Core Fails Tests and Kids,”Huffington Post, May 2, 2016.
[5] Peter Sacks, Standardized Minds: The High Price of America's Testing Culture (De Capo Press, 2000), 128.
[6] Alfie Kohn, The Case Against Standardized Testing: Raising the Scores, Ruining the Schools, (Portsmouth, NH: Heinemann, 2000), 2.
[7] Bowers, Bruce C. quoted in Sacks, 9.
[8] Kohn, The Case Against Standardized Testing, 7, 18.
[9] The College Board. The SAT: Practice Test #5. https://collegereadiness.collegeboard .org/sat/practice/full-length-practice-tests.
[10] Sacks, 205.
[11] Sacks, 207.
[12] Kohn, The Case Against Standardized Testing, 6.
[13] Kohn, The Case Against Standardized Testing, 4。
[14] Kohn, The Case Against Standardized Testing, 6。
[15] Kohn, The Case Against Standardized Testing, 93。
[16] Sacks, Standardized Minds, 7.
[17] Sacks, Standardized Minds, 211。
[18] Sacks, Standardized Minds, 273。
[19] Sacks, Standardized Minds, 8。
[20] Jennifer Jennings and Jonathan Marc Bearak. “‘Teaching to the Test' in the new NCLB Era: How Test Predictability Affects Our Understanding of Student Performance.”Educational Researcher. Vol. 43, No. 8.(November 2014): 381—89.
[21] Sacks, Standardized Minds, 129.
[22] Sacks, Standardized Minds, 134。
[23] Elizabeth A. Harris, “20% of State Students Opted Out of Tests in Sign of a Rising Revolt,” New York Times, August 13, 2015.
[24] John Perry, “Surge in CRCT results raises ‘big red flag,’”Atlanta Journal Constitution. December 2008, updated January 19, 2012.
[25] 1英里≈1.609 3千米。——编者注
[26] Rachel Aviv, “Wrong Answer: In an era of high-stakes testing, a struggling school made a shocking choice,”New Yorker, July 21, 2014.
[27] Rachel Aviv, “Wrong Answer: In an era of high-stakes testing, a struggling school made a shocking choice,”New Yorker, July 21, 2014.
[28] Christopher Waller and LaDawn B. Jones, Cheating but Not Cheated: A Memoir of the Atlanta Public Schools Cheating Scandal (LaDawn B.Jones, 2015), 181—97.
[29] Aviv, “Wrong Answer.”
[30] Waller and Jones, Cheating but Not Cheated, 216.
[31] Waller and Jones, Cheating but Not Cheated, 110。
[32] http://www.gadoe.org/Curriculum-Instruction-and-Assessment/Assessment/Pages/ CRCT.aspx.
[33] Aviv, “Wrong Answer.”
[34] Waller and Jones, Cheating but Not Cheated, 131.
[35] Waller and Jones, Cheating but Not Cheated, 138。
[36] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal,” New York Times, March 29, 2013.
[37] Aviv, “Wrong Answer.”
[38] Aviv, “Wrong Answer.”
[39] Aviv, “Wrong Answer.”
[40] Waller and Jones, Cheating but Not Cheated, 141.
[41] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”New York Times, March 29, 2013.
[42] Aviv, “Wrong Answer.”
[43] Waller and Jones, Cheating but Not Cheated, 201—3.
[44] Aviv, “Wrong Answer.”
[45] Waller and Jones, Cheating but Not Cheated, 16.
[46] Aviv, “Wrong Answer.”
[47] Waller and Jones, Cheating but Not Cheated, 144.
[48] Aviv, “Wrong Answer.”
[49] Aviv, “Wrong Answer.”
[50] Aviv, “Wrong Answer.”
[51] Waller and Jones, Cheating but Not Cheated, 111.
[52] Aviv, “Wrong Answer.”
[53] Waller and Jones, Cheating but Not Cheated, 116.
[54] Aviv, “Wrong Answer.”
[55] Waller and Jones, Cheating but Not Cheated, 128.
[56] Aviv, “Wrong Answer.”
[57] Michael Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”New York Times, March 29, 2013.
[58] Waller and Jones, Cheating but Not Cheated.
[59] Waller and Jones, Cheating but Not Cheated, 132.
[60] Aviv, “Wrong Answer.”
[61] Waller and Jones, Cheating but Not Cheated, 117.
[62] Perry, “Surge in CRCT results raises ‘big red flag.’”
[63] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.
[64] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.
[65] John Perry, “Are drastic swings in CRTC scores valid,”Atlanta Journal Constitution. October, 2009, updated July 5, 2011.
[66] Aviv, “Wrong Answer.”
[67] 蓝带委员会是指由一些专业人士组成的、目的在于对某项社会事务进行调查研究的组织。这种组织一般不受政府和其他权力机关的影响,但自身也不具备强制力。——译者注
[68] Waller and Jones, Cheating but Not Cheated, 83.
[69] Michael Winerip, “Ex-School Chief in Atlanta Is Indicted in Testing Scandal,”New York Times, March 29, 2013.
[70] Aviv, “Wrong Answer.”
[71] Winerip, “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”
[72] Waller and Jones, Cheating but Not Cheated, 72.
[73] Waller and Jones, Cheating but Not Cheated, 171.
[74] Valerie Stauss, “How and why convicted Atlanta teachers cheated on standardized tests,”Washington Post, April 1, 2015.
[75] Winerip “Ex-School Chief in Atlanta Is Indicted in Testing Scandal.”
[76] Aviv, “Wrong Answer.”
[77] Aviv, “Wrong Answer.”
[78] Aviv, “Wrong Answer.”
[79] Waller and Jones, Cheating but Not Cheated, 141.
[80] Waller and Jones, Cheating but Not Cheated, 145。
[81] Aviv, “Wrong Answer.”
[82] Waller and Jones, Cheating but Not Cheated.
[83] Aviv, “Wrong Answer.”
[84] Valerie Stauss, “How and why convicted Atlanta teachers cheated on standardized tests”Washington Post, April 1, 2015.
[85] Aviv, “Wrong Answer.”
[86] Aviv, “Wrong Answer.”
[87] A similar observation by Donald T. Campbell occurred around the same time as Goodhart's work, and is termed “Campbell's Law.” While there is debate around which researcher should claim credit for the phenomenon, this book will use the term Goodhart's Law.
[88] Zeger Van Hese “Metrics—perverse incentives?” Test Side Story.https://testsidestory.com/author/zegervanhese/page/7/.
[89] Robert Gibbons, “Incentives in Organizations,” Journal of Economic Perspectives, Vol. 12, No. 4 (Autumn, 1998): 115-32.
[90] David Parmenter, “Should We Abandon Performance Measures?”Cutter IT Journal. January 2013 http://cdn.davidparmenter.com/files/2014/02/Should-we-abandon-ourperformance-measures-Cutter-Journal-2013.pdf..pdf.
[91] Megan McArdle, “Metrics and Their Unintended Consequences,”Bloomberg Opinion, January 3, 2018 https://www.bloomberg.com/opinion/articles/2018-01-03/metrics-and-unintended-consequences-in health-care-and-education.
[92] Patrick Walker. “Self-Defeating Regulation.”International Zeitschrift,April 2013.
[93] John R. Hauser and Gerald M. Katz, “Metrics: You Are What You Measure!,”European Management Journal, Vol. 16 No. 5 (April 1998):517—28.
[94] Dan Ariely, “You Are What You Measure,”Harvard Business Review,June 2010. https://hbr.org/2010/06/column-you-are-what-you-measure.