上QQ阅读APP看书，第一时间看更新

第一章　评分与评估

在我与英国乃至更远地区的学校合作的过程中，有一点非常明显：无论背景如何，教师们都承受着巨大的评分负担。 2017年9月以来，我调查了15 000余名教师，研究了“教师最大的工作负担是什么？”这一问题。不出所料，日常课堂评分工作加剧了英国教师心理健康与幸福感方面的问题。

当然，评分只是评估的一种形式。它的过度使用究竟是源于人们对其有效性的认知，还是来自外界对教师和学校的要求，目前尚未可知。然而，我相信，即使学校实行无评分或无家庭作业政策，这种好意依然可能会向外部力量妥协，比如父母的期望、考试委员会的规定以及国家统一评估。虽然学校每年都会进行正式的评估，虽然学校仍有权决定自己的日常工作，但即便如此，还是经常会有第三方来学校评估教学工作。如果评估者发现学校工作缺乏监管，诸如“拿出证据来”或“究竟有什么影响”等质疑就会让学校陷入困境。

然而，评估——无论是评分、提问还是测试——确实是课堂上的重要工具。那么，我们可以做些什么来帮助学校和教师，确保评估对学生进步有直接影响呢？在本章中，我将分享一些来自学校方面的想法和建议，这些学校正尽其所能地减少评分，改进评估，以减少教师工作量和提高课堂效率。我还会考察教师们正在有效运用的日常课堂理念——以及那些对学习毫无帮助或几乎没有帮助的教学理念。

为什么这是一个问题

评估，包括在一节课中完成的标准化测试，是教师监控学生日常学习的一种安全方法。然而，在复杂的教育环境下，“学生如何学习”已经被缩简为一组组数据。现行评估制度出了问题的地方主要有两点，一是基于学校问责制和跟踪学生进度的测试和报告量不断增加，二是衡量两个时间点之间的成绩变化正成为公立学校教育中非常流行的衡量标准。热衷于衡量学生是否在关键阶段学到了知识的学校领导和政客们应该明白，这种一次性、低风险的测试只能提供有限的参考。

贝基·艾伦教授认为，“在一节45分钟或1小时的课上进行时间相对较短的标准化测试，来判断学生的个人进步是不够可靠的”。基于她与英国教育捐助基金会（EEF）对商用标准化测试的研究，特别是对商业评估对关键阶段2学术能力评估测试（SAT）成绩的预测能力进行的衡量，艾伦得出结论：“没有一项测试可以精确地衡量学生的成绩。短期测试的可靠度要远低于长期测试。”

艾伦的研究提出了测试的两个主要问题。第一，我们需要保证考试的标准化，让学生和教师对考试的重要性有统一认识。例如，我们是否有信心确保在不同地区参加国际学术评估项目测试的学生在相同的条件下参加测试？如果做不到这一点，那么这些参数必定是有问题的。第二，虽然在一节课内完成的简短评估可以帮助教师检测学生的能力，但它们很少能够告诉我们，学生在上一年取得了怎样的进步。作为教师，我们可能认为——而且也希望——我们可以满足孩子们更长期的学习诉求，但如果认为在一节课内就可以衡量学生的进步，那就太荒谬了，而且这也是根本无法实现的！

测试（考试）对学生的影响

不仅我们目前跟踪学生进步的方法无效，而且我们对数据集和测试的痴迷也可能限制或损害学生的发展。在《平均的终结：如何在崇尚标准化的世界中胜出》（The End of Average）一书中，哈佛毕业生兼作家托德·罗斯提及了美国心理学家爱德华·桑代克的著作。桑代克定义了我们今天所了解的教育。他认为学校和教育的目的是，根据学生的才能对其进行分类，并预测学生的表现。罗斯对此评论道：“极为讽刺的是，教育史上最具影响力的人物之一认为，教育几乎无法改变学生的能力，因此教育的作用仅限于识别拥有更高智商的学生。”桑代克支持使用量化信息（如分数）作为评估学生表现和决定学生是否能在大学和职业生活中取得成功的便捷指标。这种“最有可能成功的人”和“最有可能失败的人”的观念如今依然普遍存在。

我想知道我们中有多少人接受了这种观念。比如，我们可能在数学考试中名落孙山或名列前茅。再比如，我们被分数定义，分数意味着我们没有达到我们的首选大学或学院的标准。桑代克的教育迷宫不仅把每一个学生，而且把每一个人都限制在了它的围墙之中。每个学年结束时，（学校或相关部门）都会对教师进行评估。评估的结果决定了他们的职称晋升、排名、加薪和任期。整个国家的教育体系都根据它们在国际标准化测试（如PISA1或PIRLS2）中的表现来排名。综观全球，我们的教育体系正如桑代克所期望的那样：

● 高于平均水平相当于你得到奖励。
● 低于平均水平相当于你将会失败。

在过去的一个世纪里，我们已经完善了桑代克的教育体系。正如罗斯所言，它就像一台运转良好的机器，排除了所有别的可能性。罗斯深刻地证实了我们当前教育体系中存在的问题，并影响了我的看法：成千上万的孩子认为自己是失败者，仅仅是因为这个评价体系不够成熟，无法评估出他们的个体成功。

学校排名

在体制层面，我们的一些教育领导对彼此的学校进行排名。有时为了提升学校名次，还会在法定评估的基础上进行额外的评估。这无疑将加剧现有危机并危害教师心理健康，以此为代价换取学校在排行榜上的乐观表现。

在更极端的例子中，多学院信托基金（MATs）对加入它的学校进行排名，以提高部门、团队和学科的教学水平。你能想像以下情况带来的感受吗：你是一所中学的理科负责人，你排名倒数第一 ——虽然每个学校的情况根本不具可比性！你所在的学科可能比你所在学校的其他核心学科表现得更好，但与整个名单中另外20至40所学校相比，按学科表现进行排名，它排在了较低的五分之一中。高风险问责制导致了学校的各种问题，包括“掉队”和“比赛”现象。可悲的是，这种情况在一些小学确有发生——这些学校中的六年级学生在评估中“被排练”或“被过度帮助”。我们明白学校评估有其重要性，但合理的问责制度更加重要。

对学校而言，排名的提高吸引了更多的学生和资金——如此循环往复。但这种衡量“附加值”的方法给人一种错觉，即排名靠前意味着教师能力优秀，学生自然会取得进步。之所以说是错觉，是因为还有许多复杂的因素也会影响学生成绩，比如社会经济地位。如果我们不依赖学校排名，政策制定者和多学院信托基金的领导们可能会觉得他们失去了对全局的控制权。但实际情况是，这种负担和相关费用将会减少，学校评估体系将会进入更本地化的水平。学校将会为自己设计自我评估框架，以继续为当地社区提供有价值的服务。

有效利用数据

在全国各地的学校里，存在一种“密集数据”的风气。例如在北爱尔兰，这种现象在关键阶段3和43尤为普遍。但教师们认为，数据并不总是可靠有用的，也不总是有助于学习的。在某些情况下，教师每学年要进行9万次以上的数据计算：

那么，我们该如何处理这些信息呢？罗伯特·科教授曾在其作品中写道：“‘密集数据’已成为一种毫无意义的工作的缩影，即收集无意义的数字，再将其转换成对学习者毫无益处的体系。”他提醒我们，评估必须包含可能会让我们感到意外的信息，并告诉我们一些不知道的事情。因为如果报告只包含我们已经知道的东西，它对我们下一步的工作并没有任何指导意义。科教授还谈到了“准确性”，他说：“所有的评估都是不准确的，而且有可能是错误的”，因此必须根据数据的重要性来判断数据——即数据的可靠性以及它传递了多少信息。例如，对单个问题的解答并不是可靠且有效的评估。如果不能报告数据的重要性和准确性，那么仅仅将其输入管理信息系统的行为并不是一种评估！

学校必须减少冗余的数据工作。少收集一些数据，数据将变得更准确、更有意义。 2018年，英国教育部发布了一份关于“让数据发挥作用”的学校报告。该报告由教师工作量咨询小组撰写，贝基·艾伦教授担任主席。她在前言中说道，考虑到技术变革的影响，“是时候跳出圈子看问题了，评估一下花在管理学生成绩和教学数据上的时间，是否与其教育效益成正比”。

在数据收集方面，该报告为学校和信托机构的领导们提供了一些非常有用的建议：

1. 建立简单的体系。只要有可能，允许在正常工作日，而不只是在休息时间和午餐时间记录行为事件、课后情况和其他教务信息。

2. 尽量减少或消除教师需要收集的信息。

3. 确保你了解学校评估的质量和目的，包括与课程相关的信度和效度的详细信息。

4. 以你可掌握的方式审查报告和家长参与的方法，让家长了解子女在学校的表现和行为，并考虑如何以最佳方式向家长提出期望。

5. 使用上述数据原则，确定对学生的干预计划，尽量减少准确定位学生所带来的数据负担。

6. 每年不要超过两个或三个成绩数据收集点。数据收集点是用来了解明确的操作步骤的。

7. 避免让教师的薪酬增长依赖于定量评估指标，如考试结果。

根据这些建议，中高层领导应就评估和数据收集政策思考以下问题。如果你还不属于领导层，向你的上级提出你的想法。改变不一定只能自上而下地进行。

● 评估的目的和用途是否明确，是否符合学校的价值观？
● 从评估中能够推断出什么，结果是众所周知的吗？
● 收集数据的数量和频率是否成正比？
● 你的学校上次审核数据收集和使用评估流程是什么时候？
● 是否所有的数据收集窗口都需要与教师或团队领导进行对话？
● 重要考试年级组每学年收集的数据是否超过三次？
● 收集的数据是否易于教师、家长和学生理解？
● 是否有明显的证据表明你收集的数据可以增加价值？

评分呢

我们知道评分是教师日常工作的一部分，但我经常问的问题是：“你知道什么是有效评分吗？”如果拥有25年教学经验的我仍在努力寻找这个问题的答案，那么对于没有经验的教师来说，还有什么希望呢？

考虑到评分，学校的日常课堂政策会使情况变得更糟，这些政策要求教师要在每Y段时间评分X次并保持一致，并坚持要求每位教师使用特定颜色的笔评分。这一切都是为了避免外部监督带来的压力，但一旦出现这种情况，教师的工作量就会从反馈的有效性转移到“我应该用什么颜色的笔？”以及“我应该多久打一次分？”

此外，学校领导们的工作审查加剧了这一问题，他们千方百计地监督教学的一致性和质量——这是一个不可能完成的任务，因为我们经常在没有收集到所有必要信息的情况下，就开始观察教学过程，并“跃跃欲试”了。

如果我们仍然在试图理解什么是有效反馈，如何获得反馈以及什么会对学习产生最大影响，那么父母呢？家长可能仍然会认为“评价框里打打钩”是一种认可方式，并以此来评价教师，尽管我们知道它对学习没有任何影响，更糟糕的是，它简直完全是在浪费时间。相反，我们需要大幅度减少每所学校评分的任务量。我希望本章的建议能帮助教师和学校减少打分量，找到更有效的方法来评估学生的进步，并提供对学习有真正影响的反馈。

我们该如何解决这个问题

布置家庭作业会产生影响吗？家庭作业对学习有意义吗？它能否使学生获益更多，并让学生掌握学习技巧和培养责任感？

这些都是关于家庭作业目的的重要问题。一些学校把它作为学校存在的“必需品”，而另一些学校实际上完全淘汰了它，走上了“无作业政策”路线，“不评分”，甚至“不穿校服”！有许多家长说他们希望教师给孩子布置家庭作业，尽管它会给一些家庭（包括我的家庭）带来无尽的悲伤和频繁的争吵。还有很多孩子不希望教师留家庭作业，但终究还是逃不掉！有的孩子不做作业，有的把作业丢了，有的直接在谷歌上找答案，还有的不在家做作业，也有孩子信誓旦旦要认真写作业，但由于花费过多时间而没有得到充足的睡眠。

如果你问一些人，他们会告诉你，家庭作业是一个破坏家庭生活的黑洞；它阻碍学习，也拉大了差距。如果你再问其他人，他们会不经意地回答“好教师布置好作业”，而且家庭作业对学习过程也有很大的影响。判断作业是否有用远非易事，但这在很大程度上取决于你的关注点以及所教的年龄段。

研究表明了什么

没有任何证据表明，家庭作业对小学阶段的孩子有任何学术上的好处。教育领域的领军人物约翰·哈蒂说，在小学阶段，“家庭作业的影响几乎为零”。阿尔菲·科恩在《家庭作业迷思》（The Homework Myth）中表示，学校需要将其默认值设置为“无家庭作业”模式。然而，哈蒂还认为不应该完全取消家庭作业，而应该有侧重点。他说，中学的家庭作业会有更大的影响，主要是因为它给学生另一个机会，来巩固练习他们在课堂上学到的东西。我完全同意。

我很清楚，我们确实需要重新思考家庭作业的布置，尤其是家庭作业的影响，因为在确定家庭作业与学习成绩之间的积极关系时，大多数元分析都未能挖掘出影响结果的重要变量。时至今日，激烈的争论依旧亟待定论，很少有研究涉及作业质量、反馈性和作业量与空闲时间比例关系的问题。如果不对这些条件进行评估，将家庭作业与成绩联系起来的证据仍然无效。

哈蒂认为如果布置作业不是专门为了练习，那它就毫无存在意义。教师必须把已教授过的、学生已掌握的并且在需要时易于想起的内容布置成作业。本质上，任何家庭作业都必须是相关的，而且是高度相关的。尽管哈蒂在2014年也曾说，用5到10分钟练习当天在学校所学内容，和布置需要1到2个小时来完成的家庭作业的效果是一样的，但经合组织2014年的一份关于国际学生评估项目的数据报告，研究了15岁学生的家庭作业，发现社会经济条件较好的学生和就读于社会经济条件较好的学校的学生，常常比其他学生花更多的时间做家庭作业，这可能会使教育不平等现象长期存在。需要注意的是，布置家庭作业可能会增加劣势差距，尤其是在学生更依赖父母的小学时期，但对我来说，家庭作业在学校和孩子成长过程中都占有一席之地，关键在于我们如何利用它并使其成为一种重要的教学工具。

布置有意义的家庭作业

匈牙利裔美国心理学家米哈里·契克森米哈创造了“心流”一词来描述一种快乐的状态。这个词让我想起了一名教师收到的表明一切安好的非正式反馈，包括富有成效的工作氛围，或者学生的简短评论：“哇！麦吉尔先生，这节课这么快就结束了！”契克森米哈的研究得出结论，当幸福或“心流”产生时，会发生五件事：

1. 学习者高度专注于一项活动。

2. 这通常是学习者自发选择的活动。

3. 活动既不是挑战不足（乏味）的，也并非挑战过度（倦怠）的。

4. 活动有明确的目标。

5. 学习者可以收到即时反馈。

契克森米哈总结说，产生“心流”感应的人不仅会感到满足，还会忘记时间，沉浸在学习中。你的学生上一次在你的课堂上沉浸于课堂活动或话题中是什么时候？

我们可以用这个理论来指导如何布置家庭作业。如果我们布置有意义的家庭作业，让学生在有明确目标的情况下做出选择，那么学生更有可能在挑战过度和挑战不足之间做出选择，他们会从漠不关心走向“心流”。他们会沉浸于学习中。我们可以将此与布置不需要评分的作业相结合，比如可以布置自我评估或搭档互评的作业。这可以节省教师的时间以给学生即时的口头反馈。教学背景很关键，因此英国各地正在采用一系列方法，以确保家庭作业符合以下标准：

1. 试着在小学阶段不布置常规作业，而是为家庭定期提供他们“可能”想尝试的想法，比如项目或郊游。这能保证教师评分工作量为零，学生也有更多的学习机会，并且增加亲子活动时间。

2. 在数学、阅读和拼写方面使用简单的在线测试。没有了评分环节，相应会减少收集和核对的压力。确保测试内容是近期所学。

3. 尝试使用Seneca、 HegartyMaths、 ClassCharts、 ShowMyHomework、 CENTURY、 Google Classrooms或Microsoft Teams等软件来布置作业。学生可以通过电子方式提交作业，并在网上收到反馈。

4. 你也可以使用传统的方法：年级小组或部门，整理一份定期任务手册，这样不必每个教师都花时间去寻找合适的方法。手册最好包括可以直接在课堂上检查其正确性的作业，这样教师只需查看结果即可。

5. 最后，小学教师应该考虑重新开展“我的活动护照”（My Activity Passport）活动。英国教育部于2018年12月推出“我的活动护照”活动，旨在“让孩子们有机会尝试新事物，体验周围世界”。“我的活动护照”列出了适合1到6年级学生参加的丰富多彩的活动，从秋季散步到戏剧表演、写日记等。你可以在www.gov.uk/government/publications/my-activity-passport中找到这些内容。

埃利奥特等人在一份受教育捐助基金会（EEF）委托的书面评分证据综述中指出：“我们迫切需要进行更多的研究，以便教师更好地了解最有效的评分方法。”很多教师花了大量的时间去评分，然而有关所提供的反馈类型和产生反馈所花的时间这两者的影响的证据却有限。用复杂的评分方案对测试和考试进行评分，会让你埋头于小细节中，不仅浪费时间，也是有缺陷的。必须有一种比“传统”评分更快、更清晰、更可靠的学生评估方法。如果有一种方法，使我们可以在15秒内进行评估，可靠性为0.91就好了。的确有这样的方法……了解一下比较判断吧！

心理学家路易斯·瑟斯顿在1927年发表了一篇关于比较判断法的论文。他的方法要求评委（或教师）只对质量做出有效的决定，因此“提供了一个彻底的替代方案，使教师不必再通过详细的评分方案来追求可靠性”。近些年，由于教师这个职业当前的宿敌是工作量，比较判断在很大程度上已重新回到了教师的学习对话中。

与形成性评价一样，比较判断法既不广泛，也不根深蒂固。然而，“取消评分”正逐渐获得人们的青睐，并象征着对传统评估方法的“彻底背离”，这可能“在相当深远的意义上解放了教学”。尽管比较判断可能不是最前沿的，但在教师压力空前的时代，它的重新流行和知名度提高是深受人们欢迎的，因为在这个时代，评估毫不费力地歪曲了课程，评估必须是克里斯·惠登所说的“效率和可靠性之间的微妙平衡”。

所以它是什么

如果我们把比较判断简化到最基本的层面，就是从两位学生的作业中选出更好的一个。你可以通过以下几种方式做到这一点：

● 简单、低技术含量的方法是把作业平铺在一张桌子上，像滑动拼图一样移动它们，直到它们以你喜欢的顺序排列。我们通常会看到，当需要对课程作业进行适当展示时，各学科的老师会把作业以这样的方式进行排列。
● 或者，你也可以使用高科技算法，该算法使用多个教师评估来得出排名，并为每个学生提供分数。正如史蒂夫·德雷珀博士所解释的那样，“软件将这些成对的判断组合成一个定量的区间尺度（基于瑟斯顿的‘比较判断法则’） ……最后，如果不仅将其用于排名，而且还用于评估，则需要把这一课程的相关评分标准同样运用于排名中（而不单是多个教师的评估）”。

比较判断，也被称为适应性比较判断（ACJ）或两两比较评价（APR），是“不再评分”运动的一部分，这也是软件专家No More Marking （不再评分）（www.nomoremarking.com）的名称。黛西·赫里斯托祖卢是该软件的教育主管。 No More Marking表示我们应该停止评分并开始对我们的评估进行比较判断：“（比较判断）的基本原则很简单，那就是我们比较不同事物的能力要比我们做出整体判断的能力更强。”

在一项对199所学校的1 600多名教师进行的No More Marking研究中，教师对8 500多名6年级学生的作文作品集进行审阅，结果发现教师在评分上表现出高度一致性；这些判断的信度大于0.84 （满分为1.0）。赫里斯托祖卢指出，使用No More Marking软件进行评估时评分者间的信度可高达0.9。与绝对判断相比，相对比较判断的可靠性很高，因为相对判断涉及更多的评委（教师）。传统评分通常需要一到两个评分者，而比较判断则需要两个以上。你可以参加下颜色测试（Colours Test， www.nomoremarking.com/demo1）来发现更多关于为什么比较判断有效而评分无效的内容。

但是需要注意的是，蒂内·万·达尔等人曾说：“在设置（比较判断）评估和开发表示成对分布的算法时，应考虑评判员在鉴别能力方面的差异。”尽管如此，新技术依然能够改变我们对评估的看法，正如塔里科内和纽豪斯所说，“在线技术提供的比较判断是一种可行的、有效的、高度可靠的方法，可以替代传统的分析评分”。

它在实践中是什么样子的

比较判断首次应用于对学生的直接评估是在2005年的一个由伦敦大学金史密斯学院技术研究教育部的理查德·金贝尔教授领导的名为e-scape的项目中。

剑桥大学的阿拉斯泰尔·波利特以他与金贝尔教授在电子档案评估方面的研究为例，说明通过数字评估和比较判断法可以获得高信度系数。波利特认为，在金贝尔的研究中， 28名评委评估了352个电子档案，产生有3 067个判断结果，得出了0.96的高信度系数，比任何分析评分系统都要高。我是评委之一。当时，我是伦敦北部亚历山德拉公园学校数据处理技术（DT）和信息与通讯技术（ICT）的负责人，这所学校是世界上在这两方面表现最好的学校（根据2015年PISA排名）。

金史密斯学院的研究人员担心，目前的数字评估并不完善，因此他们希望能够探索出利用电子档案来获取学生作业的方式，并将其与更公平、更一致的评估方法结合起来。

他们设计了一种方法，使学生能够在个人数字助理（PDA）上起草最初的设计想法，记录设计进度，为他们完成的作品拍摄照片，然后将其上传到一个中心网站上，由版主进行评估。在该项目的第一阶段中，在教育和技能部（当时是该部门）以及资格与课程管理局（QCA）的资助下，金史密斯教授为这一方法开发了概念验证（POC）机制。

每位评审员在屏幕上看到两个示例项目组合，并判断哪一个更好。选定一个项目，然后软件随机选择另一个进行比较。最终，评审员将这些项目从上到下进行排序，而在这个国家其他地方的另一个人会看到同样的样本，同样是完全随机的。

一旦所有评估人员都对项目进行了排序，就会出现项目的整体排序。在试验中，每个电子档案至少由7个不同的评委审阅17次，结果非常可靠。金史密斯团队在预测比较判断可以扩展到其他学科方面“领先于时代”，因为自那时起比较评估开始得到了广泛的传播。正如丹·桑德胡所言：

“比较判断通过在全球范围内的颁奖机构和机构中的使用展示了其巨大的潜力。到目前为止，澳大利亚、瑞典、新加坡和美国均进行了比较判断的试验，评估信度均得到了显著提高。这个过程意味着英国普通中等教育证书考试和A-level测试的申请复核人数可能会大幅减少。”

比较判断还可以用来评估能力，如数学理解、地理、设计技术和写作。

对于学校而言，年级组和部门可以通过审阅和抽样来核对传统意义上的工作。只要它有章可循，并及时建立培训、对话和评估，那么对任何一所学校而言，它都是一个可以使用的很好的习惯性过程。然而，这种方法很耗时，而且随着技术的发展，有很多你自己就能应付得来的方法。 Google Classroom和Microsoft Teams让教师能够在线评估学生作业，并与同事共享资料，以便进行比较判断。至于更精细的评估和比较的方法，不再评分（No More Marking）和世纪科技（CENTURY）是大有裨益的替代选择。那么，为什么不看看哪种选择对你和你的同事有用，以节省时间并确保评估更准确呢？

评估有多种形式。它不仅仅是将数据输入电子表格。评估是指教师对学生概况进行整体把握。这对每周教300多名学生的中学教师以及教30名学生不同科目的小学教师来说都绝非易事。在我的走访中，我曾与一位英国教师一起工作，她所教班级的学生人数甚至高达44人——这可真不容易！

了解你的学生

格雷厄姆·纳托尔《学习者的隐秘生活》一书于其去世后出版，该书涵盖了他40年来对于学习和教学的研究，以一线教师和人们脑海中的教师为对象撰写。在20世纪60年代，纳托尔说服了一群经验丰富的教师，允许他将录音机带到他们上课的教室，并把麦克风挂在灯具的线绳上。纳托尔在他的整个职业生涯中持续录制课程长达40年。他发现，教学是一种文化仪式；并且研究结果的相关详尽数据表明，教师们对教室里发生的事情知之甚少。纳托尔发现，即使是对学生行为进行连续书面记录的现场听课者，也会漏掉学生个人麦克风上高达40%的记录信息。他开始意识到，在教室里，学生们其实是生活在自己的个人和社交世界中的。他们窃窃私语、互相传递小纸条；他们散布有关同伴关系的谣言；他们组织课后社交生活并继续从操场上开始的争吵；他们更关心同龄人如何评价他们的行为，而不是教师。

纳托尔不仅使用精心设计的书面测试，而且还对学生进行了广泛的个人访谈，以更深入地探究他们的学习经历、知识面和理解力。尽管考试表面上很客观，但它和面试一样，也没有多少客观之处。只是在测试者和学生之间有一种不同的关系。

纳托尔发现，即使是在非常传统的课堂上，每个学生的重要学习经历中，有很大一部分，要么是自我选择的，要么是自我产生的。能力越强的学生对相关内容的讨论越多。他们提出更多问题，对问题讨论的时间也会更长。不同之处在于他们参与课堂活动的方式。那些有相关文化知识和技能背景的学生能够将课堂和课堂活动为己所用，与那些对教师唯命是从，但不希望或不知道如何为自己创造机会的学生相比，这些学生学到的东西更多。智力的差异更可能是课堂经历差异的产物，而不是反过来。

在20世纪80年代末，纳托尔还采访了其他教师，以了解他们如何判断自己的教学进展顺利。几乎所有教师都是从学生参与课堂的表现中知道他们教学进展良好的，比如学生们的眼神、提问的问题，以及他们离开教室时不停地讨论的话题或问题。简言之，就是感受到了或听到了学生对内容感兴趣，以及学生因专注而产生的忙碌。

在大多数教师的心目中，成功学习的标准与成功管理的标准是一致的。这一点显而易见，因为教师们不跟学生谈论学习或思考。他们谈论要集中注意力不要打扰别人。纳托尔从研究教学转向研究学习，他说：“如果我们要理解教与学的关系，那么必须从最接近学习的地方开始，那就是学生的体验。”

教师遵循只与学生的学习间接相关的可预测的模式。这是因为教师在很大程度上不能完全掌握有关学生学习情况的信息。鉴于纳托尔的发现4，我很清楚教师需要对学生的学习情况拥有准确的总体把握。我们必须找到一种方法，来不断评估所有学生的学习进度，以及最好地帮助他们进入下一阶段。在一个25到35人的班级里，每个学生都有不同的知识、技能、兴趣和动机，最有效的方法是全班评价，比如提问和班会。

提问

评估学生的一个简单而有效的方法是通过提问来检查他们的学习情况。正如迪伦·威廉教授所说的那样，传统方法是：“开始—回应—评估”（I-R-E）。当然，教师只是简单地对学生讲话就会产生影响，但他们做了什么以及如何去做也同样会产生影响。威廉对“开始—回应—评估”（I-R-E）方法提出了批评，称其“没有提供足够的信息，让大多数学生在课堂上明白需要去学习什么内容”。为了让提问更有效，我主张首先采取“不举手”的方式，随机挑选学生回答问题，而不是要求他们自愿回答以检查理解情况。另一种方法是让所有学生通过电子投票系统、迷你白板或简单的举手方式立即回答问题。这两种方式都将有助于实时评估学生所学知识，并帮助教师决定课程下一步的方向。

班会

另一种更好地了解学生学习情况的方法是，把有效的班会作为全班评估的一种形式。很多教师在被听课时常常在课堂接近尾声时安排班会。这绝不应该是“打钩”一样的例行公事，也不该只为迎合听课者的喜好，而应当融入课堂中并能够真正巩固所学。

2003年，英国教育标准局表示：

● 班会往往是课堂最薄弱的环节。
● 留给班会的时候往往不够充裕。
● 班会通常是课程中最不活跃的部分。

菲尔·比德尔在《完美结束一堂课的35个好创意》（The Book of Plenary）中指出，在考虑班会时要谨记三件重要的事情：

1. 必须计划好班会。

2. 必须给班会留出充足的时间。

3. 必须让学生参与其中。

所以，不要再对学生说“告诉我你从中学到了什么”，以一个对你和学生都更有意义的任务取而代之。

有效班会

有效的班会有以下五个关键特征：

1. 班会应该能使教师立刻评估全班学生的理解力。这应该是它的主要目的。

2. 应在适当的时候举办班会以总结学习情况，而且不一定非安排在学期末。小型班会可以在课程过渡阶段作为进行评估的一种有效形式，但要确保学生学到新知或得到巩固是小型班会的核心，而不仅仅只是一次打钩操作。

3. 班会应因班级所需而有所不同。这很麻烦！允许学生参加班会至关重要，但同时也需要一些挑战以便于你评估他们不知道的东西。

4. 有效班会应该暴露学生的错误观念；一旦确定有错误观念，就需要当场解决或在随后的课程中得到解决。

5. 班会应该给学生提供机会，让他们反思自己学到了什么、怎么学的，并引导他们走向成功。

以下是一些我认为实用的班会策略实例，以及这样做的原因。

1. RAG123

这是凯文·里斯特提供的一个有用的自我评估工具。学生从1到3评估他们对内容的理解程度（3代表“不理解”，而1代表“理解得最透彻”）。然后，他们用红色、琥珀色和绿色的颜色编码来反思自己的行为（红色表示“学习分心”，而绿色表示“学习态度积极”）。这是一个很有用的练习，可以让学生在课程或话题结束时进行反思，也可以让教师从他们的RAG123分数中看出全班学生的自信程度。小心过犹不及，但是作为一名教师，你也有机会给你的班级评分，并为班会设定任务，推动他们进入下一学习阶段。

2. 课堂反馈条

课堂反馈条、表情反馈、网络反馈：这种类型的班会已经在很多方面进行了调整。从本质上来讲，这是学生向教师反馈所学知识的一种方式。教室应用程序Socrative上的反馈功能很受欢迎；它节省纸张并且很容易看到反馈。设置只需几秒钟，并且学生总是会被问到一系列相同的问题：

● 你对今天的材料了解多少？
● 你在今天的课上学到了什么？
● 请回答教师的问题。

教师的问题是一个重要的评估机会，用以评估学生是否可以运用自己所学知识——记得让问题有区分度，以查看是否所有学生都可以将知识应用到新情况中。

3. 击掌

学生们在一张废纸上或书上画出他们的手，并在每个手指上写下以下文字：

● 竖起大拇指：你学到了什么？你了解什么？
● 食指：你今天使用了什么技能？
● 中指：你觉得今天哪些技能比较难？
● 无名指：你如何投入到今天的学习中？你今天帮助了谁？
● 小拇指允诺：你会保证从今天的课程中记住什么？

这是一种构建学生反思时间的方法。它允许程度最差者庆祝他们的成就，并鼓励最优者思考下一步的学习。你还可以将手用作规划工具，查看手部的关键部位，以查看下一节课需要重点关注的内容。

4. 关键词bingo游戏

关键词bingo游戏是班会的一个经典想法，如果使用得当，它会是很好的巩固和评估工具。认真设计线索并提问班上学生，可以帮助你评估他们对学习内容的理解程度，可以让你巩固整个话题中的关键词，以评估他们记住了多少之前学习的内容。

5. 小测验

玩“谁想成为百万富翁？”或“震撼大片”可以真正吸引学生并评估他们所学内容。菲尔·比德尔建议在课堂上使用复杂的测验来获得最大的效果。让学生自己制作测验卡片可以让他们巩固更深层次的知识，也可以让你更有效地评估他们对知识的理解。告诉他们需要制作难度逐渐增加的卡片，以区分任务，然后用它们来测试其他同学。

书面评分通常是为外来听课者提供的。多年来，这个问题一直影响着教师的工作量和心理健康。我认为口头反馈应该是所有学校的默认方法，因为它提供即时、有针对性的反馈来帮助学生学习，而不是在几周后——这时学生早已忘记了作业或已经学习了新内容。

2017年9月，我启动了一项有关口头反馈的研究项目，该项目有可能覆盖到99 500名学生；全球6个国家的119所学校报名参加。值得庆幸的是，伦敦大学学院教育学院领导力研究中心已经开始了该项研究，以提高教师口头反馈能力，并尝试回答“在七年级或八年级，口头反馈能在多大程度上改善弱势学生的参与度？”截至2019年7月，早期研究发现鼓舞人心。一名教师报告，口头反馈使她能够花更多的时间在课程计划上；而其他人则注意到他们与学生关系的变化，因为他们有更多的时间进行一对一的对话。

然而，在仍然期望教师保留口头反馈的书面记录的学校中，这些效果并不明显。教师向学生口头反馈他们应如何改进作业，然后让学生在练习本上记下教师的要求，这仍然很常见！目的是什么？用来展示证据和进展；用来表明教师给学生的反馈是有意义的，学生正在根据这些反馈采取行动。例如，麦吉尔先生对你的工作进行详细审查，或突然出现在你的教室里听课，并希望看到学生按照教师的指示行事的确凿证据时，这基本上就是证据。由于反馈卡片和贴纸的使用，这块蛋糕已经完全烤焦了。虽然这有助于减少教师们需要反复提供的书面陈述（因为贴纸可以让学生记录他们需要做什么），但有必要自问，学生是在为自己记备忘录，还是在为听课者记录。

学生希望从口头反馈中得到什么

考虑学生对口头反馈的看法也很重要。凯蒂·克尔对此进行了研究。她的发现表明，“学生将口头反馈视为焦点对话的一种形式，它不同于正常的课堂对话，可以通过诸如个人目标和任务目标等信号来识别”。克尔还发现，学生们希望通过与教师的对话获得清晰的答案，并认为情绪、氛围和期望会影响他们对反馈过程的体验。

鉴于此，给所有教师的一个最重要的建议是，创造一种能够提供快速、有意义的反馈的方法，并让学生知道这是为他们量身定制的，让他们感到自己很特别。我多年来使用的方法是，在教室的一个区域布置一个“反馈区”，学生可以在那里向我询问有关其作业的反馈。在准备结束与这个学生的谈话之前，坚决不要让别的学生打断你们的谈话。当你再抬头看时，三四个学生正安静而礼貌地排队等着问你问题，这就是它起作用的迹象。

实时评分

彼得伯勒的一所小学已经取消了评分，并引入了一种称为“会议”的口头反馈方法。教师每两周与每个学生至少进行一次一对一的“会谈”，以开放和坦诚的方式讨论他们的作业，并一起修改作业。这种形式的口头反馈减少了教师的工作量，使教师有更多的时间来进行课程规划。一名学生说：“这更轻松，因为我不喜欢用红笔批改的作业。”教师们发现，口头反馈能鼓励学生以更批判性的方式思考作业。这是个好主意！

我的理解是，这个过程就是实时评分：教师在课堂上挑选一小群学生见面，并为他们提供某种形式的针对性评估。这个来自小学的概念之所以如此特别，是因为该小学校长决定，她的教师在进行评估时，不应该带任何练习本回家。这绝对是好事一桩。你的学校不要尝试一下吗？

2018年，英国教育部公布了从2020年秋季起，英国所有小学生（最早4岁）在小学开学前将参加新的摸底考试（又叫基线评估），该考试将用于衡量学生在小学所取得的进步。

评估和考试？是的。会增加教师和学校的工作量吗？在短期内，可能会。更重要的是，这将对学生的学习和心理健康产生怎样的影响？它将如何告知家长他们孩子的进步情况？

世界上没有任何测试能够成功地预测一个4岁大的孩子11年后的结果。相反，我认为更好的方法是使用低风险、形成性的方法定期对学生进行评估，以便我们能够不断适应学习过程，确保学生得到最大的支持，帮助他们取得进步。在不影响学生心理健康或教师工作量的情况下，有一种方法可以定期对学生进行评估，只需轻点鼠标就能提供实时、准确的信息，并可嵌入日常的课堂实践：它就是人工智能。

什么是人工智能

人工智能是计算机系统的发展，可以在策略和推理的基础上，执行人类通常使用算法和数据完成的任务。对一些人来说，开发一种能像人类一样思考和行动的机器可能听起来很可怕，但正如全球教师奖提名者、《第四次工业革命中的系统与教学变革》（Flip the System and Teaching in the Fourth Industrial Revolution）的作者耶尔默·埃弗斯所写，人工智能的真相似乎更加微妙：

“（人工智能）确实会对我们的教学、生活、工作和学习产生重大影响，但这不会是世界末日。因此，它将从学生的角度——作为学习者——以及从教师的角度——作为专业人员——对教育产生影响。”

人工智能在课堂上用处有多大

在评估学生和个性化学习方面，人工智能可能是一种非常有用的工具，有很多公司使用这种技术为教室开发应用程序和软件。世纪科技（CENTURY）就是这样一家公司。它的人工智能平台为教师们提供了对学生学习的详细见解，使他们能够做出明智决策，从而在课堂上产生最大影响，同时减少在评分、数据录入和报告上花费的时间。

该平台提供了一个有趣的多媒体学习资料库，这些资料由教师搜集，并与国家课程相对应；学生可以学习多媒体内容和考试入门课程。教师也可以轻松地创建自己的课程和评估。学生可以访问学习内容，而人工智能则为学习者提供了一个适应性的、个性化的学习过程，并提供连续的形成性评估和反馈。

世纪科技收集每个学生的成就、技能和知识的有关数据。这些洞察通过实时指示盘反馈给教师，使他们能够基于证据对学生实施干预措施。最机智的部分是人工智能，它为学生创造了个性化的学习体验。在后台，“机器学习”（人工智能的一个分支）根据算法数据确定下一个要学习的最佳主题，对屏幕上学生的细微行为进行分析。学生还会收到基于个人努力和成就的个性化信息，这一功能基于认知神经科学。人工智能为减少教师工作量提供了绝佳的解决方案，也为学生提供了获得即时反馈和个性化学习的途径。

作为一名教师， 25年来，我一直努力让每个班的30名学生都能享受到这种个性化的教学方式，通过了解知识和技能、优势和需要改进的领域，这些数据为教师提供了可靠的证据基础，以跟踪学生的努力和动机。还有什么更好的方法可以根据需要促进有针对性的干预？

学校案例分析

学校名称：雷顿小学

位置：布莱克浦，兰开夏郡

背景：雷顿小学位于布莱克浦市市中心，离著名的爱尔兰海沿岸区和158米高的布莱克浦塔有一段距离。附近还有其他五所当地学校，雷顿小学是一所混合型、无教派的公立小学，主要招收4到11岁的学生。这是一所每年级3个班的学校，目前有604名学生在册，其中绝大多数是英国白人。贫困学生比例高于全国平均水平；50%的孩子都需要教育补助。

在全盛时期，布莱克浦因20世纪初至50年代的旅游业而闻名，但自2001年以来，布莱克浦的当地人口一直在下降。现在，这个小镇的抗抑郁药物处方率在英国排名第四，教育部发现它是英国最贫困的海滨小镇。尽管在布莱克浦生活和教学存在挑战，但它仍然是英国最受欢迎的海滨度假胜地之一，而其西北地区仍然是深受教师欢迎的地区。

为什么这个领域是你们学校的强项

学习评估，或响应式教学，是教学内容和教学方式的基石。评估以实时、每日的形式对教师的提问和决策产生影响，以便教师在教学时对课程进行调整，通过前前后后、层层理解，解构并重建概念，以让孩子们对所学的概念有更深刻的理解。

通过观察教师对学生日常的反应，我们可以了解教师在这方面的能力有多强。教师通过对话式教学，引导学生探索自己的理解，并了解彼此的理解，能够运用口头和书面解释展现自己对学习原则的深刻理解。任务的焦点是学习而不是完成任务，孩子们必须表现出已经理解，并开始探索纠正这些错误的方法。

应将错误当作学习机会，孩子们在克服障碍中已经开始进行自我批评和反思以促进更好的理解。教师们应认识到这一点，并探索如何将其融入到为孩子们提供的机会中。

你们学校是如何做到的

在全体员工中培养理解力是确保教师理解学习方式和学习内容的关键。如果你问学校的教职工学习到底是什么，很可能每位教师都会给出不同的答案；教师们常常忙于设计课程以及思考要做什么，往往没有时间去关注为什么要做。

我们的重点一直是学习，其次是了解如何使孩子们学得最好，以及我们作为教师如何在整个课程中通过课堂输入做出反应，以促进理解。为了做到这一点，我们最初专注于如何提出正确的问题，以便理解孩子们在哪些方面存在误解，以及误解存在于学习理念建构中的哪些地方。这在我们学校取得了很大的发展。几年来，以计划为导向的课程工作导致教师们把重点放在授课上，而不是培养嵌入式深度学习的技巧。

表面的理解和信息范围被优先考虑，调整实践以适应学习者的需求却不被重视，完成作业更是优先于培养理解能力。建立对响应式教学的深刻理解花费了三年多的时间；可学校仍然过于注重完成任务和改进工作，而不注重学生。于是，我们进一步把注意力转移到独立性上——如果孩子们能够提出自己的问题，并培养识别自己和他人的误解的能力，用口头和书面的方式来证明概念，并解释和扩展想法和概念，那会怎么样？

为此，我们开发了对话教学法。由于教师可以在课堂上采用多种方法，为确保成功，我们专注于培养教师的决策能力，该决策能力基于课堂上任何特定时间学习的证据和分析。为了实现这一目标，教师们需要在低风险、不断发展完善的文化中进行合作。团队教学在我们学校很常见，他们作为团队一起规划，有一名高层领导参与其中；有一个开放性政策。全体教职工，包括学校领导和校长，都参与教学，并邀请他人参与观察、提供反馈。教学是一个不断学习的过程——无人例外；我们每个人每天都在犯错。这种协作方式培养出的是在瞬间成功做出反应的教师，而不是在课后、评估后或一周后才做出反应。

其他教师和学校领导如何将此应用于他们自己的实践和学校环境

大多数教师，包括我自己，都是从作为一位新入行的合格教师（NQT）开始进行课程规划的，并下定决心要开发一系列的课程，以在30名学生中建立对概念的理解。工作计划、出版资源和国家战略都是根据这一教学理念拟订的；课程内容的信息的覆盖范围将影响理解——只要我们能以正确的方式涵盖正确的事情，孩子们就会形成良好的理解力。所有计划都侧重于教师应该教什么，从而让教师成为授课的主人。在这样做的过程中，我们发现教师变得不熟练，并在理解和处理学习问题方面缺乏信心。国家战略于1997年和1998年相继出台，这意味着这种课程开发方法已经提倡了大约20年。

我们发现，通过专注于发展对学习的理解、评估学习和对话式教学，提高对教师为何应采用不同方法的理解，培养教师发现孩子们的误解以及解决该问题的能力，教学课程变得不言而喻。教师知道孩子能做什么，不能做什么；反过来，孩子们知道哪些概念是稳固可靠的，哪些是需要担忧的。这样一来，课程本身就显现出来了。教师不需要计划，因为任何工作计划都不能解决他们自己和班级内部所发现的问题——他们自身理解的差距。

结果一直很好。孩子们成绩非常好；学生群体之间没有明显的差距，而且已经六年没有差距了。结果并不取决于教师；在过去的六年中，六年级和二年级都没有相同的教师。受补助学生的成绩通常与没有免费校餐的学生一样好，甚至更好，而且所有学生的“附加值”都很高。

学校文化对提高和保持这样的高教学水平至关重要。随着时间的推移，观察成了学习走访，任何评价都成了发展的指导课程。与教师一起规划课程发展成团队教学、团队评估和一种我们互相观察和批评的文化。视频短片被拿来共享，关于学习的对话不仅在教师中，而且在学生中都变得司空见惯。盖伊·克拉克斯顿提出的成功学习者的两个关键特征：适应能力和反思能力，不需要分别给予关注；这是孩子们学习方式的关键部分。

为什么这会起作用

——普利亚·拉克哈尼，大英帝国官佐勋章获得者

通过在世纪科技（CENTURY）工作，我有幸遇到了数千名勤奋工作的教师，他们所有人都怀着真诚的热情去改变世界，以求更好。然而，这种想做好事的愿望却受到了工作量危机的阻碍，这个危机使得教师队伍在以惊人的速度减少。造成这一危机的最大因素之一是，世界各地的学校普遍采用的传统评分和评估方法。罗斯将这些领域确定为积极改革的最紧迫目标，这样做是正确的，如果这些问题得到解决，最终将充分发挥优秀教育工作者的才能。

某种形式的进步衡量是可取的，很少有人会不赞同这种观点，但很大程度上出于外部压力，太多学校一年里很少进行数据分析。这不是世界上任何高效行业对待数据的方式；数据分析应该是持续的幕后过程。以这种方式分析数据，可以使教师更精准地实施有针对性的干预措施，因为他们可以用更准确的数据做出决策。

现在，技术可以为教师提供每个学生的详细情况，使他们能够根据学生的个人需求进行及时、有针对性的干预。在世纪科技我们一直与教师合作开发技术，通过该技术，教师可以详细了解每个学生的表现和进步，而部门主管和高层领导可以对每个班级和科目进行比较，从而提供一个更广泛的学校成绩数据导向视图。任何人都不必再填写另一个Excel电子表格——这些表格全部是自动收集和分析数据的，并直接提供给教师，赋予他们作为教育者的权力。

当与神经科学和学习科学观点相结合时，人工智能是解决评估困境的关键。人工智能可以跟踪每个学生对学习材料的反应——不仅可以跟踪他们是对还是错，还可以跟踪他们的每一次互动或动作，包括他们是否在猜测、分神或犹豫。随着系统自行学习，基于人工智能的评估可以比传统评估考虑更多的变量，从而考虑到每个学生的个体差异。我们知道，掌握正确的数据可以对结果产生重大影响——与人工智能结合使用，可以完全改善教育水平。如果医生和工程师使用成熟的技术改善他们的工作表现是可接受的，那么教师又何乐而不为呢？

普利亚·拉克哈尼是世纪科技的创始人兼首席执行官。世纪科技是一家屡获殊荣的面向中小学校和大学的人工智能教学平台。

1　PISA：Program for International Student Assessment，国际学生评估项目。——编者注

2　PIRLS：Progress in International Reading Literacy Study，国际阅读素养进展研究项目。——编者注

3　从阶段来说，英国的义务教育体系分为四个关键阶段（key stage），关键阶段1 （key stage 1）为1-2年级（5-7岁），幼儿学校；关键阶段2为3-6年级（7-11岁），小学；关键阶段3为7-9年级（11-14岁）；关键阶段4为10-11年级（14-16岁）。其中，关键阶段3和4为中学第一阶段。一旦学生完成义务教育，可以选择进一步接受教育，即所谓的中学第二阶段“第六学级”。——编者注

4　教师对教室里发生的事情知之甚少。教师从学生的课堂表现来判断自己的教学进展如何。能力越强的学生对学习内容的讨论越多，也因此越活跃。教师判断教学效果的证据多来自这一部分学生。——编者注

第一章 评分与评估

第一章　评分与评估