当代美国考试机构在想什么、做什么？_研究真实世界的教育-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

当代美国考试机构在想什么、做什么？[11]

今年7月至9月，我应邀前往美国，在全球最重要的三大教育考试机构——美国大学理事会（College Board）、美国教育考试服务中心（Educational Testing Service, ETS）和美国大学入学考试委员会（American College Test, ACT）——进行为期两个月的研究工作，详细了解当代美国考试机构的运行和发展情况。这是我关于考试招生制度改革整体研究计划的一个组成部分。两年前，我在美国访学研修期间，原本要同时开展招生与考试两大领域的研究，但限于时间精力，只能把重点放在顶尖大学招生录取制度上。不过，在内心深处，我一直惦记着一位领导同志的叮嘱：关注美国考试领域的发展情况。考试与招生，是一枚硬币的两面，二者相辅相成，缺一不可。如果不能深入了解美国的考试评价，就不可能对与之紧密联系的招生录取制度有深刻的理解。

中国是最早通过考试选拔人才的国家，科举制的历史绵延上千年之久，至今仍然在制度设计、社会心理等方面对当代考试招生体系产生种种或微妙或深远的影响。然而，历史留给我们的更多的是在防范作弊技术上的积累——从“糊名制”到“八股文”，这种技术已经达到了相当精致的境界。就科学评价人才而言，我们和世界上最顶尖的水平相比，还有相当大的差距，主要表现在：命题方式原始粗糙——仍然采用一千多年前的“入闱”方式，缺少专业化的命题人员；命题质量的科学性和稳定性不够——缺乏长期的数据分析支持，无法实现等值；考试结果的有效性差——导致对选拔结果的信心不足，心里没底。在这些方面，美国三大教育考试机构于20世纪60年代以后基于现代心理学和IT技术的飞速进步，已经发展出相当完备的科学体系。

访学期间，我最关心的问题是：在最前沿的领域，美国当代考试机构正在想什么、做什么？

当代美国社会对本科教育和招生提出了新的需求

进入21世纪以来，美国社会和美国教育发生了相当大的变化；和20世纪60年代相比，有许多甚至是带有根本性的变化。变化的直接推动力来源于对创新和技术的不懈追求。在政府和民间机构的支持下，市场竞争迫使企业不得不在技术上不断推陈出新——如果不能在技术上持续保持领先，就会被市场迅速淘汰。由此产生了两方面的结果：一是对创新型人才的需求日益旺盛；二是对大学毕业生的质量越来越不满意，包括那些最顶尖大学的毕业生。

劳动力市场格局的变化对大学形成了相当大的压力。不断有人质疑：大学的学费越来越贵，上大学的成本越来越高，可就业难度越来越大，美国高等教育到底在干什么？对于顶尖私立大学而言——它们同样处在市场竞争当中，如果不能对劳动力市场的需求变化做出及时反应并进行相应的调整，它们将很快被市场和社会淘汰。于是，大学问企业：你们需要我们怎么做？企业回答：你们需要提高学生的创造力和合作能力。因为在一个技术飞速变化的时代，专业性知识很快就会过时，企业需要员工能够积极面对新的市场需求，不断提出新的想法，并开发出新的技术。这对员工的创造力提出了更高的要求。同时，在技术进步越来越复杂的今天，开发新的技术需要不同背景的员工之间进行合作，没有人能够单打独斗，包打天下。这对员工的合作能力提出了更高的要求。

面对企业的需求变化，大学开始对本科教育教学进行根本性的改造，主要着力点是进一步降低专业性的知识讲授，更加强调建立在讨论研究性学习基础上的通识教育，为学生提供更富于变化、适应性和面向未来的教育。例如，斯坦福大学刚刚实行的“开环大学计划”（Open Loop University），对学制、教学形式和教学内容进行了根本性的变革；杜克大学推出了“Bass连接”（Bass Connections）项目和“杜克沉浸学习”（Duke Immerse）项目，根据学生的兴趣重新组合师资和教学资源，编制以学生为中心的专业设置和教学计划，将不同专业背景的本科生、研究生和教授组合成一个团队，共同应用知识、研究和技能来开展学习与研究，力求为学生提供更为多样化的跨学科教育，等等。所有这些革命性的变化，其实目的只有一个，就是不断激发学生的想象力和创造力，鼓励他们充分利用学校的教育资源，研究他们感兴趣的真实世界的问题，从而提高他们的创造力和合作能力，迎接未来的挑战。

本科教学的革命，直接对人才选拔提出了新的要求：在大学招生过程中，必须尽最大努力去寻找更富于创造力和合作能力的学生。不是说以往的招生不重视创造力和合作能力，而是说，在新的时代，要把具备这些能力的学生更为精准地筛选出来。这就需要开发出新的更加科学的考试招生技术。

当代美国教育考试机构的最新发展

在美国一百多年的招生考试发展历程中，一般认为，学生的学术能力、批判性思维、基础知识等方面的考察，可以通过客观的标准化考试来实现；但对于领导力、创造力和团队合作能力等方面，无法通过客观的量化标准考察，只能依赖于主观的定性评价。顶尖大学招生之所以采用“整体性评价”模式，高度依赖面试，皆源于此。尽管这套招生录取体制在实践中运行良好，但实际上大学对此并不满意。因为主观性评价看起来总是不够科学、不够严谨、不够精确。对“非智力因素”的考察是否不可能实现量化？有没有可能让主观性评价也能够像实验室里的数据一样科学和精准呢？这个富有挑战性的问题吸引了学术界和考试机构一大批雄心勃勃的学者，他们企图将主观性评价进行量化。然而，这个过程进展得非常缓慢。

最近十多年来，借助于心理学基础理论和在线技术的飞速发展，对学生创造力和合作能力进行科学评测的研究取得了一些突破性进展，这集中体现在美国三大教育考试机构对新一代测评技术的开发上。

一个是美国大学理事会开展的大学先修课程“顶点”计划（AP Capstone）。这是一项创新文凭计划，包含研讨班（AP Seminar）和研究课程（AP Research）两个项目。两大课程涵盖了文化与社会、艺术与哲学、政治与历史、环境、科学、经济、伦理及未来主义等多个跨学科领域，从问题与探索（Q）、论据理解与分析（U）、评价多个观点（E）、想法的综合（S）以及团队、转换和传播（T）五大维度出发，通过为学生提供在探索其感兴趣的相关课题时实践其经过训练的学术研究能力的机会，鼓励他们从多个角度研究真实生活中的问题，从多种资源收集并分析信息以提出可信且有效的论点，培养他们提出、交流以论据为基础的论点的能力以及为论点进行辩护的能力，从而向学生提供日益受到大学重视的创新性跨学科研究、团队合作及沟通技能。这两大课程的重要特点都是在教学中强调团队学习和研究、学生的讨论和参与以及对未知问题的探索性学习。问题的关键不在于教学方法的改变——这种改变美国教育界已经开展多年了，而是在于，这样一类课程，原来的认识是不可能对其进行大规模考试的。但在新的技术条件下，大规模考试完全可以实现。这是一个带有颠覆性的变化。

大学先修课程原本就是为了激发学生的创造力，挑战他们的潜能，但在培养学生的合作能力上还停留在传统阶段。如果能够在大学先修课程中增加对学生合作能力的培养和考察，进一步强化对学生创造力的培养和考察，将使其如虎添翼，更好地满足顶尖大学的招生需求。

另一个是ACT的创新业务。基于同样的需求，ACT成立了专业化的创新研究部，通过新一代测评理论和在线技术研究前瞻性问题。通过开展应用型研究，设计和开发创新的命题方法、题型、命题程序、评分技术、测评数据分析、信息反馈和考试平台技术。目前，创新研究部开展的主要项目之一是针对学生创造力和合作能力的量化测评。该项目已经开展了五年多，其心理学基础理论工作已经全部完成，正在设计操作层面的模型和技术，预计五年后可以投入市场使用。此外，ACT近期还发布了关于学生核心学术能力、跨学科知识运用能力、创造力、批判性思维、合作能力、信息技术能力、行为素质、生涯规划和导航能力的综合研究报告，将作为新的出题模式和题型设计的理论基础，开发新一代学生综合素质评价考试。

作为一个专注于招生考试领域的研究人员，当我了解到这些信息时，内心受到的冲击和震撼无以言表。就好像一百多年前当我们还在乘坐马车和小舢板的时候，突然看见了火车和轮船一样。今天，当中国大学招生仍然在用一个个冷冰冰的分数来迫使学生不得不进行大规模重复性训练的时候，美国顶尖大学和招生机构已经在系统性地开发新的技术来评价学生的创造力和合作能力；当中国社会还在纠结于不以单一的看得见的分数而代之以综合素质评价来录取学生是否会引发不公正的时候，美国顶尖大学和招生机构已经不再满足于主观的整体性评价，而追求更加科学和精准的综合素质量化评测技术。是的，你可以说这是基于中美国情的不同；但当两种不同测评技术选拔出来的学生表现出不同的创新能力，取得不同的创造性成果的时候，任何解释都是苍白无力的。两军对垒硬碰硬，胜就是胜，败就是败，没有第三种结果。

中美人才选拔制度的区别：科学性

中美人才选拔制度最重要的区别在于科学性。科学性来源于精确和证据。长期以来，我们习惯了模糊性思维，跟着感觉走，差不多就行了。比如，中国菜谱里常说，加盐少许。少许是多少？是1克还是10克？美国人完全理解不了少许的含义，你一定要告诉他（她）具体的数量，甚至精确到毫克；再比如，如果要消灭一个山头上的敌人，我们采取的办法是万炮齐发，把山头削平。但敌人到底有没有被消灭了呢？并不确定。也许他们被消灭了，但也有可能他们躲在地堡里。美国人的办法是精确制导，一颗导弹深入地下，打爆你的头，确保你的肉体被消灭。类似的例证还有经济学研究的发展。古典经济学强调定性的逻辑分析，例如，早期的“基数效用论”和“序数效用论”。这些理论能不能解释人们的行为呢？在一定程度上是可以的，但不够精确。你可以说一个人从吃两个馒头中得到的满足大于吃一个馒头，但这个大于的程度到底是多少呢？说不清楚。西方经济学家不满足于这一点，于是将数学引入经济学的分析，通过复杂的数学模型对经济现象进行解释，使得对社会问题的研究可以像实验室里一样精确。这就是“模糊”和“精确”的区别：不是说模糊的方式就一定选不出“正确的人”，但精确的方式一定可以选出“正确的人”。

科学性的另一个来源是证据。证据的好处是可以用证据去推翻证据。比如，关于阿尔茨海默病（俗称“老年痴呆症”）的研究。现代医学已经证明，消化系统和神经系统是有联系的。因此，如果菌群在消化系统产生作用，则可以有效防止阿尔茨海默病的发生。这个理论解释了为什么中国的老年人得阿尔茨海默病的比例比较低。因为中国的老年人喜欢吃酱豆腐、腌菜等。这是我们上千年养成的习惯，但我们不知道为什么。我们更不清楚，吃酱豆腐和腌菜与防治阿尔茨海默病之间的关系。美国科学家则用证据揭示了这个关系。这就是感觉和证据的区别：感觉可以被推翻，但证据很难被推翻。

事实上，这就是美国科学家推动学术研究进步的方式，这种方式也影响到对人的选拔和评价。为什么美国顶尖大学现在越来越不依赖于面试？主要的原因就是面试不稳定。在没有更科学的评价方法之前，大学招生不得不依赖于面试；但如果能够开发出比面试更为稳定和科学的评价方式，面试的作用就会被弱化了。

在一个全球化的时代，国家与国家之间的竞争最终取决于创新性人才的数量和质量。如果美国顶尖大学通过科学和精准的测评技术更有效地选拔出“正确的人”，一个人可以顶一万个人，美国就始终能够保持在全球的领先地位。对于这种战略性人才布局给中国带来的挑战和压力，我们不能不引起高度重视并未雨绸缪。它再一次促使我们深思：中国顶尖大学应该通过什么方式来选拔“正确的人”？

2015年11月11日初稿于北京大学经济学院

2015年11月13日定稿于无思居