
第一节 评价理论概述
本节简述理论的类型,评价理论和模式的内涵和分类,以及教育领域评价理论和模式的分类。
一、理论
何为理论?简而言之,理论是对具体现象的某种合理解释和预期,或者更加具体地说,理论是对至少两个概念之间的关系的描述、解释或预测。理论本身是分层次的,既有成熟程度的差异,也有解释范围的不同。从理论假设到定理,不同成熟程度的理论描述、解释和预测的能力有强弱之分。成熟程度是指理论被实践验证的广泛和深入程度,也是理论经时间检验的程度。尚普认为发展初期的理论,解释能力较弱,而发展较为成熟的理论,解释能力较强。成熟程度最低的是理论假设,它仅仅是对两个概念之间可能的关系的预期,尚未得到实践验证,因而其描述和解释能力也是最弱的。
根据解释的范围,尚普将理论分为三个层次,即宏观、中观和微观理论。宏观理论解释一般社会现象,而微观理论解释具体的社会现象,中观理论介于两者之间。尚普将理论和概念都比喻为相机的镜头。相机的镜头有广角、标准和微距的区分。相机的标准镜头拍摄人类正常的视线范围。广角镜头的特点是镜头视角大,视野宽阔。广角镜头拍摄到的景物范围要比人眼在同一视点所看到的大得多,景深也长。微距镜头与标准镜头相比可以聚焦更近的被摄物体,更加精确、清晰地呈现微观物体。理论的宏观、中观和微观三个层次对现象和问题的解释范围就相当于相机的广角、标准和微距镜头。评价理论一般是中观和微观层次的理论,其解释范围大多是中等或小范围,而且其解释力度也因实践检验的范围有限只是中等的。
二、评价理论和模式
评价理论(theory of evaluation)通常区别于测量理论(theory of measurement)。测量理论相对客观、简单;而评价理论则更加复杂,离不开价值判断。测量理论可以通过一个最简单的公式表述为C=I+e。公式中的C是测量的对象、现象或概念,I是测量指标,而e是测量误差。任何一个复杂概念的测量都不可能完全避免误差。误差的产生有很多原因,比如概念化不恰当、测量工具不准确、被测对象的疲劳等诸多原因。测量误差是指与测量有效性直接相关的误差
。理论层面,测量的目标是尽可能将测量误差e控制到最小,以提高测量指标I的有效性。实践层面,在测量误差e无法完全避免的情况下,一般假设测量误差e是随机分布的,与测量指标I之间无显著的关联性,因而可以忽略不计。
评价一般来说指对某事的价值作决定。顾明远《教育大辞典》也将评价定义为“事物价值的判断”
。评价专家彼得·罗西(Peter H.Rossi)认为“评价是通过定量或定性的衡量方法对事物进行有效的和可信的价值判断”
。1994年,美国教育评价标准的联合委员会将评价定义为“对某一事物价值或功绩的系统评价”
。由此可见,测量是对事实现象的观察、衡量,而评价是对事实现象进行价值判断。因此测量常常是评价的一部分、基础,评价是测量的深化。评价通常建立在测量的基础上,或者包括测量环节,所以评价活动收集的信息通常同时包含描述性信息和判断性信息。描述性信息通常是对组织的目标、人员、资源、活动、结构和结果的数量和某种质量的描述。判断性信息则是对描述性信息的某种价值判断。
评价的本质是价值判断在评价领域是获得一致认同的。英文中,价值(value)一词是评价(evaluation)一词的词根。正如评价专家迈克尔·斯克里文(Michael Scriven)指出的:“没有评价是不涉及价值的。”但是对于什么是价值,则因人因事而异了,评价专家们罗列了众多代表价值的概念,比如:价值(worth)、功绩、正直、可行性、安全性、重要性、合法性和/或公平性等等
。
简单而言,评价理论描述和规范评价者在评价活动中应该评价什么以及如何评价。评价理论应该描述、规范评价目的、评价主体、评价对象和内容、评价参与者、过程和程度、评价方法、评价信息的运用等评价活动的各个环节和方面。有的评价理论家倡导建立具有普遍适用性的,即通用的一般评价理论。
通用的一般评价理论常常试图从更加全面、广泛的视角描述和解释评价的性质、评价的逻辑、评价的模式,以及通过方法论和评价在特定情境中的社会政治角色,证明评价结论的合法性。
一般性的评价理论突出评价的性质,对评价内容、时间和空间不加限定。
而有些评价理论家建议评价理论应该区别具体的应用领域,比如项目评价、组织评价、教育评价、绩效评价等等。特定领域或对象的具体评价理论的倡导者估计是希望突出实践中不同领域或对象的评价的特殊性。具体的评价理论常常针对特定的评价类别、实质内容、地点或时间。本书在构建研究型大学的组织绩效评价理论时倾向于将其定位为具体的评价理论,因为其评价目的、对象、内容和环境的特殊性。
无论是一般的,还是具体的评价理论,其形成都具有两大特点。一方面,评价理论主要是规范性的,至少以规范性为目标,这与大多数理论构建目标一致。另一方面,评价理论更多地来自实践,而非从理论推导而来。实践中,评价理论常常以评价模型或模式(evaluation model)等形式出现,不一定以“理论”的形式出现。美国著名教育评价专家丹尼尔·斯塔弗尔比姆(Daniel L.Stufflebeam)等人在其标志性著作《评估模型》一书中就没有对模式与理论这两个概念进行严格的区分
。评价理论家马文·阿尔金(Marvin C.Alkin)更是明确表示“虽然评价文献通常使用评价理论一词,但是评价方法或评价模式也许是更为恰当的术语”
。阿尔金将评价模式区分为描述性和规范性两类
。描述性的评价理论,也是经验的理论,是一系列描述、解释和预测评价活动的陈述声明和概括归纳。规范性的评价理论是界定什么是良好的、恰当的评价活动以及评价活动应该如何开展的一系列规则、限制和指导框架。
三、评价理论和模式的分类
由于其基于实践的理论构建特点,评价理论更多地以评价模型的形式出现。教育评价专家丹尼尔·斯塔弗尔比姆和安东尼·逊克菲尔德(Anthony J.Shinkfield)在其重要著作《评价理论、模式和应用》中列出了23种西方常见的评价理论和模式。斯塔弗尔比姆和逊克菲尔德将这些评价理论和模式区分为伪评价、准评价模式、改进和问责导向的评价模式、社会议题和倡议导向的评价模式四大类。
第一类伪评价是指现实生活中那些为了评价以外的某种特定目的、缺乏专业的评价设计、实施和道德,名不符实或者仅仅是权宜之计的评价模式。斯塔弗尔比姆和逊克菲尔德认为现实生活中主要有公共关系导向的评价、政治控制的评价、迎合性评价、虚构性评价、以评价为名义的赋权运动和用户反馈式评价这六种伪评价模式。这些评价活动都受某种特定的主观价值倾向的影响,评价只是一个工具或者借口,其本身的科学性并不受重视,因此应该被视为伪评价。斯塔弗尔比姆和逊克菲尔德的分类标准和结果并非没有争议,尤其是被归类为伪评价的赋权运动式评价。
“赋权评价”(empowerment evaluation)这一概念是1993年时任美国评价协会会长戴维·费特曼(David M.Fetterman)在该协会的年会致辞中提出的。赋权评价倡导在评价活动中,评价者应该起到社会变革的中介作用,通过评价活动赋予公民掌控自身事务的权利,强调评价应该是帮助公民自我实现的工具,一种全新的评价形式。
在组织层面,赋权评价强调组织内部成立评价团队,通过民主协商的过程和程序,讨论评价的目的和意义;强调评价活动的责任和管理在组织成员中的分享;强调评价成为组织决策的一部分。
费特曼特别指出赋权评价在高等教育领域,尤其是专业和院校资格认证活动中的关键作用和意义,视其为质量保障和改进的重要民主过程。
第二类准评价模式是现实生活中数量最多的评价模式。准评价模式都具备高度的专业评价质量和水平,只是这些评价模式涉及的评价问题或者采取的评价方式,或者两者都相对比较狭隘。准评价模式通常聚焦于一个或有限范围的评价问题,比如聚焦于目标、过程或者项目等。准评价模式常常只采用一种评价工具,比如问卷调查。有些准评价模式的评价问题和方法都比较狭隘,比如多数的实验研究都只通过一种方法收集信息评价某一具体问题。
准评价模式有许多优势。首先,准评价模式针对性强,能够比较及时地、高质量地回应具体的评价需求。第二,准评价模式的效率相对较高,主要因为其评价问题和方法比较具体。第三,准评价模式收集的信息和得出的评价结论有效性比较高。然而准评价模式的最大缺陷是其评价结论相对比较片面。斯塔弗尔比姆和逊克菲尔德提出的准评价模式包括基于目标的评价模式(objectives-based studies)、成功案例评价模式(the success case method)、价值附加类的结果评价(outcome evaluation as value-added assessment)、实验和准实验研究评价模式(experimental and quasi-experimental studies)、成本评价(cost studies)、鉴赏与批判式评价(connoisseurship and criticism)、基于理论的评价(theory-based evaluation)和元评价(meta-analysis)。
第三类改进和问责导向的评价模式,包括决策和问责导向的评价(decisionand accountability-oriented studies)、消费者导向评价(consumer-oriented studies)和认证与资格认定模式(accreditation and certification)三种。改进和问责导向的评价模式的功能主要在于:①促进评估对象的改进和更加负责任;②帮助用户更加明智地选择最佳的项目、产品和服务;③帮助认证机构认证绩优的组织、项目和人员。改进和问责导向的评价模式比较能够全面地、严谨地采用定量和定性相结合的方法科学地进行整体性的评价。改进和问责导向的评价模式有一个共同的特点就是强调利益相关主体对评价信息和结果的充分知情权。这三种评价模式共同的缺陷是在实施过程中评价理论的现实可行性饱受质疑。
第四类社会议题和倡议导向的评价模式包括响应式或以利益相关者为中心的评价(responsive or stakeholder-centered evaluation)、建构主义评价(constructivist evaluation)、民主审议评价(deliberative democratic evaluation)和变革式评价(transformative evaluation)四种。这类评价模式强调了社会各阶层都有接触教育和社会服务的平等权利的原则。这些模式都倡导通过评价活动增进被剥夺权利群体的利益,都倾向于建构主义导向的理论基础和定性的或综合性的评价方法。社会议题和倡议导向的评价模式共同的缺陷是在实践中容易退化为伪评价,即评价活动的科学性、有效性、可信性无法得到保证。当倡导社会正义的良好初衷转变成为某一特定弱势群体争取权益时,就容易形成利益冲突,影响评价活动的有效性和公正性。利益相关群体,尤其是直接的利益相关群体,一旦拥有评价决策权,尤其是评价信息的解读和公布权,也容易出现有偏见的、自利的操控行为。
斯塔弗尔比姆和逊克菲尔德在《评价理论、模式和应用》一书中列举的评价理论和模式尽管丰富多样,但还是未能覆盖所有,尤其是一些近年来受关注度较高的评价模式未列入其书中。近年来,各个领域关注度较高的评价理论和模式还有发展性评价(developmental evaluation)、现实主义评价(realist-ic evaluation)、认知评价理论(cognitive evaluation theory)等。发展性评价由迈克尔·帕顿(Michael Q.Patton)在其2011年著作《发展性评价》中提出,主要是在复杂或不确定的社会环境中以促进变革为目的的一种评价模式,强调在现实环境下评价信息的实时(或接近实时)反馈以及循环、持续发展的观念。现实主义评价理念起源于20世纪90年代的英格兰,强调评价作为一门科学,应该立足于现实主义理论、建立在已知评价知识和事实证据之上,并突出通过科学评价促进政策研究和实践。
四、教育领域的评价理论和模式
评价是现代教育管理不可或缺的重要工具,而教育评价理论的发展也经历了多个阶段。教育领域的评价理论和模式的适用对象比较宽泛和灵活,通常覆盖个体(比如教师和学生)、内容(比如课程)和组织(比如学校)等。20世纪30年代,拉尔夫·泰勒(Ralph W.Tyler)提出采用标准化方法对既定目标达成程度进行正式评价,并于1949年正式提出基于目标的评价模式(objective-based evaluation)。20世纪60年代之后,西方评价观点和理论进入发展的旺盛期。20世纪60年代,迈克尔·斯克里文和李·克伦巴赫(Lee Cronbach)提出了形成性评价和总结性评价的概念。1963年,克伦巴赫建议评价活动应该更多地采用定性的方法,比如采访和观察
。1967年,迈克尔·斯克里文提出客户导向评价模式(customer-oriented evaluation),强调评价活动对评价者和评价对象需求的双重回应。在客户导向评价模式中,迈克尔·斯克里文区别了形成性评价和总结性评价的不同目的和功能。20世纪60年代后期,比较具体的项目评价(program evaluation)形式出现,其在教育领域的应用也受到知名评价专家迈克尔·斯克里文等人的关注。1971年,丹尼尔·斯塔弗尔比姆提出著名的CIPP(Context, Input, Process and Product)评价模型,强调通过系统评价回应决策管理需求。1971年,马尔科姆·普罗佛斯(Malcolm Provus)提出差异评价模式(the discrepancy model of evaluation),强调评价活动中区分实际结果与既定或预期目标的差异
。1972年,迈克尔·斯克里文提出目标游离评价模式(goal-free evaluation),鼓励评价者突破聚焦既定目标的狭隘评价视角,广泛收集数据和信息,分析所有可能的结果,尤其是预期外的结果
。1975年,罗伯特· 斯塔克(Robert Stake)提出回应式评价(responsive evaluation),也称为以客户为中心的评价模式(client-centered evaluation)
。回应式评价模式彻底脱离了从泰勒以来的评价理论都强调的评价应该以目标为中心,转而强调评价活动应该关注目标、过程、标准、结果和环境等各个方面,评价活动应该关注的是对利益相关主体关心的问题和需求的回应,主要通过评价活动整个过程中的交流和沟通。1981年,美国印第安娜大学教育学院的埃贡·古贝(Egon G.Guba)和范德比尔特大学的伊冯娜·林肯(Yvonna S.Lincoln)在斯塔克的回应式评价的基础上提出自然评价模式(naturalistic evaluation),也被称为“第四代评价”模式
。
上述众多的评价模式被归类划分为评价研究的多个发展阶段,只是不同的学者对于如何划分评价研究发展阶段有不同的观点。在拉尔夫·泰勒的评价发展史的研究基础上,斯塔弗尔比姆和逊克菲尔德将评价研究划分为六个时期:前泰勒时期,20世纪30年代之前;泰勒时期,1930—1945年;纯真时期,1946—1957年;现实主义时期,1958—1972年;专业化时期,1973—2004年;全球化和多学科时期,2005年至今。吴刚将西方教育评价的发展分为六个阶段:社会变革阶段,1800—1900年;测验运动阶段,1900—1930年;泰勒模式阶段,1930—1945年;稳定发展阶段,1946—1957年;兴盛阶段,1958—1972年;专业化阶段,1973年至今。
王汉澜将教育评价发展划分为三个阶段:目标分析研究时期,1933—1958年;多方位研究时期1958—1980年以及1980年之后为独立学科时期。
教育评价发展阶段划分方式中影响最大的可能是古巴和林肯提出的四阶段论。古巴和林肯根据评价活动的本质特征,将教育评价理论和实践划分为四个发展阶段。第一阶段,也称为第一代评价,是“测量时代”。盛行于19世纪末至20世纪30年代,这一时期教育测量理论基本形成,并在实践中大量运用。测量时代的评价观认为评价的本质是通过测验或测量的方式,观察学生对知识的获取状况或某种特质。第二代评价是描述时代,盛行于20世纪30—50年代。描述时代的评价观认为评价的本质是描述,即描述教育结果与教育目标的一致性程度。第三代评价是判断时代,盛行于20世纪60—70年代。判断时代的评价观认为评价的本质是对事物价值的判断。20世纪80年代,古巴和林肯提出新的评价观,认为评价是一个通过协商对被评价事物的价值判断达成一致意见的心理建构过程。古巴和林肯称他们提出的新评价理论为“第四代评价”,1989年出版了名为《第四代评价》的专著。第四代评价理论是古巴和林肯根据建构主义方法论提出的,针对前三代评价中存在的“管理主义倾向”、“忽视价值多元性”和“过分强调科学实证主义的方法”等不足之处。第四代评价观强调在自然环境中,尊重价值多样性,在评价活动中评价者与包括被评价者在内的多个利益相关群体,通过充分的、平等的协商过程,达成共识。第四代评价强调评价者在评价过程中,不应该是管理者控制评价,而应该起到中介人、条件提供者和创造者的作用。评价方法也应该避免依赖单一的定量衡量方法,采用建构性的综合的评价方法。第四代评价强调评价活动应该是对评价利益相关主体需求的回应,强调评价是一个心理建构过程、一个价值协商过程、一个评价结果认同过程。
早在20世纪30年代,泰勒就开始强调理论在评价活动中的重要性。只是整体上,评价理论的发展并不理想。理论在评价实践活动和评价研究中的应用并没有发挥预期的影响,或取得预期的效果。此后各个时期的评价专家也都重申评价理论的核心作用,但是理论驱动的评价(theory-driven evaluation)这一概念真正在评价领域引起广泛关注起始于1990年《理论驱动的评价》一书的出版。
此后,理论驱动的评价的理论探讨大量涌现,尤其是在项目评价领域,并且受到众多国家和国际组织的支持,比如美国疾病防控中心(US Centers for Disease Control and Prevention)、联合国评估小组(the United Nations Evaluation Group)和世界银行(Word Bank)等。然而理论驱动的评价在实践中并没有被广泛推行,除了赋权评价、参与式评价和元评价等具体评价类别。
总体上,斯塔弗尔比姆等人认为理论驱动的评价的效果在评价实践活动中并不明显,他们发现实践中明确采纳理论驱动的评价与未明确采纳的评价活动的效果没有显著的差别。
换而言之,影响评价活动的质量和效果的因素众多,是否采纳理论驱动只是其中的一个因素。