二 国际制度有效性的评估标准
在大量国际制度涌现的形势下,我们不难发现这样的研究问题:为什么某些国际制度规则可以产生积极的效果,而另一些制度安排却失去效力,甚至最终宣告失败?这就是一个国际制度“有效性”问题。到底如何评估国际制度的有效性,奥斯陆和波茨坦大学国际关系的专家学者们在此方面做出了重要贡献。“奥斯陆-波茨坦方案”通过三个概念来衡量国际制度的“有效性”,构建了评估制度效能的具体标准,包括“没有机制下的对应事实”(NR=no-regime counterfactual)、 “实际状态下的绩效表现”(AP=actual performance)和“集体共同的最佳状态”(CO=collective optimum)。其中,“没有机制下的对应事实”与“集体共同的最佳状态”是两个基点,而实际状况则徘徊在两者之间。“没有机制下的对应事实”是指如果机制不存在可能发生的假设情况,“集体共同的最佳状态”是指机制完美发挥效能(达到最佳状态)的情境。伊恩丝·东布罗夫斯基(Dombrowsky)认为如果没有机制在适当的地方存在,可能出现的假设状况,借用博弈论,可被理解为通过非合作方法去解决国际合作问题,即我们所谓的纳什均衡的出现。
德特勒夫·斯普林茨与卡斯滕·赫尔姆在上述三个概念的基础上,进一步发展了其他评估指标,即“机制可能性”(regime potential)、“机制有效性”(the effectiveness of a regime)以及“有效性的敏感程度分值”(a sensitivity of effectiveness score)。“机制可能性”是指通过可能的手段运用来缩短“没有机制下的对应事实”与“集体共同的最佳状态”二者之间的距离。一个机制的效能尺度大小可以通过估算从“没有机制下的对应事实”到“集体共同的最佳状态”的距离长短来考察,也可以根据“机制可能性”所取得的成果大小比值进行评估。
图2-1 衡量国际制度有效性的标准
注:NR=no-regime counterfactual; AP=actual performance; CO=collective optimum.
资料来源:Carsten Helm and Detlef F. Sprinz, “Measuring the Effectiveness of International Environmental Regimes”, Journal of Conflict Resolution, Vo1.45, No.5, 2000, p.637.
奥斯陆—波茨坦方案采用微积分方法,致力于创新一个整体衡量国际环境制度(也可以用于全球治理)的研究手段,评估哪一种制度和使用哪些措施更有助于全球性问题的解决。目前,该方案已经开始被学者们应用于诸如国际排污治理、有害物质跨国管理、垃圾排放、碳排放权争夺等问题领域。德特勒夫·斯普林茨与卡斯滕·赫尔姆就运用该方法研究诸如全球气候改变、保护臭氧层之类的全球环境问题,特别是研究1979年由联合国欧洲经济委员会签订的《长程越界空气污染公约》。该公约是欧洲国家为控制、削减和防止远距离跨国界的空气污染而订立的区域性国际公约。它于1979年11月13日在日内瓦通过,1983年3月6日生效,25个欧洲国家、欧洲经济共同体和美国参加缔约。公约规定:应通过协商、资料交换、研究和监测等手段,及时制定防治空气污染物的政策和策略;各缔约国就硫化物等主要空气污染物的监测技术、控制手段、对健康和环境的影响,社会经济评价以及传输机制的模型方面进行合作研究;在欧洲经济委员会环境高级顾问团内设立执行机构,以审查公约的执行情况。
为了适应当前全球治理的发展趋势,“奥斯陆—波茨坦方案”研究开始集中于在整合和拆分的基础上系统性地考察国际制度有效性的程度,解释跨问题领域、时空变化以及国际制度互动、国际制度复杂性这类因素对国际制度有效性的影响。另一个研究国际制度有效性的方法是“图宾根分析法”(Tubingen approach),该研究范式始于20世纪90年代初期,其主要代表人物有两位,他们分别为德国图宾根大学沃尔克·利特伯格(Volker Rittberger)与柏林社会科学研究中心米切尔·齐恩(Michael Zurn),他们从国际行为体冲突的性质来确定解决问题的难易程度,再从问题入手来评估制度是否有效。但很明显的是,该学派在影响力与操作化层面皆不如我们此前论述的“奥斯陆-波茨坦方案”。
正如德特勒夫·斯普林茨与卡斯滕·赫尔姆所说,“奥斯陆-波茨坦方案”有关制度有效性的定义及操作方法相比其他制度有效性的研究而言,表现出三个方面的优势:第一,通过把“没有机制下的对应事实”造成的提升空间与到“集体共同的最佳状态”的差距两个基点标准结合,避免了两者选其一的片面性弊端。第二,“奥斯陆-波茨坦方案”的测量概念是久经思考下的表达,而没有局限于特定的政策运用或特定的方法,包括国际制度的数据取得、类型以及研究方法论上的指向。通过提供一个其他学者也能接受并使用的评估标准,为不同学派搭建了交流、对话的平台。第三,“奥斯陆-波茨坦方案”设置的制度有效性分值便于制度政策制定者运用时理解,也便于操作,从而有助于现有国际政治资源在具有不同效果的国际制度之间进行分配。总之,“奥斯陆-波茨坦方案”是一套切实可行且具有无限扩充能力的评估方案。
当然,在如何评估国际制度有效性的问题上,除了“奥斯陆-波茨坦方案”与“图宾根分析法”外,还有其他新成果。在同一制度上运用不同的评估方法和衡量标准,导致了国际制度有效性分值的不同。当国际制度有效性评价出现分歧时,问题的关键就在于使用的方法。在具体的评估方法上,国际制度有效性研究自然涉及社会科学的基本研究方法。国际制度有效性的评估方法主要包括定性案例研究(qualitative case studies)以及定量方法(quantitative approach),它们是实证主义在国际制度领域的具体体现。基于案例的定性理论研究主要指非实验性的,通常采用案例资料,而且一般不用数量形式表达的研究。定性研究是确定事物本质属性的科学研究,更强调意义、经验、描述等,是研究的基本步骤和基本方法之一。它是通过观测、实验和分析等,来考察研究对象是否具有这种或那种属性或特征,以及它们之间是否有关系等。由于它只要求对研究对象的性质做出回答,故称定性研究。
在国际制度有效性领域,早期新自由制度主义的研究成果多属于定性研究。新自由制度主义的代表人物罗伯特·基欧汉在《权力与相互依赖》一书中阐述了国际制度在世界政治中的作用,认为相互依赖可以改变权力关系的性质,而国际制度则影响着国家间的行为。在《霸权之后》一书中,他基于新现实主义的基本假设,即从国家是世界政治中理性的、主要的、自利的行为体出发,通过运用新制度经济学的理论,描绘了各国际行为主体之间合作实现的图景。罗伯特·基欧汉认为,在无政府的国际政治领域内实现国际合作,可以通过国际制度这一平台来实现,虽然在国际社会中各国际行为主体之间存在各种分歧,但同样拥有广泛的共同利益,共同利益的存在并不意味着合作会自然形成,还需要倡导国际制度。尽管霸权有助于我们解释当代国际制度的创设问题,但是霸权的衰落并不必然对应性地导致这些国际制度的消失;随着霸权的衰落,一个从霸权合作到霸权后合作的时代就会缓慢出现。总之,为了使世界政治中的合作不只是临时性和随机性的,人类必须使用国际制度。
在使用定性方法评估国际制度有效性的诸多成果中,值得一提的是阿里德·翁德达尔与肯·汉夫(Kenneth Hanf)的研究成果。他们选择分析欧盟和九个国家内的酸雨机制(the acid rain regime),试图探讨何种因素影响了该机制在国内的履行情况。在具体的分析过程中,尽管涉及国家众多,影响因素极为庞杂,干扰变量多,但阿里德·翁德达尔与肯·汉夫没有选择定量分析方法,而是选择了欧盟与九个国家来作为检验国际制度有效性假设的案例,这些案例单个来看,都属于分离的、相对独立的个案,但作者通过数个具体引导机制最终推导出了一般性的结论。
其实,以罗纳德·米切尔等人为代表的国际制度研究者仍然坚持认为,定性案例分析在证明国际制度有效性领域功不可没,案例分析不能被数据验算所取代。案例评估国际制度有效性有四大优点:首先,在分析国际制度有效性时,诸如权力、利益这类重要却很难定量的影响变量可以通过案例分析加以界定;其次,那些理论上十分重要,实践中却容易忽视的因素可以通过举一个国际制度有效性的具体案例来进行详解;再次,国际环境等领域战略政策的创新可以通过国际制度、国际组织方面的案例分析加以说明;最后也是最重要的一点就是,就科学分析方法而言,回归分析等实证研究方法仅仅能证明变量之间的相关性,相关性并不是因果关系,而案例检验是验证国际制度有效性且得出比较明确的因果结论的重要方式,案例分析能证明变量之间的因果机制,而不仅仅是相互关联。
当然,用定性案例分析方法评估国际制度有效性,其缺陷也十分明显。比如学者在分析过程中显得过于个人化,相对于数据分析来说,更容易带入主观情绪,容易落入就案例说案例的误区,难以重复推广和公开检验,而且这些案例通常关注特定历史解释,缺少一般性概括的通则。所以就有了国际制度有效性评估领域定量研究方法的推广。定量研究一般是为了对特定研究对象的总体得出统计结果而进行的。在定量研究中,信息都是用某种数字来表示的。在对这些数字进行处理、分析时,要明确这些信息资料是依据何种尺度来进行测定、加工的。
在国际制度有效性的评估领域,史蒂文斯的“衡量尺度论”被诸多定量研究者接受。他将衡量尺度分为四种类型,即“名义尺度”、“顺序尺度”、“间距尺度”和“比例尺度”。“名义尺度”所使用的数值,用于表现它是否属于同一个人或物。“顺序尺度”所使用的数值大小,是与研究的制度对象的特定顺序相对应的。例如,给社会阶层中的“上上层”、“中上层”、“中层”、“中下层”、“下下层”等分别标为“5、4、3、2、1”或者“3、2.5、2、1.5、1”就属于这一类。只是其中表示“上上层”的“5”与表示“中上层”的“4”的差距,和表示“中上层”的“4”与表示“中层”的“3”的差距,并不一定是相等的。“间距尺度”所使用的数值,不仅表示测定某种制度对象所具有的量的多少,还表示它们大小的程度,即间隔的大小。这种尺度中的原点可以是任意设定的,但并不意味着该事物的量为“无”。“名义尺度”和“顺序尺度”的数值不能进行加减乘除,但“间距尺度”的数值是可以进行加减运算的。然而,由于原点是任意设定的,所以不能进行乘除运算。“比例尺度”其意义是绝对的,即它有着含义为“无”的原点“0”。“制度数量”与“制度时间”等都是比例尺度测定的范围。“比例尺度”测定值的差和比都是可以比较的。
在使用定量分析方法评估国际制度有效性的实际操作中,变量设置与操作化要十分谨慎,需要注意的是要仔细选择因变量,且明确制度影响的来源因素和依赖路径的自变量,以及证实可以用来解释因变量并且可以控制的其他干预变量。当然,列出一串解释此类现象的因素并不困难,但是关键在于分析因果链的精密程度而不仅仅是为了获得某个简约程序,我们要做的不能只是通过某种形式的统计推论简单挑选出重要的某个因素。定量研究在研究全球性国际制度与地区性国际制度的有效性问题中的一个重要突破就是在国际制度有效性领域构建与开始使用“国际制度数据库”。
在国际制度有效性研究的最初阶段,学者们没有原始数据来源,不得不大量使用二手资料,甚至是十分陈旧的几手资料,包括各种外文书籍和杂志报纸中的文章,尽管当时的学者们可以从一些大型会议上获得少量的相关资料,但是这些信息有的不允许公开,有的即使公开了也没有得到系统使用。经历了艰难的初期之后,国际制度的学者们不再满足于二手材料,而是开始使用“半结构化的调查问卷”(a semi-structured questionnaire)。“半结构化的调查问卷”一般将调查问卷用纸张形式进行发布再回收统计答卷中的答案,后期也尝试过网络发布且回收统计的形式。不过,问卷收集的困难直接导致了不能运用有效的方法深入研究制度因果关系中的核心变量,甚至出现了对理论方法使用上的随意,滥用数据与造假数据也随之出现。
从20世纪90年代开始,为了促进国际关系的制度研究者的协力合作,资源共享的思想开始涌现,国际系统分析方法应用研究所将维也纳设置为总部,开始构建“国际制度系统数据库”(International Institute for Applied Systems Database, IIASA)。“国际制度系统数据库”的前身与初始数据是基于该应用研究所的数据库项目平台。该数据库为国际制度“有效性”评估提供了较为详细的数据信息,并为具体制度设计以及今后的制度完善创造了条件,提供了便利。在此基础上,赫尔默特·布赖特梅尔(Helmut Breitmeier)等人分析了“国际制度系统数据库”中的23个制度,发现了当外部条件变化影响不明显时,在52%的案例中,制度效能发挥了“极为重要”或者“十分强烈”的作用,而制度效能影响“非常少”或“几乎没有”的情况仅仅占9%;而在外部条件严重缺乏的案例中,制度影响“极为重要”或者“十分强烈”的只有7%,而“非常少”或“几乎没有”却占到了40%。这就证明了制度发展的外部条件对于制度效能的发挥尤为重要,可以说是影响某种制度是否有效的关键性因素。
除了国际系统分析方法应用研究所建立的“国际制度系统数据库”之外,2002年以来,罗纳德·米切尔建立的“国际环境协议数据库项目”(International Environmental Agreements Database Project:2002~2011)也在西方国际关系理论界产生了比较重要的影响。罗纳德·米切尔建立的数据库重点考量国际制度履行与遵约方面的数据。截至2013年9月26日,该数据库包含了1198个多边条约、1595个双边条约以及247个其他条约,并通过链接成员、绩效数据、文本、秘书处以及统计概要,将这些协议、条约和公约联系起来,用户可以通过主题、日期、代表人物三种途径进行检索。同样,该数据库也获得了应用,在爱德华·米尔斯等人的著作中,通过对该数据库数据的分析,将国际制度“有效性”分值划为0~1,结果显示行为改变显著的有效性分值是0.51,而问题解决的有效性分值是0.35。该研究显示,当一个机制发展到日趋成熟时,有效性分值增加。