准备验证模型
从我们的分析可以看出,这些模型在某些方面是相互补充的,而在其他方面则相互矛盾。它们或许都是错误的,但是它们不可能全都是正确的。每一个模型看上去都有道理。它们对于不同情境下和不同时期如何维系和平、战争如何爆发作出了有趣的解释。然而,目前为止,没有办法表明哪个模型是正确的。我们的每一个解释均有其坚定的支持者。哪个模型准确地描述了国际政治体系运作的方式呢?至少比其他模型更准确?这些模型均非常有趣,然而它们能不能站得住脚呢?当然,除非我们发现检验模型的办法,否则我们永远也不会知道。这就是我们准备做的事。12
我们要小心不能夸大其词。我们不能对模型进行全面的检验,它们太复杂,包括太多清晰和隐晦的假设,无法在这里进行彻底的检验。彻底的检验应该是具有里程碑意义的成就,然而目前却没办法实现。我们只想要检验模型中的一个观点。每个模型的基石都是主张力量对比,以及同战争与和平有关。换句话说,当战争爆发的时候,力量对比会发生怎样的变化,或者至少在大国体系中的力量对比如何演变?这就是我们要回答的问题。
即使是这样的检验也需要作大量准备。要回答“什么样的力量对比将导致战争”,难免需要在陈述理论时,在概念的界定方面加入宽松空间和模糊地带。这样做是我们在进行实证检验的时候不能容忍的。我们如何衡量国家权力或者国家能力?我们如何给权力相等和权力不等这样的概念赋值?什么样的战争可以被称作大战?
因此,如果要进行这样的检验,我们要做的第一件琐碎的工作,就是构建易于使用的国家能力的衡量标准。除此之外,这意味着我们的衡量标准要能得到不同年代和多个国家的数据。
第二件工作是明确应如何衡量力量对比的变化。如果我们主张一旦两个国家拥有的权力发生了某种特定关系,这两个国家就走上了一条通往战争的不归路,那么我们应该如何清晰地表示这样的结构呢?
我们的第三个任务就是阐明什么样的国家是某个既定体系中的行为体。我们将说明,这件事不像界定哪个国家是“大国”那么简单。无论如何,只有完成了确定行为体这个关键的准备步骤,我们才能开始进行试验。
第四,必须明确我们衡量出的力量变化能够解释哪些战争。显然,这些模型从未自诩可以解释所有的战争。尽管在探讨这些概念的某些罕见场合,它们看上去是无所不能的。这些模型试图解释的是大战。那么后续的问题就是,应该界定大战包含哪些要素。
还有最后的一个任务。三个模型均或明晰或隐晦地指出,不同的精英在引领国家处理国际关系的时候,对于力量对比的解读往往会截然不同。朋友力量的上升并不让人担忧,然而很多人会认为敌人新增的权力是一个严重的挑战。在某些情况之下,这甚至可以被视为开战的理由。因此,我们必须确定可以接受的衡量标准,来说明国家行为体精英的认知与行动的关系。当他们将战争前的权力结构变化解读为不具威胁性的时候,他们是否不会采取行动。相反,当他们在判断权力结构具有威胁性的时候,是否会受形势所迫厉兵秣马准备打仗。
衡量权力资源
长期以来,权力被视为个人、群体或者国家用于控制他人行为以达到自身目的的能力。13它存在于每一种关系之中,每一个当事方均控制着有形和无形的资源,可能改变另一个当事方的行为。仅仅当各方之间存在分歧的时候,权力才成为显而易见的因素,这时更强大一方的愿望将会占上风。因此,衡量权力对于预测和解释双方的行为至关重要。
有人尝试研究一个国家对另一个国家施加的实际控制力的大小。然而,国际政治专家通常会给自己留下一条退路,满足于衡量作为权力来源的资源。14这样做是有问题的。权力资源并不一定能发挥出全部潜力。可靠地评估这些力量也不一定囊括了所有关键要素,如外交技巧、超凡魅力领袖以及在国际上广受欢迎的信仰体系。我们很难轻松而可靠地衡量这些要素。此外,生硬地估算某个国家表面上拥有的权力可能并未触及真相,因为其他国家可能错误地假定该国比实际上更强大或者更虚弱。权力的表象往往代替了真实情况。15
因为我们关注的是权力和战争之间的联系,最后一个问题可能并不那么突出。在和平时代,一个国家实际拥有的权力与外界对于其的认知更容易发生偏差,而在战争年代则不会如此。在战争期间和战争之后,两种观点倾向于趋同,因为战争对人们的判断进行了检验。因此,墨索里尼凭借威胁和虚张声势为意大利赢得了国际社会的尊敬,然而当意大利实际的权力在二战中暴露无遗的时候,人们发现意大利赢得的尊敬远远超出了其真实水平。同样地,人们对日本军事力量的认知也与日本的实际情况也大相径庭,直到日本不断卷入二战之后,人们对日本权力的认知才符合其真实水平。
衡量国家能力包括三个步骤:一是列出可能影响一个国家行使权力的全部因素;二是选择其中的重要因素;三是确定一种方式来整合这些要素以确定衡量国家能力的单一标准。
我们不断重复前两个步骤。我们列出了通常被人们视为关键因素的指标,并且将其汇总和缩减到可操作水平,这样就可以运用智慧将可衡量的要素结合起来。16长期以来,有志于对国家力量进行实证估算的学者达成了这样的共识,那就是要想对权力进行较为精确的总体评估,只需衡量经济、科技、政治、军事和人口能力这些要素就够了。17还可以使用定量指标。例如,人均产出、总体产出或可支配产出的数值能可靠地说明一个国家的经济能力。要从总体上把握人口能力,可以计算该国的人口总量。要进行更精确的估算,就需要计算该国能够工作或战斗的人口总量。军事备战水平可以通过准确的武力开支或军队规模来推断。只有政治能力是难以衡量的。除了近期的一些数据,我们无法获取必要的数据,这些数据也难以解读。
无法构建令人满意的政治能力衡量标准,是构建衡量权力的标准的主要缺陷。这对于回答我们在本章中提出的一些问题、推进我们对于战争结局和影响的研究有重要意义。我们解决问题的前几步,让我们可以尝试预测各国交战时的胜败结局。第二章充分探讨了这个问题。我们要在这里展示我们的衡量标准,排除了直接测量政治能力的可能。我们将使用这些衡量标准,来检验力量对比及其变化是否在冲突爆发前就已经开始了。该模型认为这一变化是与维系和平或者战争爆发相关的。
缺乏对于政治发展的衡量标准,并不会削弱我们在本章和第三章中所做的检验。只有在估算发展中国家的政治能力的时候,直接测量政治能力才非常重要。
应该阐明我们这样做的原因。在二战之前已实现工业化的国家经历了这样的发展模式,其中大批民众参与了政治体系,这是对于社会经济变化的回应。因此,政治体系的扩张在颠簸中前进,基本上与经济生产力增长和城市化进程同步推进。因此,在这些案例中,我们可以通过衡量关键的社会经济变量来推断政治发展水平。但是,正如我们已指出的那样,当这样的发展模式受到挑战,这一进程就无法持续,正如今天的发展中国家所经历的那样。在这些例子中,这样估算并衡量国家能力是存在缺陷的,不应该这样做。当我们要预测冲突的结果的时候,我们还会进一步阐释这一问题。幸运的是,为了实现我们的研究目标,我们研究的大国是西方国家,其在政治领域的发展与经济领域的发展是一致的。
选择关键的指标只是迈出了第一步。我们还需要想办法将这些指标结合在一起形成单一衡量标准。18直至目前,还没有人尝试进行这样整合。学者时常会罗列出所有指标的值,让读者自己来确定其中的重点。如果一个国家在所有的衡量指标中都表现出色,读者就可以凭直觉或印象得出衡量数值。然而,如果一国某些指标得分很高,其他指标差强人意,凭借印象进行评估就显得没有根据了。如果要评估国际力量对比的变化对于重大冲突的影响,需要确定单一而可靠的衡量标准。大体而言,人们作出了三类整合的努力。第一类只是将不同指标的数值简单地加在一起。第二种则是把各个指标相乘而不是相加。第三类不满足于进行简单的汇总,指出权力等式中各要素的值各不相同,因此需要权衡不同部分的值。
尽管人们提出了不同的衡量标准,但只有少数衡量标准是真正实用的。我们选择比较两个理论和经验研究最成熟的衡量标准。与此同时,其概念也代表了有关最佳整合方法的辩论中的两种极端看法。
使用总产出作为国家能力的衡量标准
奥根斯基(A.F.K. Organski)和金斯利·戴维斯(Kingsley Davis)在很早前指出,国民生产总值和国家收入是很好的衡量国家能力的指标。可以通过总产出来有效地估算国家能力并不奇怪。对国民生产总值的估算直接反映出那些对于生产国家资源至关重要的深层变量的变化:能够工作和战斗的民众在人口中所占的比率及生产力水平。生产力水平提供了非常丰富的信息。因为个人对于国民生产总值作出的贡献,可以精准地反映出该国的科技、教育、资本密度,以及其他构建和维系国家权力的关键因素的水平。此外,高水平的生产力也说明社会有能力在外部安全领域进行投资,因为军事开支与国家财富水平是密切相关的。
由于总产出是核心问题,是有生产力的人口规模与其生产力水平相互作用的结果,国家权力的等式如下:
在这一公式中,总人口是指可以工作人口的规模,而人均产出是指生产力水平。19各要素之间的相互作用假定存在隐含的赋值系统。生产力和人口是等比例相关的。如果一国人口比另一国人口的生产力高一倍,然而人口仅是另一国的一半,那么生产力水平低的国家的两个工人只能完成生产力水平高的国家一个工人的工作,两个国家的权力却是相等的。这一赋值系统尽管有些武断,在理论上似乎是合理的。更重要的是,它反映了国际政治的现实。20
我们说过,将国民生产总值(GNP)作为从整体上衡量国家能力的标准,其主要问题在于,它并没有直接衡量政治体系完成工作的能力。然而对于在19世纪实现工业化的发达国家,这个问题并不严重。对于这些国家,可以通过衡量关键的社会经济变量来推断其政治发展水平。
现在我们要探讨第二个可用于评估力量对比的衡量国家权力资源的标准。
辛格(J.D. Singer)、布雷默(S.Bremer)和斯塔基(J.Stuckey)的国家能力衡量标准(SBS指标)
这一衡量标准的重要性体现在两方面,一是研究人员设计的分析过程非常有趣,二是其搜集数据的方式不但设计精巧,而且具有可操作性。21
我们有必要详细地描述辛格团队是如何设计这一衡量权力的标准的。其研究步骤可概述如下。
(1)作者指出,三个主要变量就足以表示总体的国家能力:军事能力、工业能力和人口能力。其他变量则或者没那么重要,或者与主要变量密切相关,可以通过这三个变量及其指数表示出来。
(2)用来衡量三个变量的指标包括:工业能力(由能源消费数据表示)、军事能力(由军事开支和军事人员数量表示)、人口要素(由总体人口和居住在二万人以上的城市的人口数量决定)。
(3)在选定关键的国家后,学者开始收集每个国家的数据。掌握数据后,他们得到每个国家在每个指标中的数值,并分不同指标来计算国际总量。所有的国家总能力的数值之和为百分之百。再计算每个国家在每个指标中占总量的百分之几。
(4)得出每个国家在每个指标中所占百分比的数值后,将这个国家各个指标的全部数值加起来,再除以6取平均值,得出的百分比数值就是这个国家在国际体系中国家总能力所占的百分比。
读者可以通过表1.1来了解辛格团队的研究步骤。22他们先对该指标的不同要素进行标准化操作,之后再将这些指标汇总为单一的指标。这样的步骤有诸多优点,可以比较不同国家的能力,而无须考虑国际体系中各国能力实际上发生的波动。还可以随时增加样本中国家的数量,仍然对不同国家进行比较,因为每一次评估算出的总量都是不同的。
表1.1 使用辛格、布雷默和斯塔基模型(SBS指标)来计算国家能力
注:本表用来说明如何计算各国的能力,所有的数据都是虚构的。
尽管如此,这样的做法存在一些不足,特别是在试图进行跨时空比较的时候,这些不足尤为突出。因为只有在构成体系的主要国家保持不变的情况下,才能进行比较。如果体系成员发生变化,比较就没有意义了。
如果要评估一个动态模型的价值,例如权力转移模型这样需要进行跨时代比较的模型,这是一个极其严重的缺陷。
还有一个问题。辛格团队采取的衡量标准是相对的衡量标准。一个国家的能力不仅取决于其自身的表现,也取决于样本的整体及其中每个国家的情况。当一个国家的相对权力下降的时候,我们无法确定这是因为这个国家表现很差,还是由于样本的总体表现在提升。如果是后者,样本总值的提升究竟是因为各个国家普遍表现良好,还是由于某一个国家表现格外出色呢?我们只有查阅一开始计算百分比的原始数据,才能作出令人满意的判断。而哪个国家表现得更好,哪个国家正在赶超其对手,哪个国家正在被超越,这些问题正是我们检验三个模型的关键所在。
比较SBS指标和总产出在衡量国家能力方面的优劣
两种衡量标准各有其优势和不足。总产出的一个主要优势就是指标的简约性,它收集的数据质量也许更高。另一方面,尽管SBS指标更冗长而且更不利于跨时代比较,其优势在于可以直接衡量国家的社会结构及其在防务领域的投资。我们归根到底要回答这个问题:两个衡量标准哪一个更出色?如果其中一个更让人满意,就应选择这个标准。如果它们平分秋色,那么决定我们选择的因素包括理论方面的考虑、指标对于未来研究的价值、在收集数据方面节省资源的问题。指标的表现是一个核心问题,要解决这个问题,必须对两个衡量标准进行严谨和系统的比较。有的学者已经进行了这样的比较,并发表了相关的研究。23这是对其研究的概述。
学者对从1870年到1950年总产出的数据进行了转换,使之完全可以与同期的SBS指标进行比较。在比较的每个节点(在这个时期每五年取一次值),我们选择的国家都与辛格团队相同。将这些国家的国民生产总值相加,并计算各个国家所占的百分比。先采用和辛格团队取值方法相似的手段得出数据,然后通过回归技术比较两组数据。因为最新的数据比早期的数据更精确,他们进行了两组比较,一组是包含1870年到1965年整个时期、包括所有国家样本的数据,另一组是从1895年到1965年的数据。
比较的结果表明,两组指标是相似的,得数也基本相同。当我们使用包括所有国家的样本的时候,两组衡量标准的数值虽然并非完全相同,也是高度相关的。决定系数(coefficient of determination)为0.86。当我们将检验限定于更短的时期的时候,案例数量减少了,标准误差却更小,数据总体上更加符合回归线。这一时期的决定系数从0.86提升到0.95。最后,我们逐个分析各个国家,进行了第二次可靠性测试,我们再次发现确凿的证据表明,两个衡量标准对相关国家行为的评估实际上是一致的。两个衡量标准之间的微小差异可能源于数据的可靠性。时间越久远,数据不可靠的可能性就会急剧上升。因此,我们得出结论,在各国的表现方面,使用某一个衡量标准并不比另一个衡量标准更有优势。人们往往会怀疑能否使用单一经济指标来衡量总体国家能力,然而这种怀疑实际上是没有根据的。
我们得出的结论是,使用国民生产总值这个衡量标准更好。原因有三点。一是国民生产总值的数据很可能比辛格指数中的几组数据更可靠。也许更重要的第二个原因在于,对于使用者来说,国民生产总值的指标显然更简约。而最重要的第三点原因在于,它在理论上更具吸引力。因此,我们选择使用国民生产总值,尽管我们意识到使用单一的衡量标准难免存在缺陷。24
同盟行为和对威胁认知的衡量
我们在本章一开始就指出,所有的理论均主张,大战的爆发既是国际体系权力结构变化的产物,也反映出精英是否愿意通过大战来预防或者推进相关的变化。例如,权力转移模型指出,只有在对现状不满的国家赶超主导国的时候,才会发生战争。满足现状的国家则不会打仗。而均势模型主张,所有的国家在获得相对其他国家的权力优势的时候,均会试图攻击这些国家。显然,在检验各个模型之前,我们必须能够衡量精英打仗意愿的大小。为实现这个研究目标,我们吸收借鉴了梅斯基塔(Bruce Bueno de Mesquita)近期的成果。25
梅斯基塔提出了评估同盟行为变化的指标。其论证过程如下:如果同盟关系加强了,同盟集团之间的互动却减少了,这样的行为可能说明,那些在处理本国国际关系方面担负重任的人认为,在当时的环境下,本国安全及其权力地位面临威胁,他们已作好了战争准备。如果出现了相反的行为,同盟关系变得松散,那就说明担负同等大任的精英判断危险已经过去了,或者不过是虚惊一场。因此,应该还能维持和平局面。当然,如果同盟关系松散,也不能排除战争的可能,然而战争爆发的次数应该会更少,我们应该假定战争在很大程度上是误判的结果。
最后一点很重要,我们应该重新审视作为衡量基础的理论架构。首先,我们应再次强调,问题的关键并不在于同盟体系是紧密还是松散的,而是这些安排的调整。精英会根据同盟更趋向于紧密还是松散的变化作出如下判断,哪些国家更可能和他们并肩作战,哪些国家可能与本国兵戎相见。因此,可以更准确地评估在战争爆发后本国及其对手可以获得哪些资源。显然,这也展示出战争胜败的可能性。如果我们假定各国都是理性行为体,这一信息就对战争决策发挥了关键作用。因此,精英对于威胁的认知、同盟的强化以及决定是否打仗,三个因素之间的互动是衡量的基础。因此,我们准备用同盟行为来衡量威胁。
我们需要解释为什么要假设国家都是理性的行为体。梅斯基塔也作出了这一假定,这样就可以排除一组在力量再分配中重要的变量,而这些变量显然在我们探讨的决策过程中非常重要。同盟指标无法评估不同精英的冒险倾向或趋势。显然,如果能够在冲突中得到足够诱人的好处,而在战争中有获胜的可能,某些精英就会比其他精英更愿意去冒险或者发动战争。另一方面,更审慎的领导人可能会在收益更大、风险更小的时候再发动战争。26
假定所有国家都是理性行为体,也存在重要缺陷。因为它排除了精英非理性的情况。从传统社会到现代社会,从民主国家到权威主义国家,如果我们思考一下历史上的精英,忽略非理性的行为体显然是一个重要问题。
我们提出了衡量标准的包容性问题,仍需探讨衡量标准的有效性问题。任何一套探讨精英对危险认知及其参战动机的衡量标准,都无法回避精英在作出决策前将克服什么艰难险阻的假设。精英需要判断环境变化是否对本国领土完整或者权力地位构成威胁,是否要为应对这些威胁而打仗。要是能一劳永逸地解开影响精英决策的机制之谜,毫无疑问将是价值连城的发现,然而这种希望很渺茫。此外,这样的解决方案并不能满足我们课题的基本需求。
我们将概述使权力认知这个指标具有可操作性的做法。首先,我们要按照我们根据四类同盟来建立的原创性指标来衡量同盟行为。这四类同盟是防御协定、互不侵犯协定、友好关系协定,以及不结盟。防御协定是国家之间最郑重的承诺,而不结盟是最无足轻重的承诺。然后我们权衡国家间关系,选出承诺最相似的一组国家和承诺差距最大的一组国家。我们使用关联性度量(measures of associations)来评估每组国家和其他组国家相比关系的紧密程度,使用了等级相关系数。在我们分析的时期,我们对每一年的每个国家都进行了测量。
以同盟紧密程度为出发点,我们构建了一个简单的包含8个刻度的天平。这一标准既反映出国家的承诺水平,也反映出其承诺的变化趋势(见图1.1)。天平中的正数表示某个国家与另一个国家的同盟关系变得更密切,它与该国的盟国关系也变得更密切。天平中的负数与我们描绘的趋势恰恰相反,说明这个国家与我们衡量的另一个国家及其盟友渐行渐远。同盟最低的负值说明这个国家不仅与另一个国家断绝了关系,也与后者的盟国毫无联系。每一个关于承诺水平和同盟走势的判断都需要观察同盟在20年间的演变趋势。
图1.1 威胁认知的天平
我们需要澄清一点以避免误会。有时同盟行为虽然发生了变化,然而两个国家的关系却没有从天平的一端转向另一端。例如从1885年到第一次世界大战期间,法国和英国的关系从天平非常积极的位置转向了不结盟的位置,然而这一变化尚不足以使双边关系达到负值。从绝对意义上说,两个国家仍然是朋友,然而他们对双方关系的坚定承诺已大不如前。为了避免误解,我们在天平上加上了刻度,从不结盟到积极表示非敌对关系,从天平中心到负值代表敌对关系。
还应该解释一下天平上“中立”这个位置。“中立”的国家是指那些现在没有而且从来不曾与体系中任何国家有联系的国家。由于没有相关的记录,我们无法对其行为作出判断或预测。这一中立的位置位于天平外部,只有体系之外的国家可以占据这个位置。在19世纪,美国和日本恰好位于这个位置。刚进入国际体系的国家也难免处于这个位置。
行为体
我们的第三个任务是确定哪些国家应该被列为大国,因为如果我们要解释战争爆发的原因,这是选择战争时的关键一步。因为除非大国互相打仗,才会爆发大战,要知道哪些国家可以被列为大国是辨别重大冲突的前提。此外,我们应该在这里解释一下,我们之所以选择某些特定的大国,是因为我们认为这些国家最适合检验我们的观点。精英国家的数量寥若晨星,它们能够在国际体系的其他成员中脱颖而出,特别是在人口、经济生产力和军事力量等关键要素上;国际关系专家长期以来对其身份达成了共识。清单上的所有国家包括美国和俄国(苏联)、英国和法国、日本和德国、中国和意大利,以及奥匈帝国。27
如果我们要公平地检验权力变化和战争爆发之间有什么联系,我们需要在不同的时期从大国清单上选择不同的国家,因为并不是我们列出的每一个国家都自始至终位于大国的行列之中。美国和日本在1900年成为大国。随着一战后奥匈帝国的瓦解,奥地利和匈牙利就不再享有大国地位。
我们也需要区分相关的国家究竟是国际体系的中心成员还是边缘成员,它们究竟是大国还是竞争者。后者比较重要。竞争者本身足够强大,可以决定世界秩序政治学的未来走向。
为了展示这样的区别,我们设计了两套不同的标准。我们通过相关行为体之间的同盟关系来区分中心国家和边缘国家。读者可能还记得,如果一个国家不参与国际体系,就不能指望它遵守力量对比模型的规则,因此无法预测其行为。表1.2说明了哪些国家在哪个时期属于哪个体系。
表1.2 从1860年到1975年在中心和边缘体系中的主要大国
∗无相关数据。
表1.2明确说明,欧洲在现代国际政治中自始至终享有霸权地位。直到整个19世纪,大国无一例外是欧洲国家,国际政治的实质就是欧洲政治,而世界政治就是欧洲围绕如何瓜分世界其他地区展开的争夺。尽管美国和日本在19世纪和20世纪之交开始被视为大国,它们仍然与中心体系保持距离,其实并不属于中心体系。只是在二战之后,当美国以及日本(实力还远不如美国)把所有欧洲国家远远地甩在后面,并成为中央体系主动的参与者,国际体系才实现了意料之中的扩张,首先接纳了美国,随后接纳了日本。更近些时候,中国成为国际体系最新的重要成员。国际体系从欧洲拓展到世界的过程,是二战以来国际政治最重要的变化。中心和边缘的区分对于我们后面的分析步骤有重要意义。
第二个分类是区分大国和竞争者,我们通过一个简单又具有可操作性的办法做到了这一点。我们在此前的观点是,在任何一个时刻,世界上最强大的国家总是位于竞争者的行列之中。其他任何一个达到体系中最强大国家能力80%的国家也应该被视为竞争者。如果某一时期找不到符合80%的标准的国家,我们就将国际体系中最强大的三个国家定义为竞争者。
我们只需在中央体系中确定三个最强大的国家,因为力量对比模型只适用于中央体系。人们可想而知,这也是因为在不同时期国际体系中最强大的三巨头应该是不同的国家。表1.3列出了最强大的国家。
表1.3 中央体系的竞争者
还有两点值得关注。意大利和奥匈帝国位于我们的大国清单上,然而它们从未在中央体系中三个最强大国家的名单中占据一席之地。另一方面,美国只是在二战期间和二战之后才崛起为体系中最强大的国家,然而读者应该知道,早在19世纪末,美国的潜在力量就已经超越了所有国家,并时至今日一直保持领导地位。美国直到二战时期才在这个清单上出现,因为只是到那时,它才认为自己是中央体系的一部分。
检验案例:总体战和大战
我们已经知道我们要检验哪些国家的行为,现在让我们来选择一些冲突作为检验案例。
回顾上文,我们要比较的模型并不尝试解释国际权力结构的变化与小国之间的战争或者大国和小国之间的战争的关系;这个模型对于殖民战争也没有解释力。这些模型认为,此类冲突的爆发可能与体系中权力结构的根本变革无关,因此战争爆发前的力量对比并不能推翻我们探讨的任何模型提出的假设。只有当我们所选定的冲突的结果可以影响国际体系的结构和运作时,我们才能公平地检验这些假设。总之,我们需要的是重大国际军事斗争。
我们通过三种标准来选择战争。我们认为,如果每一方均有一个大国积极参与了冲突,冲突就会升级到大战的水平。因此,我们的第一个标准是,大国积极参与一对势不两立的国家联盟。为了确保在我们选择的冲突中,两个参与的大国都拼尽了全力,我们增加了第二个条件:在我们选择的冲突中,在战场上死亡的人数达到史无前例的新高。我们精心设计了第三个标准,以确保竞争者确实想要获胜,那就是选择那些战败者将丧失领土或者遭受人员伤亡的冲突。也就是说如果一国精英认为,战败将危及本国领土完整,他们就会将全部资源投入战场。这样的假设是合理的。
由于我们在选择样本时提出了理论上的限定条件,我们可以选择的冲突的数量降到了五个:拿破仑战争、1870—1871年普法战争、1904—1905年日俄战争,以及两次世界大战。我们必须排除拿破仑战争,因为我们不能获取年代如此久远的多组数据。显然,通过分析四场战争来总结规律是远远不够的。
如果我们不再将冲突双方都视为铁板一块,那么可供分析的冲突数量将显著增加。但是,尽管冲突的数量增加了,如果我们想要展开一系列检验,这些冲突还远远不够。然而,如果我们去检验单个国家的行为而不是相互交战的国家集团的行为,我们就能对于国际体系的运作方式有更深刻的见解。因此,我们决定分析在同盟解体时究竟发生了什么。我们准备采取两个步骤。首先,我们将行为体清单上的国家两两分组,在检验一个国家的时候,也会同时检验另一个国家。其次,该模型认为,当一组中两个国家能力的比值达到某个数值的时候,可能会发生战争。我们选定了两国数据符合模型假定的时期,然后看看在现实中二者是否真的发生了战争。
为了标记战争是否爆发,我们将冲突没有爆发的每一年记为“0”,将冲突爆发的年份记为“1”。我们使用二分法严谨地对因变量进行分类。即使从最积极的方面看,这样衡量两国关系也是过于粗放的。因为在现实中两个国家间的关系非常微妙,可能处于从完全合作到武力冲突之间的某一个位置。但是我们不得不咬牙坚持下去,因为我们找不到更精妙的跨越时代的衡量标准,来把握国家间合作和冲突的水平。因为要通过“战争和不打仗”这样的两分法来界定我们要解释的行为,我们就必须对不间断的权力指标作出必要的调整,以适应因变量新的性质。我们将在下一节阐述我们的操作过程。
检验时期与力量对比
我们尚未回答两个重要问题。第一个问题是两个行为体之间要发生多大程度的权力转移,才会爆发战争。要切合实际地看,我们可以假定,只有大国之间发生重大权力转移才会启动大战爆发的进程。因为我们已经确定了衡量因变量的标准,那就是区分战争是否爆发了,我们不准备通过自变量来衡量各国逐渐逼近大战的过程,因为唯有权力年复一年微弱的变化才能导致这一总体的变化。如果我们的实验证明,在我们关注的20年中,权力发生的势不可挡的微小变化在19年中并没有引发大战,因而得出力量对比的变化与大战之间并没有真正联系的结论,这样做显然是不公正的。
为了解决这个问题,我们从关注“国际体系中两个国家的权力转移达到什么程度才会爆发战争”这个问题,转向关注“当两个国家的权力发展轨迹相交后,还需要多长时间才可能发生战争”这个问题。我们的观点是,权力变化和冲突的爆发确实是相互关联的。通过将“多少权力”转化为“多长时间”,我们有可能实现研究的另一个重大目标。均势模型和权力转移模型提出的观点似乎是相互矛盾的,尽管两个模型可能都是不正确的,然而其中只有一个模型可能是对的。为了搜集证据,好让我们在两个模型中作出选择,我们必须决定需要在多长时期里追踪每一对交战的国家的发展轨迹,以判断它们在冲突前的权力增长模式究竟是在相互靠近还是渐行渐远。
当我们提出权力变化需要多久才能引发战争的问题时,我们也在询问实验的时间跨度应该是多长。在我们已探讨过的理论中,没有一个理论阐明了该模型所说的权力变化引发敌对双方的战争需要多长时间。在确定“合理的时间跨度”方面,我们并没有行动指南。当两个国家势均力敌的时候,还需要再等待一年、十年还是二十年才会爆发战争呢?体系中各国普遍的增长速度可以为我们提供解答的思路。因为国家增长的速度是缓慢的,需要相对较长的时期,两个潜在战争方之间的力量对比才会发生足以导致战争爆发的变化。我们认为,在每场战争前大约需要20年就够了。我们感觉应该在分析中减去真正战斗的年份,于是我们在估算时没有计算这些年份。我们探讨的战争位于表1.4的每个时间段。
表1.4 检验时期和战争的爆发
∗因为缺乏数据,所以不能从1850年开始。
†1914—1918年以及1940—1944年的战争年代被排除在试验时期之外。
要完成实验的准备工作,我们还有一个任务没有完成。我们必须计算行为体之间的力量对比以及在表1.4列出的6个时期中其力量对比变化的速度。
我们决定通过两个步骤来解决这个问题。我们首先计算权力关系,计算在整个时期内每对国家国民生产总值的比值。在这段时期开始时较弱的国家在整个时期内被置于分数的分母部分。我们运用这一比率的平均数来说明每个行为体在整个时期的相对地位。
以这样的衡量方式为起点,我们随后辨别了两国是否势均力敌。由于国民生产总值并不是一个准确的衡量权力的指标,如果两国之比的平均数高于80%,就说明两个国家之间权力是平衡的。如果低于80%则说明不平衡。
如果在这一时期结束之前,起初较弱的国家变得比另一国更强大,我们就认为这个国家赶超了另一个国家。