从合作的进化到合作的复杂性
一、 引言在当代经济学、政治学、伦理学、人类学和其他社会科学中,甚至在生物学和其他自然科学中,阿克塞尔罗德(Robert Axelrod)教授的“重复囚徒困境博弈计算机程序奥林匹克竞赛”,已经是一件很少人不知晓的理论佳话了。其试验结果,不仅对当代社会科学的许多领域的传统理念都产生了广泛影响和冲击,而且从中引发出来的一系列问题,迄今仍待学术各界进一步探讨和回答。
在具体展开讨论由阿克塞尔罗德所主持设计的“重复囚徒困境博弈”试验结果的理论意义和所引发的问题之前,这里谨对本书作者做简要介绍。阿克塞尔罗德教授1964年获芝加哥大学数学学士,1966年和1969年相继从耶鲁大学获政治学硕士和博士学位。从耶鲁大学毕业后,他曾在加州大学伯克利分校任教,并于1974年转而在密歇根大学(the university of Michigan)执教,现为密歇根大学政治系和福特公共政策学院的“沃尔格林人类理解研究讲座教授”(the Walgreen professor for study of human understanding),以及“阿瑟·W.布罗米奇(Arthur W.Bromage)政治学与公共政策杰出教授”。阿克塞尔罗德的主要著作有:《利益冲突:歧异目标理论以及在政治中的应用》(1970),《认知与选择通论》(1972),《合作的进化》(1984,这本著作已经被翻译为11种文字),《制服复杂性:从科学前沿来审视组织的意义》(2000),以及本书《合作的复杂性:基于参与者竞争与合作的模型》(1997,这本书也已经被翻译为日文、韩文、西班牙文等多国文字)。除此之外,阿克塞尔罗德教授还有数十篇学术论文发表在国际学术期刊或已经出版的文集中。
在上述著作中,最为国际学术界所熟知的还是其《合作的进化》这部名著,而本书则是《合作的进化》的续篇和补充。
二、 问题的提出:人类群体是如何达致合作的?人类社会与其他动物群体的一个重要区别是,人与人之间可以通过运用个人理性而达致某种形式的合作[1](我这里所说的合作,包括诸如劳动与社会分工、专业化,市场交易,合伙和共同经营企业,以及在经济组织、社会团体、政党、政治联盟、各种民间和公益团体中人们的相互协作、交往和协调行动,等等)。合作,能产生“合作剩余”,这应该是经济学的一个常识——尽管没有多少经济学教科书真正讲“合作剩余”这个概念(Moulin, 1995)。人类的相互交往,用现代比较时尚的博弈论术语讲,就是在玩一种“社会博弈”。在人类社会的博弈中,常常会出现一种叫“囚徒困境”的博弈格局。囚徒困境博弈格局表明,若依照当代主流经济学的理论推理假设,有着超理性(hyperrational)的最大化推理的博弈者(players)在许多博弈格局中——按照博弈论中的“无名氏定理”(the Folk Theorem),即使是在有限重复囚徒困境博弈中——也是无法达致合作或言帕累托效率的。
然而,博弈论和经济学的理论预测是如此,但现实情形却是,在任何人类文明社会中,在人与人之间总是存在这样和那样形式的合作,因而阿克塞尔罗德(Axelrod, 1984;罗伯特·阿克塞尔罗德,2007年,第3页)曾认为:“合作现象四处可见,它是文明的基础。”这样就出现了一个经济社会理论所必须回答的问题:在每个人都具有自私动机的情况下,人们怎样才能通过社会博弈而自发产生合作?换言之,人类合作能否从有着自己利益最大化推理逻辑的行动者的行为互动中自发产生?或更直接一点说,人们到底是如何跳出这处处存在且没完没了的种种“囚徒困境”迷局的?
从人类经济社会思想史的理论进展来看,尽管“囚徒困境博弈”的理论程式到1950年才被人们设计出来[2],但如何克服个人短期和眼前的私利而通过合作最大化人类的社会福祉这一问题,却在很早就被各学科的一些重要思想家们认识到并且提了出来。从西方社会思想史来看,在这方面最为人们所熟知的例子是霍布斯(Thomas Hobbes, 1943)的“利维坦”和卢梭(JeanJacques Rousseau, 1968)的“社会契约理论”。[3]按照霍布斯的理论思路,没有一个作为利维坦的机构(可大致理解为“作为国家政府的集权体制机构”),人类合作将是不可能产生的,因此,一个强权的政府机构是必要的。而按照卢梭的理论路径,一些自由人之间相互交往会产生“公意”(general will),在公意存在的情况下,通过某种“社会契约”,就可以达致并维持某种人类社会或社群之间的某种合作。
然而,问题到这里并没有结束。即使我们同意作为一个巨大利维坦的政府机构对促进社会合作有某种作用,但是反过来的问题是:如何避免一个庞大的政府官僚科层制所可能带来的效率损失?于是,通过霍布斯的利维坦形式而达致的社会合作,就有一个通过这种方式所达致的“合作剩余”与官僚科层制可能带来的“效率耗散”的替代关系。
卢梭的社会契约论,就其本质而论,也是想解决人类社会的合作问题,但卢梭的政治主张和理论路径,也不是没有问题的。这里尤为值得指出的是,尽管卢梭批评了霍布斯的君主专制主张,提出在人类最初处于“自然状态”时是人人自由平等的这种天赋人权观,并主张在此理论基础上通过自由人的公意签立契约而建立国家,设立政府,并在政府的治理之下实现社会合作,但卢梭的社会理论本身却以共和制为形式的专制独裁的理论为导向,从而在现实中,受卢梭和其他法国启蒙思想家的社会哲学和政治主张的影响,法国在18世纪末和19世纪上半叶也确实发生了一场场腥风血雨的大革命。今天究其理论逻辑,我们会发现,按照卢梭的政治理论,集体意志(公意)是维系契约社会的纽带,没有对公共利益的维护,没有集体意志(公意)的运用,契约就等于一纸空文,人类社会的合作也难以发生和存续,由此卢梭认为,公民有义务把公意看成是自己的意志。在此情况下,若有任何人拒不服从公意,全体就要逼迫他服从公意。因而,根据卢梭的人民主权论的这一逻辑推理,如果某个人或某个组织代表公意,那么这个人或组织就有权力来统驭、控制和指导整个社会。这样一来,一种代表公意的专制集权统治就自然而然地内在于这一政治推理逻辑之中了。由此看来,与其说卢梭的社会契约论是想达致在人人自愿基础上的某种社会合作,而毋宁说他是主张一些人以“集体理性”和“社会公意”为名义实行个人的专制独裁。就此而论,尽管卢梭从词语上不同意霍布斯的君主专制政体主张,但在通过控制社会来强制人们进行某种社会选择这一问题上,二者却可谓是殊途同归。
概言之,从霍布斯到卢梭,西方古典社会契约论的一个基本理论假设是,一个具有共同利益的群体会在某种外在强制力量和社会安排下为实现共同利益而采取集体行动,并且这要么导致君主专制,要么达致共和独裁。[4]然而,这是人类社会所命定的必然选择吗?人类是否必须接受霍布斯的“利维坦”或卢梭的“人民主权者”的专制统治,并只有在此统治之下才能实现某种形式的社会合作?换句话说,哈耶克(Hayek, 1988)在《致命的自负》一书中所提出的人类合作的扩展秩序(the extended order of human cooperation)能否自发生成和自然成长?如果能,其自发生成和自然扩展的外在条件和社会机制又是什么?这些问题追问到最后,都会牵涉到人类内部——或具体到个人之间——合作的原初发生机制和维系机理问题。从这个角度来审视问题,今天我们也许会发现,在20世纪由美国著名经济学家曼瑟尔·奥尔森(Mancur Olson)所诘问的人类社会的“集体行动的逻辑”,实际上是把人类合作如何可能这类霍布斯和卢梭式的老问题,在现代社会科学的话语语境中重新提了出来,并把它还原到人与人之间的个人博弈的层面上来进行考察。
这里不妨让我们再简单回顾一下奥尔森的集体行动的逻辑。奥尔森认为,每一个个人都是理性的“经济人”,个人不仅在个体活动中,而且在集体活动中,其目的都只有一个,那就是不断追求个人利益的最大化。正是由于这种个人的自利倾向,使得集体行动在大的集团中成为一种不可能的事。因为,集团越大,就越难克服集体行动中的“搭便车”行为:人人都想分享集体行动的成果,但不愿分担集体行动的成本。奥尔森集体行动的逻辑所面临的问题,显然也是人类社会中经常且时时存在的多人囚徒困境博弈中众人的“合作选择”如何成为可能的问题。面对这个古老、简单而似乎又万古常新的理论问题,奥尔森的推理逻辑如此单刀直入却又不乏深刻:“除非一个集团中人数很少,或者除非存在强制或其他某些特殊手段以使个人按照他们的共同利益行事,有理性的、寻求自我利益的个人不会采取行动以实现他们共同的或集团的利益。”(Olson, 1980;曼瑟尔·奥尔森,1995年,第2页)很显然,奥尔森只不过是在20世纪复述了一遍霍布斯和卢梭所提出的老问题。
霍布斯和卢梭的思想,以及后来奥尔森的工作,在人类思想史上无疑均有重要的历史意义,且在人类数百年的现代化进程中,霍布斯的利维坦和卢梭的社会契约论,均能在欧洲社会的历史上存在过的政治和社会体制中发现其理论的现实体现(incarnation)。然而,人类社会的合作,远比这两位古典政治哲学家眼中的政治体制问题要宽泛得多。从国与国之间的军备竞赛、国际贸易、关税协定的制定和恪守,到商家双头(duopoly)和多头(oligopoly)竞争、合伙制与现代科层制公司内部的运作和管理、公共物品的提供,再到邻里相处、朋友相交、夫妻之道、家庭维系……这时时、处处、事事似乎都充满着超越囚徒困境博弈的合作选择问题,以至于可以认为,没有人与人之间的合作,没有人们对单次或重复囚徒困境博弈均衡选择的超越,就没有人类的文明社会。但是,反过来说,没有人们面临诸种囚徒困境博弈格局中的“均衡”选择,即“背叛”,人类社会中的国家、法律、礼俗、规范、组织和种种制度,在很大程度上也就成为多余的了。那么,人类社会究竟是如何在一些囚徒困境博弈的格局中达致相互合作的?在面临着随时出现的囚徒困境博弈格局时,作为一个理性(包括康德哲学意义上的纯粹理性和实践理性,或更确切说,即包括新古典主流经济学理论话语中的个人利益和效用的最大化的理性行为,也包括休谟、斯密和康德道德哲学中的道德情感和定言命令)的行动者,在面临着一个又一个的重复和不重复囚徒困境博弈格局时,对你来说最好的选择是什么?或言你应该如何选择?
这种种问题,既是些理论问题,也是些现实问题;既是牵涉到人类社群组织和社会政制的深层发生机制和原理,也牵涉到个人层面的道德标准和个人选择的优化问题。这一系列看似简单但实际上又十分复杂、且看似表层但实际上是社会和社群构成基础的深层问题,就被阿克塞尔罗德在20世纪80年代连续设计进行的三次“囚徒困境重复博弈计算机程序奥林匹克竞赛”所充分展示出来了。
三、 阿克塞尔罗德“囚徒困境重复博弈计算机
程序奥林匹克竞赛”结果及理论意义这里,首先让我们介绍一下阿克塞尔罗德所指导进行的三次重复囚徒困境博弈实验的模型设计和试验结果,然后再综合评价这三届博弈实验结果的理论意义。在下一小节中,我们再来讨论阿克塞尔罗德的《合作的复杂性》这本著作的主要理论贡献及其现实意义。
稍熟悉现代博弈论的读者会知道,囚徒困境(the Prisoner Dilemma,简称“PD”)一般有以下简单直观的形式:C(合作)D(背叛)C(合作)R, RS, TD(背叛)T, SP, P图1囚徒困境博弈的一般形式其中,按照英文字符所代表的缩略词的一般意义来解释:R,对博弈双方合作的报酬支付报酬(reward for mutual cooperation);T,博弈者采取背叛策略的诱惑(temptation to defect);S,对策略选择中自己采取合作策略,而对方采取背叛策略的“愚蠢策略”(suckers payoff)的回报;P,对双方背叛的惩罚(punishment for mutual defection)。根据上述定义,囚徒困境博弈的一般方程式为:PD=T>R>P>S。根据囚徒困境的这种一般形式,为了简便计算,阿克塞尔罗德为其博弈竞赛设计了一个如图2所示的有限次重复博弈的支付矩阵。
策略iC(合作)D(背叛)策略jC(合作)D(背叛)R=3, R=3S=0, T=5T=5, S=0P=1, P=1图2阿克塞尔罗德重复囚徒困境博弈支付矩阵设计好了这个支付矩阵后,阿克塞尔罗德为他的整个重复囚徒困境博弈奥林匹克锦标赛的目标设计了这样一个标准:找出在这种重复囚徒困境博弈“锦标赛”中哪种策略是最好的(即能收到的总支付最大)。为了达到这一点,阿克塞尔罗德想出了一个聪明的办法,就是向博弈论专家们发出广告,让有兴趣参赛的博弈论专家和一些社会科学家各自设计一种自认为是最好的策略,来参加他的“博弈策略”比赛。在第一次实验中,阿克塞尔罗德共收到14个“策略参赛者”。为了便于评判,阿克塞尔罗德增加了自己的第15个策略程序“随机策略”,也就是“没有策略的策略”:随机地出“合作”(C)和“背叛”(D)牌。阿克塞尔罗德还把他的“随机策略”作为“比赛”的底线。因为,如果有哪一个策略比“随机策略”的总得分还差,那一定是糟糕透了的策略。
在决定这15个参赛策略后,阿克塞尔罗德把它们都转换成同一种电脑语言并在一台大型计算机中让它们一一对垒。既然有15种策略,就有225场“比赛”,其中包括每个策略程序也与自己对垒(同一种策略程序对垒)。阿克塞尔罗德还让每场“比赛”玩200个回合。通过这225场200个回合的博弈“比赛”,看哪一个策略参赛者能获得的支付最多。如图2所示,支付的点数是这样计算的:在每次博弈中,相互合作(C, C),得支付R=3;此方背叛对方合作(D, C),得T=5;互相背叛(D, D),双方都受到惩罚,得P=1;此方合作对方背叛(C, D),得被欺骗的回报S=0。在此博弈弈局安排中,理论上只有一种策略组合能达15000分,那就是15场200个回合的比赛全是(D, C)(每个回合全得T=5分)。反过来,如全部(C, D),得最低总分S=0。但这两个极端不会发生。因为没有一个策略会在对方全出背叛牌(D)时而自己全出合作牌(C)。实际上,任何一种策略平均每场“比赛”所得支付不会超过600。这是两个参赛程序在一场200个回合对抗赛中全出合作牌(C, C)自己所能得的分数。所以,阿克塞尔罗德把600分作为基准分,而将所有参赛策略的比赛成绩换算成这一分数的百分比。
由于阿克塞尔罗德的“重复囚徒困境博弈”比赛的参赛程序全由博弈论专家所提供,有些参赛程序看来设计得非常精明。但是,令人出乎预料的是,第一届博弈对抗赛的冠军竟是在所有策略中最简单(除了阿克塞尔罗德本人的“随机策略”外)且表面上看来非常“憨直”的“一报还一报”(tit for tat,简称“TFT”)策略。这个策略是由加拿大多伦多大学的著名博弈论心理学家阿纳托尔·拉波波特(Anatol Rapoport)教授提供的。“一报还一报”策略非常简单:第一回合取“合作”,然后每一回合都重复对手的上一回合的策略。
阿克塞尔罗德第一届“重复囚徒困境博弈”比赛的结果出来了:“一报还一报”得第一,平均得分504.5,即600基准分的84%。其他8个好的策略中,得基准分介于28.6%和83.4%之间。令人跌破眼镜的是,在阿克塞尔罗德的第一次“博弈比赛”中,最失败的就是最复杂的那一个策略。
为什么简单平直的“一报还一报”策略会获胜?道理似乎很复杂,也似乎很简单。当遇到“合作对手”时,它永远合作。即使遇到同类“一报还一报”时,由于大家都是从合作开始,也就保持了永远合作,故所得“合作剩余”也总是最高。当“一报还一报”遇到“狡诈的”策略程序时,你怎么来,我就怎么往,一报还一报,故也不会比你差。从中,阿克塞尔罗德得出一个基本结论:好的策略的标准是永远不先背叛。“一报还一报”就是一个例子。它会背叛,但只是在报复时才如此。这似乎令人相信,“善于合作的好人”在社会博弈的长期比赛中得分结果会很好,而不管遇到的博弈对手是“善良型”的,还是“诡诈型”的。阿克塞尔罗德的第一届博弈大赛也表明,好的策略必须有三个特征:“善良”、“宽恕”和“不嫉妒”。所谓“善良”,就是从不主动地先背叛。所谓“宽恕”,就是指很容易忘却对方过去的“错误”。一旦对方“改过”,即以合作对待。这两点“一报还一报”均具备,故占这次博弈比赛的榜首。所谓“不嫉妒”,就是当别的参赛者“赚”得和你一样多时,你仍然很高兴,而且乐于同时从“庄家”那里赢钱。很显然,“一报还一报”也是一种不嫉妒的策略。因为,它从来没有真正地赢过任何一场比赛。由于“一报还一报”从不先背叛,它从来没有在任何一场比赛中比对手获得的支付更高。它似乎倾向于与对手分享高分。相比之下,博弈论常识中由所谓“倒推法”所推出的“有限重复囚徒困境博弈不会产生合作,而只有无限重复的囚徒困境博弈才会产生合作”的“俗定理”,就是基于一种“嫉妒”心理而进行推理的。[5]因为,它总是假定每个博弈者总想取得比对手更高的支付分数。事实上,“俗定理”所展示的是最理性、最精明但也是“最愚蠢”(聪明反被聪明误)的博弈推理。这种博弈推理所导致的重复囚徒困境博弈的比赛结果肯定是最差的,因为它导致了永远背叛的策略对(D, D)。实际上,这种倒推推理的逻辑也表明,新古典和博弈论理性最大化理论阵营所派出的博弈参赛者只是短视地看到它在与对手进行博弈,而没有意识到它是与对手一起在与“庄家”博弈。[6]
在第一届重复囚徒困境博弈对抗赛的结果出来之后,阿克塞尔罗德又组织了第二届比赛。这次比赛他共收到62套策略程序,加上他的“没有策略的策略”即“随机策略”,共63套策略参赛。第二次,每局比赛也不再是每场200个回合了,而是更多,因而基准分数也不再是600了。在征集第二届博弈对抗赛的参赛策略时,阿克塞尔罗德还把第一届比赛结果告诉了所有第二届博弈对抗赛的参赛策略程序设计者,并附有他自己的分析,说明为什么善良及宽恕的策略会在第一届博弈对抗赛中表现得如此优秀。但第二届博弈对抗赛的策略设计者们在收到第一届对抗赛的结果和阿克塞尔罗德的说明后,在设计他们的新参赛策略时有两种思路。一派博弈论专家根据“善有善报”推理送来了善良且宽恕的策略。著名的生物学家、演化博弈论的奠基人约翰·梅纳德·史密斯(John Maynard Smith)甚至还送来“超级宽恕”程序“两怨还一报”的策略。另一派专家则推想到大多数同仁会进一步提供善良和宽厚的策略而反其道而行之,设计出更加“细腻”、“精明”、“狡诈”和“不友善”的策略,以旨在“整整”这些来参赛的“愚笨好人(策略)”。
然而,第二届对抗赛结果出来了:狡诈的策略再度失败,阿纳托尔·拉波波特的“一报还一报”策略再度获胜,并且得了基准得分的96%。而且,“善良”的策略再次普遍表现得比“狡诈”的策略好。在前15名中只有一个不是“善良”的策略,最后15名中只有一个不是“狡诈”策略。不过,史密斯的“两怨还一报”策略在这一届博弈对抗赛没有赢。这可能是因为它过于“善良”和“宽厚”因而被那些“精明”而“诡诈”的策略所“无情捕杀”。阿克塞尔罗德从第二届博弈对抗赛中甚至还发现,“一报还一报”这一“善良”、“憨直”的策略之所以获胜,是因为参加第二届博弈对抗赛的策略大部分是“善良型”的。他还推断到,如果参赛的其他62个策略全是“诡诈型”的,“一报还一报”策略可能就不会赢了。因为,它也会像史密斯的更加“善良”和“宽厚”的“两怨还一报”策略一样被狡诈的策略“群狼”所“捕杀”。
事实上,阿克塞尔罗德后来又进行了他的第三届“重复囚徒困境博弈对抗赛”。但这次他并没有征集新的策略,而是在改变电脑程序后,让第二届的所有参赛策略重新进行比赛。在第三届对抗赛中,阿克塞尔罗德主要沿着演化博弈(或译进化博弈)的理论思路,想从对抗赛中找出史密斯的“演化稳定策略”(Evolutionary Stable Strategies, ESSs)。为了达到这一目的,阿克塞尔罗德先将63套策略程序存入电脑,让其作为演化博弈的第一代。在第一代之间的对抗赛结束时,每一种策略的胜利不是由所得分数来评判,而是根据由每种策略产生多少“后代”来决定。当一个子代生成后,有些策略逐步变得稀少起来,有些甚至完全消失了,而其他策略则变得多了起来。经过1000代,策略的比例和环境都不再改变而达到了一定程度的稳定。第三届“重复囚徒困境演化博弈”的实验结果表明,几乎所有“诡诈型”策略都在200代左右完全消失了。“一报还一报”策略仍然在第三届演化博弈比赛中表现得很出色。其他5种“善良而不懦弱”的策略也和“一报还一报”同样成功。阿克塞尔罗德最后还发现,当演化博弈竞赛中所有“诡诈”策略都绝迹后,已无法区分“一报还一报”和别的“善良型”策略,也无法区别出任何两种竞赛策略之间的差异了。因为,他们全是“善良”型的,即只会向对方出“合作牌”。对于这一演化博弈结果,生物学家道金斯(Dawkins, 1989, p.233)感慨地归纳道:“即使有自私的基因掌权控制,好人仍能得好报!”
阿克塞尔罗德这三届“重复囚徒困境的博弈比赛”说明了什么?通过三届重复囚徒困境的博弈比赛,阿克塞尔罗德有如下发现:第一,善良的策略总不首先背叛。他的研究发现,这一点非常容易理解:当两个善良的策略相遇时,它们每一步都得到回报R,这是一个单个博弈者与另一个采用相同策略的个体相遇所能得到的最高平均分,当然,如果过于宽容和善良,就会被那种只图“贪占便宜”的“小人”策略所欺负。就“一报还一报”策略而言,它本质上是善良的,但遇到对方背叛,它马上报复,又不“可欺”,故在几次比赛中总是获最高分。[7]第二,阿克塞尔罗德的研究甚至发现,友谊对于基于回报的合作的产生并不是必要的;在合适的环境下,合作甚至可以在敌对者之间产生。[8]第三,在阿克塞尔罗德(Axelrod, 1984;罗伯特·阿克塞尔罗德,2007年,第126页)的《合作的进化》一书中,它还提出了非常容易被读者忽视的一个重要的理论发现:“合作的基础不是真正的信任,而是关系的持续性。当条件具备了,对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作。从长远来说,双方建立稳定的合作模式的条件是否成熟比双方是否相互信任来得重要。”这一重要的理论发现,也许探及了市场经济——或言哈耶克眼中的人类合作的扩展秩序——自发生成和不断成长的最深层的运作原理?把以上理论发现总结出来,阿克塞尔罗德(Axelrod, 1984;罗伯特·阿克塞尔罗德,2007年,第14页)总结道:“这些竞赛的结果表明,在适当的条件下,合作确实能够在没有集权的自私自利者的世界中产生。”阿克塞尔罗德的这一重复囚徒困境博弈试验似乎部分推翻了霍布斯的“利维坦”和卢梭的在社会“公意”下专制独裁统治的必要性和必然性,并部分证明了哈耶克所预见的人类合作的扩展秩序可以自发生成的可能性!换言之,在一个小的社会范围中,没必要一定要制造出来一个独裁者,才能达致人们之间的社会合作。通过其研究计算,阿克塞尔罗德(Axelrod, 1984;罗伯特·阿克塞尔罗德,2007年,第101页)甚至得出这样一个重要的政治学结论:“政府不能只靠威胁来统治,而必须使大多数被统治者自愿服从。”作为一个博弈论政治学家,阿克塞尔罗德的这一理论发现实际上在某种程度上证否了霍布斯“利维坦”以及卢梭的“人民公意”形式集权专制的必要性这一思想。
四、 从合作的自发生成到合作的复杂性阿克塞尔罗德的三届“重复囚徒困境博弈奥林匹克竞赛”的实验结果发表后,在国际学术界产生了巨大的反响,学术各界的专家们也不断把他们的意见和改进方案反馈给阿克塞尔罗德的试验小组。阿克塞尔罗德本人随后的研究也发现,人类社会中的现实博弈,要比他的三届“重复囚徒困境博弈奥林匹克竞赛”的参赛程序和计算机博弈试验复杂得多。因为,尽管所有的参赛程序都设计得非常精巧,但是这毕竟是一个个设计好了固定模式(“行动方式”是设计好了且固定不变的)的博弈程序,而不是有着道德情感、七情六欲,且人与人之间相互学习、相互影响,并会随着自己情绪和经历的变化而不断改变着自己策略选择的活生生的人。与纷繁复杂的人类社会博弈格局和社会博弈动态相比,那几十种固定不变的设计好了的选择程序,显然还是不够的。于是,在其后的研究中,阿克塞尔罗德开始放松一些假设条件,考虑进去了一些新的变量,并增设了一些新的程序。经过进一步的计算机博弈实验,阿克塞尔罗德还讨论了每一种参赛程序及其博弈结果在现实中的应用及其可能的社会现实的“理论映照”。于是,就有了《合作的复杂性》这本书。
为了进一步考察研究博弈中合作(请注意我这里不是指“合作博弈”)“策略对”的生成、维系、破坏以及恢复机制,以使之更接近于人类社会和社群中的现实情景,阿克塞尔罗德(Axelrod, 1997, chap.2)对合作复杂性的研究,首先考虑的就是噪声的处理问题。他这样处理显然是有道理的。因为,在他的所有计算机博弈竞赛程序设计中(甚至在现实中——如果在人类社会的现实博弈真有“一报还一报”这种性格的人存在,并且始终坚持这种做人哲学的话),锦标赛冠军“一报还一报”策略的一个严重问题,就是它对系统中每一种噪音都很敏感。比如说两个“一报还一报”策略碰到一起,如果其中一个偶尔犯了一次错误,那么,它无意中的错误所引发的相互惩罚,就会无穷无尽,从而再也不可能重新建立并维持一个相互合作的模式。为了使其博弈竞赛更接近于社会现实,在新的试验中,阿克塞尔罗德建议采用两种办法来处理这种反馈效应:第一种是对被欺骗的反应不再那么强烈;第二种方法是,对于无意中采用背叛策略的一方来说,要及时注意到对方的反应,不必要再次背叛。除此之外,在具体做法中,国际学术界的其他专家还提供了三种处理噪音的方法:(1)为互惠策略增加宽容:允许一定比例的背叛的博弈者不受到惩罚,很多学者认为这是处理噪音的一个好办法。(2)为互惠策略增加“悔悟”:如果自己无意之中选择了背叛,并引来对手的背叛,那么自己就不要再背叛下去了。这可以使得整个博弈迅速地从某一方的错误中摆脱出来。其主要思想是,如果自己无意的背叛遭到对方的报复,那么自己不能被激怒。(3)设计一种“巴甫洛夫方法”,这一设计方案的基本精神是,在双方使用背叛策略太多因而大家的收益均偏低时,博弈双方会自动调整到合作的策略选择。
在做了上述策略修正和改进后,阿克塞尔罗德的研究小组重新进行竞赛试验和“生态模拟”,新的实验结果表明:(1)“仁慈的”一报还一报策略是一个极为有效的策略,特别当博弈对手并没有故意使用噪音时;(2)当对手故意使用噪音时,带有悔悟的一报还一报策略是更为有效的策略,因为它能够促使博弈双方迅速回到互惠合作,又能避免被对方欺骗、利用、“欺负”和“恶意占便宜”的风险;(b)巴甫洛夫策略并不具备稳健性(robust,一译“鲁棒性”)。通过对上述试验结果进行理论分析,阿克塞尔罗德(Axelrod, 1997, p.38)得出了以下结论:“即使在噪音存在的时候,互惠性仍然起着作用,但这要取决于两点:要么存在宽容(当别人莫名其妙地采取背叛策略后仍给予合作的机会),要么存在悔悟(某方采取背叛策略后,当别人也以背叛来报复时,该方即重新开始采用合作策略)。但是巴甫洛夫策略(当得到一个极差的结果以后改变自己原来的选择)并不具备稳健性。”
在为处理噪声问题而做了上述三种处理和改进博弈试验之后,阿克塞尔罗德的试验小组又进一步考虑了多人博弈中合作机制的生成和维系问题,其中首先考虑的就是规范博弈(the norms game)[9]问题,并进一步把他的试验结果运用到现实社会事例——如军备竞赛、商业运作等等——的理论分析中去了。他还进一步研究了规范和元规范(metanorm)(即不仅是要惩罚那些违背规范的人,还要惩罚那些看到有人违背规范但自己却没有采取行动来惩罚违背规范者的人)、支配、威慑、社会认同、成员身份以及法律等等因素在维系人类合作中的作用。通过对规范生成机制的计算机模拟试验,阿克塞尔罗德(Axelrod, 1997, pp.64—65)发现:“首先,冒失(boldness,这里是指在有着某种规范的群体贸然采取违反规范的策略选择。——引者注)的水平显著下降,因为人群充满着惩罚心理。接着,惩罚的数量也慢慢地逐渐下降了,因为惩罚背叛者要付出一定的执行成本,因而对此缺乏直接的激励。一旦惩罚在人群中变得罕见,冒失的平均水平又会有所回升,这样规范就完全崩溃了。而且,崩溃是一个稳定的结果。”这一试验结果,迫使阿克塞尔罗德的研究小组考察那些能够维持规范局部稳定的机制,即元规范博弈。通过对元规范博弈的策略演化过程的模拟试验,阿克塞尔罗德发现,在元规范博弈情况下,博弈者有很强的激励来增加他们的报复水平,以免被别人惩罚,这就导致冒失水平大幅度下降了。于是,他的一个结论是,元规范可以提高和维持人群中的合作水平。
在引入噪声考量和规范博弈之后,阿克塞尔罗德似乎没在技术上和程序上对重复囚徒困境博弈进行进一步的改进试验,反而是回到社会现实和人类历史的分析中,对商业运作、政党联盟、国际贸易、国际政治、军事和外交、工业技术标准的制定、前两次世界大战中的军事联盟的形成,甚至文化的传播等等诸如此类的与人类合作生成和运作相关联的一些现实的历史事件进行了理论分析和建模考察。阿克塞尔罗德的这些后续研究,无疑均有一些理论和现实意义,但是显然已经不是他先前的重复囚徒困境博弈模型计算机模拟试验在技术路线上进行的理论探讨了。
阿克塞尔罗德的后续研究,显然是富有成效的,且具有一定理论与现实意义。然而,他的迄今为止的研究,仍然存在着一些问题。其中最根本的问题是,仅从成本收益和博弈支付最大化的路径来模型化人类社会的政治、军事、外交,尤其是文化的生成和演化问题,这种分析路径本身,就值得怀疑。当然,这样说并不是要完全否定建立在科学主义和实证主义思想方法论基础之上的当代主流经济学的这类“建模路径”(approach of modeling)的理论进步意义。正如阿克塞尔罗德(Axelrod, 1997, p.169)在本书“第七章文化的散布”中所自我辩解的那样,“一种甚为简单的模型的好处是,不用把问题弄得太过复杂,就能把新事物整合到理论分析中去”。对那些欲求在当代主流经济学(以及近些年开始在西方时尚起来的“主流政治学”)的理论话语世界中经由某种数学建模和“规范化分析”来达致所谓的“科学的”或“实证的”结果的理论路径而言,这类简单模型处理无疑是必要的。但是,如果能够预先省悟到这种理论路径的优长和局限,对当代哲学、社会科学以及经济学的未来发展来说,也许不无助益。
五、 余论人与人之间的合作,是人类文明社会的基础。在对人类合作生发机制及其道德基础的理论探源方面,阿克塞尔罗德教授及其合作者们的研究已经取得了丰硕的成果,并对经济学、政治学、社会学、人类学、伦理学、法学,甚至生物学等学科产生了广泛且深远的影响。这种重复囚徒困境计算机程序博弈竞赛,已把人类合作机制的一些原初动因和内在机理较清晰地揭示了出来,从而使以前人们的一些模糊的经验感悟和直观猜测(如中文谚语“善有善报,恶有恶报,不是不报,时候未到”),现在已经成了计算模型所证实的精确计算结果,这显然是人类认识史上的一个巨大理论进步。因而,这一研究不仅对经济学(尤其是其中的福利经济学和制度经济学)和政治学中的社会选择理论有着重要的理论意义,而且对伦理学或言道德哲学,也提出了一些值得深思的问题。再宽泛一点说,从阿克塞尔罗德的重复囚徒困境计算机程序博弈竞赛的结果中,每个处在现代社会的理性的个人,也可以从中学到一些如何做人和如何进行社会选择的道理,或最起码可以从中获得某些启示。
最后需指出的是,由于笔者对这种重复囚徒困境计算机程序博弈竞赛在国际上的新近发展动态没有跟踪研究,因而不敢贸然对这一研究领域里的最新理论突破和仍然存在的局限妄加评论。仅就这本书所展示的研究成果和理论进展而言,笔者认为,尽管阿克塞尔罗德及其合作者们在对规范和元规范的生成机制的研究中已经对多人博弈进行了理论思考,并建构了一些初步的计算机“仿真”模型,但迄今为止,他们的重复囚徒困境博弈比赛,还主要是在两人博弈——即一对一博弈安排中进行的。当然,他们这样做,是可以理解的。因为,从抽象层面看,即使任何一个行动者在大多数情况下是在一个多人的社会环境中进行社会选择(或言行动),但是在纯理论分析和数量模型建构层面上来看,把一个事实的多人博弈还原为一个博弈者与另一个博弈者进行博弈,在某种程度上来说尽管不能完全展示现实的全貌,但至少也能反映一定的社会运行机理,且从目前的分析技术来看,大致也只能这样处理。然而,这种抽象处理显然还有一定的理论局限。假定每一轮重复囚徒困境博弈竞赛均是一种二人博弈的格局,如果引入其他博弈者也是这一轮博弈的旁观者且下一轮会进入场地,与现届博弈中的赢者或输者进行比赛,如果再假定——而实际情况恰恰是——每一个博弈者把对手在前一轮与他人博弈中的表现留在自己的记忆中并据此作为自己博弈策略选择的重要考量,并在此基础上再与对手进行博弈(在现实中进行打交道),整个重复博弈结果可能会发生很大变化。另外,更为麻烦的是,现实的人是有理性、有记忆、易受他人影响、有着复杂的情感并且会随着个人情绪的波动或生理周期、生活环境的变化而不断变化着自己“社会博弈选择”的活生生的人,要模型化一个计算机程序容易,但要模型化现实中活生生的人和人与人之间的复杂的和不断变化着的行为互动,无疑是十分困难的。还有,在现实中,每个人都可能对另一个人有某种先入之见或观察偏见,这往往又会直接影响到与对手打交道时的博弈选择。如果把这种种复杂的但又是现实的因素考虑进来,就会发现,尽管在揭示人类是如何达致合作的社会机制方面,阿克塞尔罗德的重复囚徒困境博弈计算机仿真试验已经取得了很大的进展。但是,相对于纷纭复杂和活生生的人类生活世界而言,这种计算机程序形式的博弈试验研究,在模拟展示和不断接近描绘人类社会的真实图景方面,显然还有很长的路要走。[10]
韦森2007年9月于复旦大学
注 释:
[1] 其他动物社会如蚂蚁、蜜蜂和其他动物群体也能基于其生物生存的本能达致某种分工和合作。故这里我使用“理性的合作”一词,这一特定概念是指人们通过理性思考——或用当代主流经济学的一个通用术语“理性计算”——而达致合作。人类的理性合作一般是要通过语言交流——有些则进一步通过书写文字契约的签订——来进行的,这一点尤为重要,但往往被许多研究人类合作行为的学者所忽略了。
[2] 从当代经济社会思想史上来看,“囚徒困境”博弈最早是由美国两位博弈论学者梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷瑟(Melvin Dresher)于1950年在美国兰德公司的一项博弈论研究中所发现并最先将之程式化的,但当时他们还没有使用这一术语。接着,美国的另一位叫艾伯特·塔克(Albert Tucker)的学者在向斯坦福大学的心理学家介绍梅里尔·弗勒德和梅尔文·德雷瑟的这一研究成果时,最先使用了“the prisoners dilemma”(囚徒困境)这一术语。
[3] 卢梭曾明确指出:“由于契约的结果,他们的处境确实比起他们以前的情况更加可取得多;他们所做的并不是一项让渡(an alienation),而是一件有利的交换,也就是以一种更美好的、更稳定的生活方式代替了不可靠的、不安定的生活方式,以自由代替了天然的独立,以自身的安全代替了自己侵害别人的权力,以一种社会联合保障其不可战胜的权利代替了自己有可能为别人所制胜的强力。”(Rousseau, 1968, p.77)。
[4] 这一点在卢梭(Rousseau, 1968, p.83)的《社会契约论》中得到了明确的表述:“个人有责任使他们的意志服从他们的理性;必须教会公众认识到什么是合宜的。这种公众启蒙,将产生一个认识的统一(a union of understanding),从而在一个社会体中把各方带入完美的和谐,并使整体最为强大。因而,法律的提供者(lawgiver——一译“立法者”)就是完全必须的了。”看!在公意的名义下实行专制独裁的政治逻辑,就是这样被卢梭赤裸裸地表达出来!也许毋庸赘言,读者会发现,在20世纪人类社会历史中所出现“中央计划经济”的深层运作逻辑,原来在18世纪就被卢梭如此明确地说出来了。
[5] 这种倒推法的论辩逻辑是这样的:假如两个“极理性”和“非争第一”的对弈者要进行“重复囚徒困境博弈”的对抗赛,如果对抗赛是有限的——假如100个回合,他们会推理到,这最后第100回最好是背叛,因为即使对方想采取“一报还一报”的策略,也无法再“还”了。结果第100回必然是(D, D)。但这样一来,第99个回合也成了不重复的比赛,并且在第99个回合中的“理性选择”也应该是背叛。依此往回推,第98、 97、 96……直到第1个回合。结果,这种“极端最大化”的倒推推理的结果将是全部有限重复博弈的博弈双方均取“不合作”的策略选择。因而,新古典和博弈论的理性最大化的推论结果只能是“只有无限的重复囚徒困境博弈才会产生合作”,因为它没有“最后”。由此我们也可以看出,只有“理性最大化”而没有任何道德感的社会将是一个多么可怕的社会!
[6] 从这里也可以看出人类社会“囚徒困境”博弈的更深一层的含义。“囚徒困境”实质上并不是陷入这种环环相扣的博弈安排中的“囚徒们”在博弈,而是他们在与“庄家”(“payoff”的“支付者”)博弈。如果真把它认作是弈者自己的博弈的话,那即是在“庄家”为“囚徒们”所设计的博弈安排中人的理性与道德的博弈,也是人的理性的自我博弈。一句话说完,人类社会中“囚徒困境”是人作为人的自我博弈:人能否自我超越?从宗教神学意义上来说,囚徒困境博弈看似人与人之间的博弈,但实际上却是人与上帝的博弈。
[7] 正如阿克塞尔罗德(Axelrod, 1984;罗伯特·阿克塞尔罗德,2007年,第36页)所言:“一报还一报的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作;它的清晰性使它容易被对方理解,从而引出长期的合作。”这里提这样一个似乎与阿克塞尔罗德的博弈论理论研究似乎无关的问题:这一结果是否也向人们昭示了一些做人的道理?
[8] 为了说明和验证这一理论发现,阿克塞尔罗德举出了第一次世界大战中英军和德军在对垒时的“自己活,也让别人活”的例子。实际上,在战争中善待俘虏以及在目前国际上不使用地雷、细菌和化学武器等等战争公约,实际上也是在一定博弈格局中敌对者之间有限合作的例子。
[9] 阿克塞尔罗德(Axelrod, 1997, p.47)对规范的理解是:“在给定的社会环境中,个人如果总是依照某一特定方式行动,并且看到不遵循这种方式行动的人就给予惩罚,那么规范就存在了。”
[10] 本书第二章在讨论元规范时,阿克塞尔罗德的考虑显然是如何把他的重复囚徒困境博弈试验结果的理论分析推进到更贴近人类真实世界,尽管出于技术困难,他的团队好像在这方面没有取得多大技术上的进展(而非技术的分析,国际学术界已有大量的研究成果了,并有了许多深刻的论文和大量专著)。在拓展其理论模型以接近人类真实世界情形的努力中,他们做了两方面的工作:“(1)为了分析这种规范博弈,我决定避免使用经典博弈理论中的理性假设。大量改变规范的经验性的例子告诉我,当人们在复杂环境中做出选择时,人们往往使用试错法而不是完全理性的计算。幸运的是,我有一种有效的工具来研究策略环境中的试错学习。我需要做的就是把过去研究两人囚徒困境中使用的基因算法改编后用于这个新的模型中去(参见第一章)。(2)规范博弈的研究结果表明,我需要另一种机制来描述规范的出现,并证明它的稳定性。我把这种机制称为‘元规范’(metanorm)。元规范不仅是要惩罚那些违背规范的人,还要惩罚那些没有惩罚违背规范者的人”(Axelrod, 1997)。
参考文献
Axelrod, Robert, 1970, Conflict of Interest: A Theory of Divergent Goals with Applications to Politics, Chicago: Markham.
Axelrod, Robert, 1972, Framework for a General Theory of Cognition and Choice, Berkeley, CA: University of California Press.
Axelrod, Robert(ed.), 1976, Structure of Decision(Princeton, NJ: Princeton University Press Axelrod, Robert, 1984, The Evolution of Cooperation, New York: Basic Books. 罗伯特·阿克塞尔罗德著,吴坚忠译:《合作的进化》(第二版),上海:上海人民出版社2007年版。
Axelrod, Robert, 1997, The Complexity of Cooperation: AgentBased Models of Competition and Collaboration, Princeton, NJ: Princeton University Press.
Axelrod, Robert, 2000, Harnessing Complexity: Organizational Implications of a Scientific Frontier, with Michael D. Cohen, New York: Free Press.
Dawkins, R., 1989, The Selfish Gene, Oxford: Oxford University Press.
Hayek, F.A., 1988, The Fatal Conceit: the Errors of Socialism, Chicago: The University of Chicago Press.
Hobbes, Thomas, 1651/1943, Leviathan, Oxford: Oxford University Press.
Rousseau, JeanJacques, 1968, The Social Contract, tran. by Maurice Cranston, New York: Penguin Books.
Moulin, Herve, 1995, Cooperative Microeconomics: A GameTheoretic Introduction, Princeton, N.J.: Princeton University Press.
Olson, Mancur, 1980, The Logic of Collective Action: Public Goods and the Theory of Groups, Cambridge, Mass.: Harvard University Press.
曼瑟尔·奥尔森著,陈郁等译:《集体行动的逻辑》,上海三联书店、上海人民出版社1995年版,第2页。