博弈与社会
上QQ阅读APP看书,第一时间看更新

第8章 纳什均衡与囚徒困境博弈(1)

第一节 博弈论的基本概念

如我们已经指出的,博弈论是分析存在相互依赖情况下理性人如何决策的理论工具。本章我们将正式开始介绍博弈论的一些基本概念。博弈论的基本概念包括参与人、行动、信息、战略、支付、均衡和结果。我们来依次介绍。

第一个重要的概念是参与人(players)。参与人是指博弈当中决策的主体,他在博弈中有一些行动要选择以最大化他的效用或收益(支付)。为了叙述的方便,我们一般用“他”泛指参与人,没有性别歧视的含义。参与人可以是生活中的自然人,也可以是一个企业或组织,还可以是一个国家或是国家之间的一种组织(比如北约、欧盟等)。在一个博弈中,只要其决策对结果有着重要影响的主体,我们都把它当做是一个参与人。

按照我们在第一章中的假设,所有的参与人都是理性的,即他追求自身利益的最大化。这一假设对于个人来说,往往容易接受。读者可能存在以下疑问:如果每一个人都是理性的,那么由个人所形成的组织是不是理性的?这一问题涉及经济学中著名的“偏好加总”问题。如我们在第一章已经提到的,对于这一问题做出开创性贡献的是著名经济学家肯尼斯·约瑟夫·阿罗教授。他于1951年出版的《社会选择与个人价值》一书中,提出了“不可能定理”。即在每一个个人对一切可能的选择各有其特定偏好的情况下,要通过投票的办法找出一个与大家的偏好都一致的选择是不可能的。这一结果对于福利经济学、政治经济学的研究有着深远的影响。但对于我们来说,当把一个组织视为一个决策主体时,一般假定其有一个很好定义的目标函数,这样,我们就可以把它当做理性的主体来看待了。当然,在现实生活中,很多组织并没有体现出应有的集体理性。但任何一个组织,如果在关键的决策问题上不能以组织的目标为重,而是以某个个人或某些小团体的利益为重,那么这个组织的生命力就非常有限。

除了一般意义上的参与人,当一个博弈涉及随机因素时,我们往往还引入一个名为“自然”(nature)的虚拟参与人(pseudo-player)。比如,在投资决策中,一项投资能否获利,不仅取决于投资者的选择,还取决于不受投资者控制的随机因素,即俗话所说的“谋事在人,成事在天”。但是,“天”,也就是“自然”这个虚拟的参与人与一般参与人不同的是,它没有自己的支付和目标函数,即它不是为了某一目的才采取行动。

第二个概念是行动(action)。行动是参与人在博弈的某个时点的决策变量。每一个参与人,在轮到他采取行动时,都有多种可能的行动可供选择。比如,打牌时,轮到某人出牌,他可以出黑桃,也可以出方片。所有参与人在博弈中所选择的行动的集合就构成一个行动组合(action profile)。不同的行动组合导致了博弈的不同结果。所以,在博弈中,要想知道博弈的结果如何,不仅需要知道自己的行动,还需要知道对手选择的行动。

与行动相关的另一个重要的问题是行动的顺序(the order of action),即谁先行动,谁后行动。一般来说,参与人的行动顺序不同,结果也往往不同。比如,下围棋时大家都愿意先行,因为先行往往可以带来优势,以致输赢结果不同,所以正式比赛中通常用抓阄的办法决定行动顺序,以示公平。现实中许多博弈的行动顺序是由技术、制度、历史等外生因素决定的。

第三个概念是信息(information)。信息是指在博弈当中每个人知道些什么。这些信息包括对自己、对对方的某一些特征的了解。比如,对方是一个比较容易妥协的人,还是一个比较好斗的人;对方的企业是低成本的还是高成本的。同样,信息也包括了对对方采取的一些行动的了解,即轮到自己行动时,对手在这之前都做了些什么。比如,下棋时,当轮到自己走棋时,对手在这之前是跳马还是拨炮。

在博弈论中,我们借助信息集(information set)来描述某个参与人掌握了多少信息。对于信息集的概念,我们将在第三章结合具体内容来介绍。

在博弈中,如果参与人对其他人的行动的信息掌握得非常充分,我们把这类博弈叫做“完美信息”(perfect information)博弈。如前面提到的下围棋或者是下象棋,当轮到己方行动时,对手在这之前的行动都是可以观察到的,所以,下棋属于完美信息的博弈。如果在完美信息博弈中有自然的参与,则自然的初始行动也会被所有参与人都能准确观察到,即不再存在事前的不确定性了。比如,下棋之前双方要猜子决定谁先行动,那么抓到棋子是白色还是黑色是由自然决定的,但要在下棋之前揭示出来,即自然的行动要让大家都知道。

在博弈中,如果参与人对其他人的特征和类型的信息掌握得充分,我们把这类博弈叫做“完全信息”(complete information)博弈。比如,下棋时,你的对手可能是高手,也可能是臭棋篓子。如果你和他较为熟悉,知道他的水平如何,在这种情况下和他下棋,就是一种完全信息的博弈;如果你和他是第一次下棋,不知道其水平如何,则是一种不完全信息的博弈。对于不完全信息的博弈,往往可以视为有自然参与行动的不完美信息博弈,即由自然来决定对手的类型,但自然的行动选择不是所有的参与人都观察到了。以下棋来说,对方的水平可以视为由“自然”决定的,但对方知道“自然”的决定,而己方并不知道。

博弈中的静态博弈和动态博弈的划分,也是和信息概念相联系的。所谓静态博弈,就是所有的参与人同时行动,且只能行动一次。静态博弈中的“同时”行动,不一定是一个日历性的时间概念,而是一个信息概念,即双方不一定在时间上同时行动,而是指一方行动时不知道对方采取了什么行动。所以说静态是一个信息概念。典型的静态博弈,如“剪刀锤子布”游戏。所谓动态博弈,是说博弈时,一方先行动,一方后行动,且后行动的一方知道先行动一方的选择。下围棋就属于典型的动态博弈。由于动态博弈中参与人轮流行动,所以也称为序贯博弈(sequential game)。在动态博弈中,如果参与人了解对方(包括自然)之前的行动,也知道对方的类型,这一类博弈就称为完全信息动态博弈;如果只是了解对方的行动,不了解对方的类型,则称为不完全信息动态博弈。比如,打扑克时,轮到己方行动时,己方知道对方的行动,但对于对方手里都有些什么牌并不知道,这就是一个典型的不完全信息博弈。中国有句俗话,叫“知人知面不知心”,表明和别人的交往过程实际上也是一种不完全信息的博弈。

第四个概念是战略(strategy)。战略可以理解为参与人的一个相机行动计划(contingent action plan),它规定了参与人在什么情况下该如何行动。战略的这种相机性实际上为参与人选择行动提供了一种规则。比如,在20世纪60年代中国和苏联的关系比较紧张的时候,毛泽东就提出来一个战略,即“人不犯我,我不犯人;人若犯我,我必犯人”。这里边实际上包含两个行动——“我不犯人”和“我必犯人”,并规定了采取这两种行动的具体条件(时机):“人不犯我”和“人若犯我”。对于同样的行动,如果规定的时机不一样,则相应的战略就不一样了。比如,“人不犯我,我就犯人;人若犯我,我不犯人”也是一种战略。还有,“不论人犯我不犯我,我都犯人”以及“不论人犯我不犯我,我都不犯人”都是战略。所以,战略是行动的规则,它要为行动规定时机。

战略要具有完备性,就是说针对所有可能的情况,都要制定相应的行动计划。比如,“人不犯我,我不犯人”并不是一个完整的战略,因为它只规定了“人不犯我”的情况下该如何行动,没有规定“人若犯我”的情形下该如何行动。在现实中,把所有可能的战略或行动计划都制定出来,显然非常困难。因为在现实中会发生什么情况,我们有时的确难以预测。但追求战略的完备,仍然是非常重要的,就像我们常说的“不怕一万,就怕万一”。

第五个概念是支付(payoff)。它是指每个参与人在给定战略组合下得到的报酬。在博弈中,每一个参与人得到的支付不仅依赖于自己选择的战略,也依赖于其他人选择的战略。我们把博弈中所有参与人选择的战略的集合叫做战略组合(strategy profile)。在不同的战略组合下,参与人得到的支付一般是不一样的。博弈的参与人真正关心的也就是其参与博弈得到的支付。支付在具体的博弈中可能有不同的含义。比如,个人关心的可能是自己的物质报酬,也可能是社会地位、自尊心等。而企业关心的可能是利润,也可能是市场份额,或者是持续的竞争力。政府也是这样,可能关心的是国民收入是多少、国内生产总值(GDP)是多少,也可能关心的是政府的财政收入、国家的国际地位。对于参与人的支付理解得不对,对博弈的预测就可能出现失误。这一点对建立博弈模型非常重要。比如在国有企业之间竞争的博弈中,很有可能其老总关心的只是自己的权力,其支付就是权力的大小。如果建一个博弈模型,假设他的支付为企业的利润,这时,预测就会出现失误,因为追求最大化利润的行为和最大化权力的行为是不一样的。

第六个概念是均衡(equilibrium)。博弈中的均衡可以理解为博弈的一种稳定状态(stable state),在这一状态下,所有参与人都不再愿意单方面改变自己的战略。换句话说,给定对手的战略,每一个参与人都已经选择了最优的战略。因此,这样的稳定状态是由所有参与人的最优战略组成的。因此,我们把最优战略组合定义为均衡。

一般来说,在一个博弈中,参与人会有很多个战略,最优战略是给定其他人的战略能够给他带来最大支付的战略。好比上面讲到的中国和苏联的例子中,每方都有四个战略。如果对方采取“人不犯我,我不犯人;人若犯我,我必犯人”这一战略是最优的,则己方采取这一战略也是最优的,此时,双方谁都不愿去改变自己的选择,那么就形成了一个均衡。

需要指出的是,博弈论中的均衡概念和经济学中的“一般均衡”、“局部均衡”等均衡概念有所不同。博弈论中的均衡指的是所有参与人都不再改变自己的战略,该战略组合处于稳定状态;而一般均衡或者是局部均衡指的是一组市场出清的价格,使得市场上的供给和需求相等,市场处于稳定状态。

最后一个概念是博弈的结果(outcome)。它是指参与人和分析者所关心的博弈均衡情况下所出现的东西,如参与人的行动选择,或相应的支付组合等。它的具体含义依上下文而定。例如,我们说的均衡结果,有时是指均衡时每个参与人的战略或行动,有时是指均衡时各方得到多少支付。需要注意的是,我们讲的“结果”是从博弈的理论模型中导出的东西,不一定是现实中实际发生的事情。实际上,博弈分析的目的就是希望借助于理论模型来预测博弈的结果,运用不同的均衡概念导致的结果也会不同。

第二节 囚徒困境博弈

2.1囚徒困境:个人理性与集体理性的矛盾

接下来,我们用这些概念分析一个最简单,也是最重要的博弈——囚徒困境(prisoners'dilemma)“囚徒困境”是社会合作面临的基本问题,包含了丰富的内容,几乎所有的博弈理论都由此发展,可以说我们从始到终都要不断地涉及它。上一章的合作问题就是一个囚徒困境。现实中的囚徒困境许多是多人博弈,我们以二人博弈为例是出于简化的目的,我们的结论适用于多人囚徒困境。假定有两个犯罪嫌疑人共同作案。警察抓住他们以后,分开拘押,并告诉他们:可以选择坦白,或是不坦白;如果一个人坦白,而另一个人不坦白,则坦白的一方会被立即释放,而不坦白的一方被判10年;如果两人都坦白,则会每人各判8年;如果两人都抵赖,因证据不足,则每人在关押1年后释放。那么,这两个犯罪嫌疑人该如何选择呢?

我们看到,这个博弈有两个参与人:犯罪嫌疑人(囚徒)甲和乙;在更大的博弈里我们需要考虑警察的选择,在这个小博弈中我们不考虑警察,而将警察看做制定或执行规则的人。每个人有两个行动:坦白或不坦白;两个人隔离审查,谁都不能观察到对方坦白还是不坦白,因此是一个不完美信息静态博弈。由于不能观察到对方的行动,也就没有办法把自己的选择建立在对方行动的基础上,因而,战略和行动是一回事(在静态博弈中,行动和战略可以交换使用)。这个博弈的支付结构如列代表囚徒甲,行代表囚徒乙,甲的选择在第一列,乙的选择在第一行;矩阵中方框里的两个数字,第一个数字为甲的支付,第二个数字为乙的支付。直接用坐牢的时间代表“支付”当然是一个简单化的处理方法。现实中坐牢的时间与效用之间并不是线性关系,比如说,坐两年牢的痛苦并不是坐一年牢的痛苦的两倍。但这一点并不影响我们的结论。这种描述博弈的方式我们叫标准式(normal form)。