上QQ阅读APP看书，第一时间看更新

第8章纳什均衡与囚徒困境博弈(1)

第一节博弈论的基本概念

如我们已经指出的，博弈论是分析存在相互依赖情况下理性人如何决策的理论工具。本章我们将正式开始介绍博弈论的一些基本概念。博弈论的基本概念包括参与人、行动、信息、战略、支付、均衡和结果。我们来依次介绍。

第一个重要的概念是参与人（players）。参与人是指博弈当中决策的主体，他在博弈中有一些行动要选择以最大化他的效用或收益（支付）。为了叙述的方便，我们一般用“他”泛指参与人，没有性别歧视的含义。参与人可以是生活中的自然人，也可以是一个企业或组织，还可以是一个国家或是国家之间的一种组织（比如北约、欧盟等）。在一个博弈中，只要其决策对结果有着重要影响的主体，我们都把它当做是一个参与人。

按照我们在第一章中的假设，所有的参与人都是理性的，即他追求自身利益的最大化。这一假设对于个人来说，往往容易接受。读者可能存在以下疑问：如果每一个人都是理性的，那么由个人所形成的组织是不是理性的？这一问题涉及经济学中著名的“偏好加总”问题。如我们在第一章已经提到的，对于这一问题做出开创性贡献的是著名经济学家肯尼斯·约瑟夫·阿罗教授。他于1951年出版的《社会选择与个人价值》一书中，提出了“不可能定理”。即在每一个个人对一切可能的选择各有其特定偏好的情况下，要通过投票的办法找出一个与大家的偏好都一致的选择是不可能的。这一结果对于福利经济学、政治经济学的研究有着深远的影响。但对于我们来说，当把一个组织视为一个决策主体时，一般假定其有一个很好定义的目标函数，这样，我们就可以把它当做理性的主体来看待了。当然，在现实生活中，很多组织并没有体现出应有的集体理性。但任何一个组织，如果在关键的决策问题上不能以组织的目标为重，而是以某个个人或某些小团体的利益为重，那么这个组织的生命力就非常有限。

除了一般意义上的参与人，当一个博弈涉及随机因素时，我们往往还引入一个名为“自然”（nature）的虚拟参与人（pseudo-player）。比如，在投资决策中，一项投资能否获利，不仅取决于投资者的选择，还取决于不受投资者控制的随机因素，即俗话所说的“谋事在人，成事在天”。但是，“天”，也就是“自然”这个虚拟的参与人与一般参与人不同的是，它没有自己的支付和目标函数，即它不是为了某一目的才采取行动。

第二个概念是行动(action)。行动是参与人在博弈的某个时点的决策变量。每一个参与人，在轮到他采取行动时，都有多种可能的行动可供选择。比如，打牌时，轮到某人出牌，他可以出黑桃，也可以出方片。所有参与人在博弈中所选择的行动的集合就构成一个行动组合（action profile）。不同的行动组合导致了博弈的不同结果。所以，在博弈中，要想知道博弈的结果如何，不仅需要知道自己的行动，还需要知道对手选择的行动。

与行动相关的另一个重要的问题是行动的顺序（the order of action），即谁先行动，谁后行动。一般来说，参与人的行动顺序不同，结果也往往不同。比如，下围棋时大家都愿意先行，因为先行往往可以带来优势，以致输赢结果不同，所以正式比赛中通常用抓阄的办法决定行动顺序，以示公平。现实中许多博弈的行动顺序是由技术、制度、历史等外生因素决定的。

第三个概念是信息(information)。信息是指在博弈当中每个人知道些什么。这些信息包括对自己、对对方的某一些特征的了解。比如，对方是一个比较容易妥协的人，还是一个比较好斗的人；对方的企业是低成本的还是高成本的。同样，信息也包括了对对方采取的一些行动的了解，即轮到自己行动时，对手在这之前都做了些什么。比如，下棋时，当轮到自己走棋时，对手在这之前是跳马还是拨炮。

在博弈论中，我们借助信息集（information set）来描述某个参与人掌握了多少信息。对于信息集的概念，我们将在第三章结合具体内容来介绍。

在博弈中，如果参与人对其他人的行动的信息掌握得非常充分，我们把这类博弈叫做“完美信息”（perfect information）博弈。如前面提到的下围棋或者是下象棋，当轮到己方行动时，对手在这之前的行动都是可以观察到的，所以，下棋属于完美信息的博弈。如果在完美信息博弈中有自然的参与，则自然的初始行动也会被所有参与人都能准确观察到，即不再存在事前的不确定性了。比如，下棋之前双方要猜子决定谁先行动，那么抓到棋子是白色还是黑色是由自然决定的，但要在下棋之前揭示出来，即自然的行动要让大家都知道。

在博弈中，如果参与人对其他人的特征和类型的信息掌握得充分，我们把这类博弈叫做“完全信息”（complete information）博弈。比如，下棋时，你的对手可能是高手，也可能是臭棋篓子。如果你和他较为熟悉，知道他的水平如何，在这种情况下和他下棋，就是一种完全信息的博弈；如果你和他是第一次下棋，不知道其水平如何，则是一种不完全信息的博弈。对于不完全信息的博弈，往往可以视为有自然参与行动的不完美信息博弈，即由自然来决定对手的类型，但自然的行动选择不是所有的参与人都观察到了。以下棋来说，对方的水平可以视为由“自然”决定的，但对方知道“自然”的决定，而己方并不知道。

博弈中的静态博弈和动态博弈的划分，也是和信息概念相联系的。所谓静态博弈，就是所有的参与人同时行动，且只能行动一次。静态博弈中的“同时”行动，不一定是一个日历性的时间概念，而是一个信息概念，即双方不一定在时间上同时行动，而是指一方行动时不知道对方采取了什么行动。所以说静态是一个信息概念。典型的静态博弈，如“剪刀锤子布”游戏。所谓动态博弈，是说博弈时，一方先行动，一方后行动，且后行动的一方知道先行动一方的选择。下围棋就属于典型的动态博弈。由于动态博弈中参与人轮流行动，所以也称为序贯博弈（sequential game）。在动态博弈中，如果参与人了解对方（包括自然）之前的行动，也知道对方的类型，这一类博弈就称为完全信息动态博弈；如果只是了解对方的行动，不了解对方的类型，则称为不完全信息动态博弈。比如，打扑克时，轮到己方行动时，己方知道对方的行动，但对于对方手里都有些什么牌并不知道，这就是一个典型的不完全信息博弈。中国有句俗话，叫“知人知面不知心”，表明和别人的交往过程实际上也是一种不完全信息的博弈。

第四个概念是战略(strategy)。战略可以理解为参与人的一个相机行动计划（contingent action plan），它规定了参与人在什么情况下该如何行动。战略的这种相机性实际上为参与人选择行动提供了一种规则。比如，在20世纪60年代中国和苏联的关系比较紧张的时候，毛泽东就提出来一个战略，即“人不犯我，我不犯人；人若犯我，我必犯人”。这里边实际上包含两个行动——“我不犯人”和“我必犯人”，并规定了采取这两种行动的具体条件（时机）：“人不犯我”和“人若犯我”。对于同样的行动，如果规定的时机不一样，则相应的战略就不一样了。比如，“人不犯我，我就犯人；人若犯我，我不犯人”也是一种战略。还有，“不论人犯我不犯我，我都犯人”以及“不论人犯我不犯我，我都不犯人”都是战略。所以，战略是行动的规则，它要为行动规定时机。

战略要具有完备性，就是说针对所有可能的情况，都要制定相应的行动计划。比如，“人不犯我，我不犯人”并不是一个完整的战略，因为它只规定了“人不犯我”的情况下该如何行动，没有规定“人若犯我”的情形下该如何行动。在现实中，把所有可能的战略或行动计划都制定出来，显然非常困难。因为在现实中会发生什么情况，我们有时的确难以预测。但追求战略的完备，仍然是非常重要的，就像我们常说的“不怕一万，就怕万一”。

第五个概念是支付(payoff)。它是指每个参与人在给定战略组合下得到的报酬。在博弈中，每一个参与人得到的支付不仅依赖于自己选择的战略，也依赖于其他人选择的战略。我们把博弈中所有参与人选择的战略的集合叫做战略组合(strategy profile)。在不同的战略组合下，参与人得到的支付一般是不一样的。博弈的参与人真正关心的也就是其参与博弈得到的支付。支付在具体的博弈中可能有不同的含义。比如，个人关心的可能是自己的物质报酬，也可能是社会地位、自尊心等。而企业关心的可能是利润，也可能是市场份额，或者是持续的竞争力。政府也是这样，可能关心的是国民收入是多少、国内生产总值（GDP）是多少，也可能关心的是政府的财政收入、国家的国际地位。对于参与人的支付理解得不对，对博弈的预测就可能出现失误。这一点对建立博弈模型非常重要。比如在国有企业之间竞争的博弈中，很有可能其老总关心的只是自己的权力，其支付就是权力的大小。如果建一个博弈模型，假设他的支付为企业的利润，这时，预测就会出现失误，因为追求最大化利润的行为和最大化权力的行为是不一样的。

第六个概念是均衡(equilibrium)。博弈中的均衡可以理解为博弈的一种稳定状态（stable state），在这一状态下，所有参与人都不再愿意单方面改变自己的战略。换句话说，给定对手的战略，每一个参与人都已经选择了最优的战略。因此，这样的稳定状态是由所有参与人的最优战略组成的。因此，我们把最优战略组合定义为均衡。

一般来说，在一个博弈中，参与人会有很多个战略，最优战略是给定其他人的战略能够给他带来最大支付的战略。好比上面讲到的中国和苏联的例子中，每方都有四个战略。如果对方采取“人不犯我，我不犯人；人若犯我，我必犯人”这一战略是最优的，则己方采取这一战略也是最优的，此时，双方谁都不愿去改变自己的选择，那么就形成了一个均衡。

需要指出的是，博弈论中的均衡概念和经济学中的“一般均衡”、“局部均衡”等均衡概念有所不同。博弈论中的均衡指的是所有参与人都不再改变自己的战略，该战略组合处于稳定状态；而一般均衡或者是局部均衡指的是一组市场出清的价格，使得市场上的供给和需求相等，市场处于稳定状态。

最后一个概念是博弈的结果（outcome）。它是指参与人和分析者所关心的博弈均衡情况下所出现的东西，如参与人的行动选择，或相应的支付组合等。它的具体含义依上下文而定。例如，我们说的均衡结果，有时是指均衡时每个参与人的战略或行动，有时是指均衡时各方得到多少支付。需要注意的是，我们讲的“结果”是从博弈的理论模型中导出的东西，不一定是现实中实际发生的事情。实际上，博弈分析的目的就是希望借助于理论模型来预测博弈的结果，运用不同的均衡概念导致的结果也会不同。

第二节囚徒困境博弈

2.1囚徒困境：个人理性与集体理性的矛盾

接下来，我们用这些概念分析一个最简单，也是最重要的博弈——囚徒困境（prisoners'dilemma）“囚徒困境”是社会合作面临的基本问题，包含了丰富的内容，几乎所有的博弈理论都由此发展，可以说我们从始到终都要不断地涉及它。上一章的合作问题就是一个囚徒困境。现实中的囚徒困境许多是多人博弈，我们以二人博弈为例是出于简化的目的，我们的结论适用于多人囚徒困境。假定有两个犯罪嫌疑人共同作案。警察抓住他们以后，分开拘押，并告诉他们：可以选择坦白，或是不坦白；如果一个人坦白，而另一个人不坦白，则坦白的一方会被立即释放，而不坦白的一方被判10年；如果两人都坦白，则会每人各判8年；如果两人都抵赖，因证据不足，则每人在关押1年后释放。那么，这两个犯罪嫌疑人该如何选择呢？

我们看到，这个博弈有两个参与人：犯罪嫌疑人（囚徒）甲和乙；在更大的博弈里我们需要考虑警察的选择，在这个小博弈中我们不考虑警察，而将警察看做制定或执行规则的人。每个人有两个行动：坦白或不坦白；两个人隔离审查，谁都不能观察到对方坦白还是不坦白，因此是一个不完美信息静态博弈。由于不能观察到对方的行动，也就没有办法把自己的选择建立在对方行动的基础上，因而，战略和行动是一回事（在静态博弈中，行动和战略可以交换使用）。这个博弈的支付结构如列代表囚徒甲，行代表囚徒乙，甲的选择在第一列，乙的选择在第一行；矩阵中方框里的两个数字，第一个数字为甲的支付，第二个数字为乙的支付。直接用坐牢的时间代表“支付”当然是一个简单化的处理方法。现实中坐牢的时间与效用之间并不是线性关系，比如说，坐两年牢的痛苦并不是坐一年牢的痛苦的两倍。但这一点并不影响我们的结论。这种描述博弈的方式我们叫标准式（normal form）。

第8章 纳什均衡与囚徒困境博弈(1)

第8章纳什均衡与囚徒困境博弈(1)