上QQ阅读APP看书，第一时间看更新

第9章纳什均衡与囚徒困境博弈(2)

现在我们来看参与人甲和乙会如何决策。我们假设参与人是理性的，不想坐牢，哪怕是多坐一天也会带来更多的痛苦，因此，他的目标就是能少坐就少坐；我们还假定每个人只关心自己，不关心对方（如果两个囚徒是父子关系或兄弟关系，他们的行为也许会与我们这里的情况不同）。我们先考虑甲的选择，他面对的问题是：如果乙坦白的话，自己坦白判8年，不坦白判10年，那么坦白比不坦白好；如果乙不坦白，自己坦白会被立即释放，不坦白则判1年，坦白还是比不坦白好。因此，对于甲来说，不管对方坦白不坦白，自己的最优选择都是坦白。同样，对乙来说也是一样的。所以，每一个人的最优选择都是坦白。

一般来说，博弈中每个参与人的最优选择依赖于别人的选择，但在上述囚徒困境博弈中，每个人的最优选择与他人的选择无关。这种独立于他人选择的最优战略称为该参与人的占优战略（dominant strategy）。正式地，所谓“占优战略”是指在博弈中参与人的某一个战略，不管对方使用什么战略，只要参与人使用这一战略，都可以给自己带来最大的支付。或者说，参与人的这一战略在任何情况下都优于自己的其他战略。占优战略类似我们常说的“上策”或“上上策”，如“三十六计，走为上策”。在博弈中，如果每一个参与人都有一个占优战略，则他们显然都会选择这一战略，那么，由占优战略组成的战略组合就构成了博弈的占优战略均衡(dominance equilibrium)。

显然在囚徒困境博弈中，坦白是每个参与人的占优战略。两个人都选择坦白也成了这个博弈的占优战略均衡。结果就是两个人都会坦白，各判8年。

但是，就两个囚徒而言，这个博弈中的帕累托最优是“都不坦白”，各坐1年牢。这就是我们讲的个人理性与集体理性的矛盾。尽管对两个人来讲，不坦白是最好的，但是每个人都会选择对自己最优的行动——坦白。结果对两个人都不好。这就回到我们前边讲的，个人理性不一定达到帕累托最优。

对此，我们可以用上一章中提到的“外部性”概念来解释。外部性可以简单理解为一个人的行为给别人所带来的影响。给定甲坦白，乙从不坦白（判10年）到坦白（判8年），可以让自己的刑期减少两年；但同时让甲的刑期从0年增加到了8年。这样，乙的行为不仅给自己带来了好处，还给甲带来了坏处。即乙的行为对甲来说有外部性，而且是不好的外部性，经济学中称为负外部性（negative externality）。类似地，甲的行为也会对乙产生负外部性。我们前面假定，人是理性的，他的目标是个人利益的最大化，而非集体利益的最大化，所以在存在负外部性的情况下，他出于追求自身的利益最大化选择的行动就不可能满足集体利益的最大化。这就导致个人选择和集体理性的矛盾。

囚徒困境又被称为“合作悖论”或“集体行动悖论”，即尽管合作能够给双方带来好处，但双方仍然是不合作。选择不合作是基于个体理性，而选择合作则是基于集体理性。

2.2囚徒困境举例

这种个人理性与集体理性冲突的例子在生活中有很多。比如小孩子的学习负担问题，现在的孩子除了周一到周五的正常上课学习外，还要在周末去学习奥数、英语等等。其实这也是一个囚徒困境。我们可以设想一下，如果所有的学生周末都休息，考上重点中学和重点大学的一定是那些最聪明的孩子。问题是如果你周末休息，别的孩子周末补功课，那么可能别人考上了，你虽然聪明也可能考不上，所以你的最优选择也是周末补功课。结果是，所有的孩子一周7天都在学功课，最后考上重点中学和重点大学的仍然是那些聪明的孩子。竞争带来这种不合理的结果：每个人都忙活，但是最后的结果不一定对大家都好。我国现在的中小学生的学习强度这么高，从社会的角度讲肯定不是最优的。

企业之间的竞争也是一个囚徒困境。2000年6月9日，中国的九家彩电企业在深圳开会，制定了一些彩电型号的最低限价，形成价格同盟。但是，会议过去刚刚三天，6月12日，参加会议的一些企业就在南京等地率先降价，使得价格同盟名存实亡。一般来说，这种结盟是很难维持的。因为，给定你不降价，我先降价，就可以扩大销量，占领更多的市场份额。

类似地，企业做广告也可能是一个囚徒困境。当然，如我们在第九章中将看到的，广告也可以是一个传递产品质量的信号。我们这里的讨论排除了这种情况。做广告成本很高，不一定能给企业带来利润，但为什么大部分企业都做广告呢？假如某个行业有两个企业，如果每个企业都不做广告，各得10单位的利润；如果都做广告，各得4单位的利润；如果一个企业做广告，另一个企业不做广告，做广告的企业就可以赚到12，不做广告的企业只能赚到2。这个博弈的占优均衡，就是两个企业都做广告。因为无论别人做广告与否，你的最优选择都是做广告，最终两个企业的利润都变低了。即便两个企业事前达成一个协议，规定谁都不做广告，这个协议也不会得到遵守。

国与国之间的军备竞赛也与此类似。如果约定每个国家都不发展军备，将资源用于民用产品，对每个国家的国民都更好。但是，给定对方不生产武器，己方生产武器就可以取得军事上的优势；反之，如果对方发展军备，自己不发展的话，就会受到更大的威胁。所以，大家就会都搞军备竞赛。

公共产品（public goods）的供给也存在囚徒困境问题。所谓公共产品是指像国防、道路、桥梁等消费起来不会排斥他人的物品或服务。和公共产品相对应的概念是私人物品（private goods），如食物、衣服、汽车等消费起来具有排他性的物品或服务。一个苹果，若被我吃了，你就吃不到了。这就是消费的排他性。国防、道路、桥梁等公共物品，我消费时，你也可以消费，因此，这些物品没有消费的排他性。但正是这种消费的非排他性，使得个人没有积极性来提供这种产品，每个人都想着别人来提供，自己搭便车（free-riding）。这使得公共产品如果单靠私人来提供的话，会不足，从而使得整个社会的效用下降。因此，对于一个社会来说，如何有效地提供公共产品是公共治理的核心问题。

鉴于公共产品的重要性，下面，我们用修路的例子具体分析一下公共产品的提供问题。假如在一个由甲、乙两个人组成的社会中要修一条路。甲、乙二人都可以选择出力或不出力。如果两个人都出力，可以修好路，则每个人得到4个单位的收益；如果两个人都不出力，则修不成路，每个人得到的收益为零。如果一个人出力，另一个人不出力，则出力的人得不偿失，我们记为-1，不出力的人的收益为5。

在这个博弈里，占优战略均衡是每个人都不提供。即，不论别人提不提供，己方都不提供。由此我们可以预测，在个人自愿基础上的均衡意味着没有公共产品的提供。所以，公共产品的提供一般需要政府使用强制的办法让个人为公共产品提供相应的服务或资金，例如，在现代社会中我们每个人都要交个人所得税，而在古代社会则是很多人都需要服劳役以及兵役等。

2.3囚徒困境的一般形式

以上是几个具体的例子。下面我们给出囚徒困境博弈的一般形式。

博弈的双方都有两个选择：合作和不合作。如果两个人都选择合作，各自得到的支付为T；如果一个人合作另一个人不合作，合作方的支付为S，不合作方的支付为R；如果两个人都不合作，每一方的支付为P。

要使上述博弈成为一个囚徒困境需要满足这样一个条件：R>；T>；P>；S。即：对每个人来说，最好的结果是别人合作自己不合作（R），其次是两人都合作(T)，再次是两人都不合作(P)，最坏的结果是自己合作别人不合作(S)。另外，我们假定T+T>；R+S，即两人合作的总收益大于一人合作、另一人不合作时的总收益。这个条件意味着两人都选择合作是卡尔多—希克斯最优的，即最大化社会总财富。只要满足这两个条件，无论支付的具体数字如何，结果一定是个人理性选择不满足集体理性。

囚徒困境是社会合作面临的最大难题。古今中外，人类社会的许多制度安排（包括法律和社会规范）都是为解决囚徒困境而设计的。前面提到公共财政是解决公共产品供给中的囚徒困境问题，后面我们还会讲到所有权如何解决囚徒困境问题。现在考虑如何借助法律执行的当事人之间的合同解决交易中的囚徒困境。设想甲、乙两人在采取行动之前签订一个合同，合同规定：不合作的一方将受到处罚，罚金为X。再假定双方都相信这个合同能够在法律上得到有效执行。

此时，给定对方合作，己方如果也合作，则双方都得到T；己方如果不合作，对方得到的支付为S，而己方得到的支付为R-X。显然，只要罚金X足够大，使得R-X<；t，那么，每个人的最好选择都是“合作”，双方都选择合作就成为一个均衡，解决了个人理性与集体理性的矛盾。这就是合同的价值。当然，如果当事人不相信合同能够得到有效执行，或者违约处罚的力度不够大（即x<；r-t），我们就又回到了囚徒困境，合作仍然不会出现。

在上述例子中，我们也可以通过对合作一方提供奖励的办法解决囚徒困境。在经济学上，对不合作行为的惩罚等同于对合作行为的奖励，都属于激励制度，尽管在心理学上，奖励和惩罚的效果并不总是等同的。家庭和企业内部有各种各样的奖惩制度，其目的就是解决囚徒困境问题，促进合作。对整个社会来说，往往是通过法律来对不合作行为进行处罚来促进合作。可以说，法律是解决囚徒困境、促进社会合作的重要手段，尽管如我们在第六章和第七章中将看到的，在重复博弈中，许多合作无须借助法律和正式的制度也可以实现。

第三节理性化选择

3.1理性人不选择坏战略

上一节，我们借助囚徒困境博弈阐述了什么是占优均衡。在囚徒困境中，无论别人采取什么行动，每一个参与人都有一个特定的最优选择（占优战略）。也就是说，一个理性的参与人在做决策时，并不需要假定对方也是理性的。对于这样的博弈，我们很容易预测它的结果。但是有些博弈可能是一方有占优战略，另一方没有占优战略，即什么是自己的最优行动依赖于他预测对方会选择什么行动，对方的选择不同，自己的最优行动就不同。此时博弈结果又会怎样呢？下面我们就用“智猪博弈”（boxed pigs game）来分析这个问题。

设想猪圈里有两头猪，一头大猪和一头小猪。在猪圈的一头装有一个按钮，另一头装有食槽。在这头按一下按钮，那头的食槽会有8单位的食物出现。但不管是大猪还是小猪，按动按钮都需要花2个单位食物的成本。如果两头猪一起按，各付2单位食物成本，然后大猪吃到6份食物，小猪可以吃到2份食物，扣除成本后，双方的净收益分别为4和0。如果大猪按、小猪不按，则小猪不付出任何代价就可以吃到3份，大猪按完之后跑回来可以吃到5份，扣除其按按钮的2个单位的成本，大猪的净收益也是3。反过来，如果大猪不按、小猪按的话，大猪可以不付出任何代价就可以吃到7份，小猪则只可以吃到1份，扣除其2单位的成本，则小猪的净收益为-1。如果两头猪都不按，则不付出成本，但也不会有食物吃，净收益都为0。<；/t，那么，每个人的最好选择都是“合作”，双方都选择合作就成为一个均衡，解决了个人理性与集体理性的矛盾。这就是合同的价值。当然，如果当事人不相信合同能够得到有效执行，或者违约处罚的力度不够大（即x<；r-t），我们就又回到了囚徒困境，合作仍然不会出现。

现在的问题是，谁来按这个按钮？先考虑大猪的情况：如果小猪按的话，大猪的最优选择是“等待”（7>；4）；但如果小猪等待的话，大猪的最优选择是“按”(3>；0)。这就和前面所讲的囚徒困境博弈不一样了。在囚徒困境博弈中，每一个参与人都有一个占优战略——不论对方是否坦白，你最好是坦白。但在智猪博弈中，大猪没有占优战略，大猪的最优选择依赖于小猪的选择。所以大猪在做出选择前必须猜测小猪的选择。

那么，小猪会如何选择呢？对于小猪来说，如果大猪按，自己的最优选择是“不按”（3>；0）；如果大猪不按，自己的最优选择仍然“不按”(0>；-1)。这表明小猪选择“不按”是一个占优战略。

那大猪应该怎么办呢？我们前边假定的每一个博弈参与人（大猪或小猪）都是理性的，但并没有假定一方知道另一方也是理性的。显然，小猪在做决策时并不需要假定大猪是理性的，因为无论大猪是否理性，小猪的最优决策都是不按；但大猪的情况不同，即使小猪是理性的，如果大猪不知道小猪是否理性，大猪就没有办法做出选择。

第9章 纳什均衡与囚徒困境博弈(2)

第9章纳什均衡与囚徒困境博弈(2)