博弈论
上QQ阅读APP看书,第一时间看更新

第3节 纳什均衡

诺贝尔经济学奖获得者萨缪尔森曾经说过:如果你想把一只鹦鹉训练成经济学家,只需要让它掌握两个词语:供给与需求。后来博弈论专家坎多瑞又补充为:想成为经济学家,只懂得的供给与需求还不够,你还需要多掌握一个词,那就是“纳什均衡”。

“纳什均衡”的概念来自纳什的两篇论文《n人博弈中的均衡点》和《非合作博弈》,纳什在论文中介绍了合作性博弈与非合作性博弈的区别,并给出了“纳什均衡”的定义。

“纳什均衡”,简单地说就是多人参加的博弈中,每个人根据他人的策略制定自己的最优策略。所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,那样会降低他的收益。只要没有人做出策略调整,任何一个理性的参与者都不会主动改变自己的策略。这个时候,所有参与者的策略便达成了一种平衡,这种平衡便是“纳什均衡”。

博弈论是应用数学的分支,因此最严谨的“纳什均衡”表达方式需要用数学公式。用数学方式表达的“纳什均衡”的定义:在博弈G={S1,……,Sn:u1,……,un}中,如果由各个博弈方的各个策略组成的某个策论组合(s1*,……,sn*)中,任一博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,……s*i-1,……s*i+1……,……,sn*)的最佳对策,也即ui(s1*,……s*i-1,si*,s*i+1,……,sn*)≥ui(s1*,……s*i-1,sij*,s*i+1,……,sn*)对任意sij∈Si都成立,则称(s1*,……,sn*)为G的一个“纳什均衡”。

如果你的数学不够好,这串数学表达式让你阅读起来有难度的话,请不要担心,本书中主要的表达方式是语言描述加上通俗易懂的表格,此处引用数学表达式,只为严谨。

“纳什均衡”主要用来研究非合作博弈中的均衡,因此也被称为非合作博弈均衡。“纳什均衡”的一个特别之处在于通俗易懂,有人把“纳什均衡”比喻成锅里的乒乓球。如果你把几个乒乓球放到锅里,它们便会向锅底滚去,并在锅底相互碰撞,最后停住不动的时候便达成了一种平衡,这个时候如果动了其中的一个,其他乒乓球便会受影响,如果想要保持住这种平衡,就不能动其中任何一个乒乓球,一直保持下去。这个比喻中,乒乓球代表各参与者的策略,乒乓球最后停留在锅底形成的平衡便是“纳什均衡”。

“囚徒博弈”这个案例前面我们已经介绍过了,它是“纳什均衡”最有名的案例,我们再简单回想一下。甲乙两位盗贼犯罪后被警察抓住,警察对他们进行单独审讯,并分别告诉他们:如果一方坦白招供,另一方抵赖、拒不认罪,那么招供一方可以当即释放,抵赖的一方则要判刑10年;如果双方都认罪,每人判8年;如果双方都拒不认罪,那么警方会因为证据不足,只能判处他们私闯民宅,不能判处他们入室盗窃,每人只判1年。用矩阵图表示如下:

“纳什均衡”中,一方会根据对方的策略制定自己的最优策略。通过上面图表可以看出“囚徒困境”中包含着两个“纳什均衡”:(8,8)和(1,1)。如果罪犯甲选择坦白,罪犯乙的最优策略也是选择坦白;如果罪犯甲选择不坦白,罪犯乙的最优策略也是选择不坦白。其中,两名罪犯都选择不坦白得到的“纳什均衡”是一种好均衡,双方都选择坦白得到的均衡是一种坏均衡。

这个案例中,由于两人被隔离审讯,不能串供,因此都不知道对方的策略。这个时候,受到自保的本能和心理的影响,他们会选择坦白。原因很简单,若是坦白最多坐8年牢,若是不坦白最多坐10年牢。再说了,要是侥幸同伙不坦白而自己坦白的话,就可以当即释放了。这样来看,坦白是最好的选择。其实,他的同伙也是这样想的,也选择坦白,最终两人每人被判8年,警察收到了自己满意的结果。由于信息的不沟通,两人为了自己最大利益的追求放弃了好的均衡,选择了坏的均衡。

根据“纳什均衡”的定义我们可以知道,一场博弈中并不一定只有一个“纳什均衡”,但是均衡之间有好坏之分。比如“囚徒困境”中,两名囚犯同时选择不坦白,得到的均衡便是好的均衡。同时选择坦白,得到的均衡便是坏的均衡。好均衡的结果是双方受益,坏均衡的结果是双方亏损,或者受益没有好均衡那样多。“纳什均衡”中各方策略的制定都是对对方策略的最佳反应,以为自己争取最大利益为目的,好均衡与坏均衡都是如此。

好均衡与坏均衡之间有时候可以转换。古时候,楚国和魏国交界处有一个小县城,城中的居民都以种瓜为生。有一年,天气大旱。魏国一边的村民比较勤劳,白天挑水浇瓜,瓜苗长势喜人;而楚国一边的村民比较懒,所以瓜苗长得又枯又黄。楚国村民看着魏国一边的瓜苗绿油油一片,而自己这边又枯又黄,于是心生嫉妒,夜里组织人到魏国一边去搞破坏,将瓜苗拔出来扔到一边。

魏国的村民知道之后,非常气愤,决定以牙还牙,报复楚国的村民。但是,村长却反对这样做。他认为报复的结局是两败俱伤,最终两个村到了秋后谁也收获不了瓜。最后村长提出了一个想法,那就是以德报怨,晚上组织村民偷偷到楚国一边的村庄田地里,替他们给瓜苗浇水。

村民们按照村长说的去做,最后楚国的村民看到自己田里的瓜苗变绿了,并且知道是魏国的村民晚上来偷偷浇水,都感到非常羞愧。为了表示歉意,楚国村民晚上偷偷到魏国村庄的田地里去替他们重新种上了瓜苗。最终,双方平安无事,从此和谐相处。

我们看一下其中的均衡是如何转换的,我们将这个故事中双方的博弈制作成一个简单的博弈模型。假设选择去损毁对方瓜苗为A策略,而选择去以德报怨,相互帮助为B策略。瓜苗被损毁,所得利益为0,没有被损毁所得利益为10。这样我们就会得到一个简单的博弈矩阵图:

这场博弈中存在两个“纳什均衡”:如果一方选择损毁对方瓜苗,另一方的最优对应策略是选择报复,再一个便是双方同时选择相互帮助。两个均衡的结果也截然相反,第一个均衡的结局是(0,0),两败俱伤,第二个均衡的结果是(10,10),实现双赢。可见双方相互报复的平衡是坏平衡,相互帮助的平衡是好平衡。

很明显,(A,A)的策略组合是一种坏的策略组合,因为它会导致(0,0)的最坏结局。不过,这仍是一种“纳什均衡”。因为对方选择A策略的时候,你的最优选择也是A策略,这个时候形成的策略组合便是“纳什均衡”。同样,(B,B)的策略组合也是“纳什均衡”,(10,10)的结果是双方都想得到的。(A,B)和(B,A)的策略组合不是“纳什均衡”。这也说明一场博弈中可以有多个“纳什均衡”,并且有优劣之分。

故事中楚国最先选择了A策略,按照博弈论的分析,选择A策略是魏国的最好的回应,也就是以牙还牙。这种想法非常符合我们日常的行为习惯,你不让我好过,我也不让你好过。这样选择的结果将会达成一种平衡,不过是坏的平衡。但是魏国人没有选择报复,而是用行动来感化对方,选择了B策略。最终楚国人被感化,也选择了B策略,双方达成了一种新的均衡。这时候的均衡是一种好的“纳什均衡”。

这里面存在一个问题,那就是博弈模型同现实情况之间的差异。理性的博弈分析中,选择报复是最优决策。而现实情况中则要考虑很多其他影响因素,比如以后低头不见抬头见之类的。以德报怨不是博弈分析中的最优决策,但是却可以解决现实问题。相互报复会陷入恶性循环,“冤冤相报何时了”,所以即使不能感化对方,也不应该采取报复。再说,魏国村民之所以会做出以德报怨的决策,肯定是对楚国村民的民风民俗很了解,知道他们会被感化。若是同水火不容的敌人之间,则不会有忍让。这些都是出于对现实情况的考虑。