囚徒困境与纳什均衡
在斯大林时代的前苏联,有一位乐队指挥坐火车前往下一个演出地点。正当他在车上翻看当晚要指挥演奏的作品乐谱时,两名克格勃(政治特务)将他作为间谍逮捕了。他们以为那乐谱是某种密码,这位乐队指挥争辩说,那只是大音乐家柴可夫斯基的小提琴协奏曲,但无济于事。在乐队指挥被投入牢房的第二天,审问者自鸣得意地走进来说:“我看你还是老实交代了吧!我们已经抓住你的朋友柴可夫斯基了,他这会儿正向我们交代呢!你如果再不招就枪毙了你。如果交代了,只判你10年。”
在这个讽刺故事中,那些特务们是想运用博弈论中的囚徒困境理论,达到自己的目的。囚徒困境理论是由数学家图克提出的博弈论中最经典的入门理论。
一位富翁在家中被杀,财物被盗。警方抓到两个犯罪嫌疑人,并从他们的住处搜出被害人家中丢失的财物。但他们声称自己是先发现富翁被杀,然后顺手牵羊偷了点儿东西。于是警方将两人隔离,关在不同的房间进行审讯。警方分别对他们说,由于你们的偷盗罪已有确凿的证据,所以可以判你们1年刑期。但是,如果你单独坦白杀人的罪行,我只判你3个月的监禁,但你的同伙要被判10年刑;如果你拒不坦白,而被同伙检举,那么你将被判10年刑,他只判3个月的监禁;如果你们两人都坦白交代,那么,你们都将被判5年刑。
这两人该怎么办呢?他们面临两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,大家都只被判1年。但由于两人处于隔离的情况无法串供,从每个人都是从利己的假设出发,他们选择坦白交代是最佳策略。如果同伙抵赖,自己坦白交代就能得到很短的监禁——3个月;如果对方坦白了而自己抵赖了,那自己就得坐10年牢,这太不划算了,因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧!所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。
如果他们在接受审问之前能有机会见面好好谈清楚,他们一定会约好拒不认罪,但这还是不行。因为他们很快就会意识到,那个协定也不见得管用。因为一旦他们被分开,审问开始,每个人内心深处那种企图通过出卖别人而换取一个更好判决的想法就会变得非常强烈。这样一来,原本对双方都有利的策略(抵赖)和结局(被判1年刑)还是不会出现。
以上就是博弈论里著名的囚徒困境,我们在生活中经常可以遇到类似的情景,在后面的章节中本书提供了一些解决之道。博弈论还有另外一个经典入门理论——纳什均衡。经济学家萨缪尔森有句名言:“你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。”博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须要再多学一个词,这个词就是“纳什均衡”。“纳什均衡”理论是对博弈论的重大发展,甚至可以说是一场革命。
有这样一个故事:
杰克和吉姆结伴旅游。经过长时间的徒步行走,到了中午的时候,杰克和吉姆准备吃午餐。杰克带了3块饼,吉姆带了5块饼。这时,有一个路人路过,路人饿了,杰克和吉姆邀请他一起吃饭,路人接受了邀请。杰克、吉姆和路人将8块饼全部吃完了。吃完饭后,路人感谢他们的午餐,给了他们8个金币,路人继续赶路。
杰克和吉姆为这8个金币的分配展开了争执。吉姆说:“我带了5块饼,我理应得5个金币,你得3个金币。”杰克不同意:“既然我们在一起吃这8块饼,理应平分这8个金币。”杰克坚持认为每人4个金币,为此杰克找到公正的夏普里。
夏普里说:“孩子,吉姆给你3个金币,因为你们是朋友,你应该接受它。如果你要求公正的话,那么我告诉你,公正的分法是,你应当得到1个金币,而你的朋友吉姆应当得到7个金币。”
杰克不理解。夏普里说:“是这样的,孩子。你们3人吃了8块饼,其中你带了3块饼,吉姆带了5块,一共是8块饼。你吃了其中的1/3,即8/3块,路人吃了你带的饼中的3-8/3=1/3;你的朋友吉姆也吃了8/3,路人吃了他带的饼中的5-8/3=7/3。这样,路人所吃的8/3块饼中,有你的1/3块,有吉姆的7/3块。这样的分法符合纳什均衡的原则,按这样来分,你只能得到1个金币。”经夏普里这样一说,杰克也不再嚷嚷着多分了。最后,杰克与吉姆达成协议,杰克接受了3个金币。
经过双方的博弈,双方的选择符合纳什均衡,因为杰克再多要1个金币,吉姆就不平衡了,而吉姆再多要1个金币,杰克也就不平衡了。所以杰克3个金币、吉姆5个金币是双方的最佳选择。
这个最佳选择就是杰克与吉姆之间博弈的纳什均衡。因为这个选择导致了一个不会令人后悔的结果,无论对方怎么做,双方对于自己的策略都很满意。在这个纳什均衡中,杰克不一定满意吉姆的所得,但是杰克的策略是应付吉姆策略的最优策略(否则,他便只能得到1个金币)。
这就是纳什均衡,现在人们运用这一理论来分析商业竞争和贸易谈判等各种现象,取得了突出的成就。这一理论的原理并不复杂,人人都能理解,在以后的章节中,我们将运用这一原理来分析许多生活中、职场中和商场上的种种现象,并寻求解决之道。