生活中的博弈论（二）

杂谈分类：经济知识

博弈论普及书中容易出错的一个问题。应该说，对局者采用优势策略在对方采取任何策略时，总能够显示出优势。围棋则是对弈双方相继按照一先一后次序行动的博弈。对于一人一步的相继行动的博弈，每个参与者都必须向前展望或预期，估计对手的意图，从而倒后推理，决定自己这一步应该怎么走。

这是一条线性的推理链：“假如我这么做，他就会那么做———若是那样，我会这么反击”，后面的步骤依此类推。也就是说，你怎么走棋，完全取决于对手的上一招。这在博弈论上叫做“倒推法”。

在动态博弈中，存在明显的马太效应，也就是说凡是拥有较少的，连他仅有的那一点点也夺过来；凡是多的，就加给他，让他更多。比如在围棋上，就有“一招不慎，满盘皆输”的谚语，当然我们也要应用马太效应原理，在获得优势的情况能够保持优势，扩大优势，直至最后成功。

而在同时行动的静态博弈里，没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。在这种情况下，互动推理不是通过观察对方的策略进行，而是必须通过看穿对手的策略才能展开。

要想做到这一点，单单假设自己处于对手的位置会怎么做还不够。即便你那样做了，你只会发现，你的对手也在做同样的事情，即他也在假设自己处于你的位置会怎么做。

因此，每一个人不得不同时担任两个角色，一个是自己，一个是对手，从而找出双方的最佳行动方式。与一条线性的推理链不同，这是一个循环，即“假如我认为对方认为我认为……”。

这样来看，定式是一系列纳什均衡的累计直至局部达到稳定的一种变化，直到一方认为可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被验证并长期积累而成。

因此在动态博弈中，纳什均衡的要义在于：即使在对抗条件下，双方可以通过向对方提出威胁和要求，找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥协，甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominantstrategy)，即无论对方作何选择，这一策略始终应优于其它策略。

从爱情故事谈起：优势策略

“原地高天，堪叹古今情难尽；痴男怨女，可怜风月债难偿。”

我们来先看欧·亨利的小说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的妻子和丈夫，很是穷困潦倒。除了妻子那一头美丽的金色长发，丈夫那一只祖传的金怀表，便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦，他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利益，他们愿意奉献和牺牲自己的一切。

话说明天就是圣诞节了，小两口都是身无余钱。为了让爱人过得好一点，每个人还是想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表，买了一套漂亮发卡，去配妻子那一头金色长发。妻子剪掉心爱的长发，拿去卖钱，为丈夫的怀表买了表链和表袋。

最后，到了交换礼物的时刻，他们无可奈何地发现，自己如此珍视的东西，对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西，竟成了无用之物。出于无私爱心的利他主义行为，结果却使得双方的利益同时受损。

欧·亨利在小说中写道：“聪明的人，送礼自然也很聪明。大约都是用自己有余的物事，来交换送礼的好处。然而，我讲的这个平平淡淡的故事里，两个住公寓的傻孩子，却是笨到极点，彼此为了对方，白白牺牲了他们屋檐下最珍贵的财富。”

从这段文字看，欧·亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨，单从利益的角度来解读。我们假定，他们每个人，有一个“毫不利己，专门利人”的偏好系统，毫不考虑自身利益，专门谋求别人的幸福。

这样，个人选择付出还是不付出，只看对方能不能得益，与自己是否受损无关。以这样的偏好来衡量，最好的结果自然是自己付出而对方不付出，对方收益增大；次好的结果是大家都不付出，对方不得益也不牺牲；再次的结果是大家都付出；最坏的结果是别人付出而自己不付出，靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结果的评价：第一种结果给3分，第二种结果给2分，第三种结果给1分，最后那种给0分。

不难看出，无论对方选择付出，还是选择不付出，个人自己的最佳选择都是付出。然而这并不是对大家都有利的选择。事实上，大家都选择不付出，明显优于大家都选择付出的境况，这就达到了上文提到的纳什均衡。

实际上，这里的例子有一个占优策略均衡。通俗地说，在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。

因此，占优策略均衡一定是纳什均衡。在这个例子中，妻子选择不付出，也就是不剪掉金发对于妻子来说是一个优势策略，也就是说妻子不付出，丈夫不管选择什么策略，妻子所得的结果都好于丈夫。同理，丈夫不卖掉怀表对于丈夫来说也是一个优势策略。

再举个常见的例子：一名篮球前锋和队友在篮下面对着对方的一个后卫时，形成了二打一的局面，该前锋可以选择直接投篮，也可以选择传球给队友，根据经验，传球过人的成功率更大，那么传球就是该前锋的优势策略。即某些时候它胜于其他策略，且任何时候都不会比其他策略差。

如果一个球员具有这样一种策略，无论其他球员怎么做，这个策略都会高出一筹，那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略，他的决策就会变得非常简单，只要直接采用该策略而完全不必考虑对手的应对策略。

还有一个要注意的问题是，采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好，这是很多

比如就这个例子来说，就妻子来说，她采用不付出的策略，无论丈夫付出或不付出，妻子的不付出策略总是占有优势。丈夫的优势策略也是一样。但是，妻子选择不付出的最坏结果是1，选择付出的最好结果是3，很明显，妻子的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出一筹。

反之，劣势策略则是指在博弈中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略，劣势策略是我

房地产开发博弈、警察捉小偷与混和策略们在日常生活中不可以选择的行动。劣势策略是与优势策略相对应的概念，笔者这里就不多做介绍。

实际上，在每个参与人都有优势策略的情况下，优势策略均衡是非常合乎逻辑的。一个优势策略优于其他任何策略，同样，一个劣势策略则劣于其他任何策略。

假如你有一个优势策略，你可以选择采用，并且知道你的对手若是有一个优势策略他也会照办；同样，假如你有一个劣势策略，你应该避免采用，并且知道你的对手若是有一个劣势策略他也会规避。

但遗憾的是，并不是所有博弈都有优势策略，哪怕这个博弈只有两个参与者。实际上，优势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则，但这些规则却并不适用于大多数现实生活中的博弈。

来看这样一个房地产开发博弈的例子。假定北京市的房地产市场需求有限，Ａ、Ｂ两个开发商都想开发一定规模的房地产，但是市场对房地产的需求只能满足一个房地产的开发量，而且，每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下，无论是对开发商Ａ还是开发商Ｂ，都不存在一种策略完全优于另一种策略，也不存在一个策略完全劣于另一个策略。

因为，如果Ａ选择开发，则Ｂ的最优策略是不开发；如果Ａ选择不开发，则Ｂ的最优策略是开发；类似地，如果Ｂ选择开发，则Ａ的最优策略是不开发；如果Ｂ选择不开发，则Ａ的最优策略是开发。这样就形成了一个循环选择。

根据纳什均衡含义就是：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。

这个博弈的纳什均衡点不止一个，而是两个：要么A选择开发，B不开发；要么A选择不开发，B选择开发。在这种情况下，A与B都不存在优势策略，也就是A和B不可能只要选择某一个策略而不考虑对方的所选择的策略。实际上，在有两个或两个以上纳什均衡点的博弈中，其最后结果难以预测。在房地产博弈中，我们无法知道，最后结果是A开发B不开发，还是A不开发B开发。

再来看这样一个警察捉小偷博弈的例子。某个村庄上只有一名警察，他要负责整个村的治安。小村的两头住着两个全村最富有的村民A和B，A、B分别需要保护的财产为2万元、1万元。整个小村某一天来了个小偷，要在村中偷盗A和B的财产，这个消息被警察得知。

因为分身乏术，警察一次只能在一个地方巡逻；而小偷也只能偷盗其中一家。若警察在某家看守财产，而小偷也选择了去该富户家，就会被警察抓住；若警察没有看守财产的富户家而小偷去了，则小偷偷盗成功。

一般人会凭着感觉认为，警察当然应该看守富户A家财产，因为A有2万元的财产，而B只有1万元的财产。实际上，对于警察的一个最好的做法是，警察抽签决定去A家还是B家。

因为A家的财产是B家的2倍，小偷自然光顾A家的概率要高于B家，不妨用两个签代表A家，比如如果抽到1、2号签去A家，抽到3号签去B家。这样警察有2／3的机会去A家做看守，1／3的机会去B家做看守。

而小偷的最优选择是：以同样抽签的办法决定去A家还是去B家实施偷盗，只是抽到1、2号签去A家，抽到3号签去B家，那么，小偷有l／3的机会去A家，2／3的机会去B家。这些数值是可以通过联立方程准确计算出的，笔者这里就不给出具体的数学计算过程了。

细心的读者会发现，警察捉小偷博弈与前面所举的两个博弈案例有一个很大的差别，就是用到了概率的知识，警察与小偷没有一个一定要选择某个策略的纳什均衡，而只有选择某个策略是多少几率的纳什均衡。

在博弈论中，可以选择出某个策略的纳什均衡，这个策略叫做纯策略。

用专业的话来说，所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略均衡点。

所谓混合策略是指参与者采取的不是惟一的策略，而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。而这个博弈没有纯策略纳什均衡点，而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的混合策略选择。

最常见混和策略就是猜硬币游戏。比如在足球比赛开场，裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的，概率应该都是1/2。那么，猜硬币游戏的参与者都是1/2的概率选择正与反，这时博弈达到混和策略纳什均衡。

再比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡，对每个小孩来说，自己采取出“剪”、“布”、还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大，那么这个对弈者在游戏中输的可能性就增大。因此，每个小孩的最优混合策略是采取每个策略的可能性是l／3。在这样的博弈中，每个小孩各取三个策略的1／3是纳什均衡。

由此可见，纯策略是参与者一次性选取的，并且坚持他选取的策略。而混合策略是参与者在各种备选策略中采取随机方式选取的。

在博弈中，参与者可以改变他的策略，而使得他的策略选取满足一定的概率。当博弈是零和博弈时，即一方所得是另外一方的所失时，此时只有混合策略均衡。对于任何一方来说，此时不可能有纯策略的占优策略。

位置博弈的策略

有这么一个大家都很熟悉的现象，那就是在每个大大小小的城市街道上，经常见到一些地段上的商店十分拥挤，形成一个繁荣的商业中心区，但另一些地段却十分冷僻，没什么商店。

更有意思的是，往往同类型的商家总是聚集在比较近的地方，比如肯德基、麦当劳之间总是紧紧相邻。再如超市现象，前两年有很多人对超市的布局发表了一些议论。因为有人注意到，如果在一条街上有2～3家超市的话，这几家超市经常会“相依为邻”，选址离得很近，倘若它们稍微分散地布置于街上，无疑对市民的购物提供相当的便利，因此他们认为超市“拥挤”在一起属于资源浪费。

类似的事情也发生于国内各省级电视台的节目播放。很多电视迷会发现，大部分电视台总是将最精彩的节目放在相同的时间段，甚至有些时候是在相同时间段播放类似的节目，比如你播“快乐大本营”，我就播“超级总动员”；你播“玫瑰之约”，我就播“单身男女”。人都说文人相轻，电视台也是这么相煎太急。

博弈论能够对这个现象作出科学的解释。首先对一个简单的博弈模型进行叙述：

假设有条完全笔直的公路，连接城市A到城市B之间的交通。这条公路上每天行驶着大量的车辆，并且车流量在公路上是均匀分布的。假设有两家快餐店，我们不妨假设为靠高速公路起家的麦当劳与肯德基，它们要在这条公路上选择一个位置开设快餐，招揽来往车辆。为了能够更加清晰地说明这个博弈，我们不得不画一张图。

再对该模型作一个合乎逻辑的假定：通常情况下，车辆总是乐意到距自己最近的快餐店购买食物。根据这个原则，从资源的最佳配置来看，麦当劳、肯德基应该分别开在1/4、3/4处是最优。

在这种均匀散布的情况下，每家快餐店都拥有1/2的顾客量，同时对于开车的人们总体来说，这种策略的选择，车辆到快餐店的总的距离最短。

然而，人生不如意事十之八九，天并不总能遂人之愿。肯德基与麦当劳都是百年老店，自然是精明之至，从经济学上就是具有经济理性。他们只要手段合法，总是希望自己的生意尽可能地红火，至于其他人的生意的好坏则与己无关。

出于这种理性，肯德基分店经理肯定会想到：如果我将店铺从3/4点处向左移一点，那么1/4点之间的中点不再是1/2点处，而是位于1/2点的靠左边一点。这等于说，这一移位，肯德基将从麦当劳夺取部分顾客，这对于肯德基单方面来说无疑是一个好主意。当然麦当劳也不甘示弱，作为一个“理性人”，麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。

不难想象，双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态，甲乙两人相依为邻且相安无事地做起快餐生意。如果我们放宽条件，不是两家快餐店，而是很多家快餐店，很容易分析得到结果：这些快餐店仍然会在1/2处设店达到纳什均衡。

同样的道理，如果地段的繁华等其他原因在一条路上都可以认为到处相同的话，没有一个商家会将自己安置于某条路的一头，只要条件许可，超市将几乎趋向于相依为邻，这种现象完全可以看做公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理，在博弈论中称为位置博弈。

电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上，我们只要将时间设想为上述案例中的公路，就不难分析出：市场竞争的结果就是，观众青睐的精彩节目将集中在同一黄金时段。在这种情况下，电视台之间的竞争会更加激烈，为了获得收视率，电视台只能在制作质量上下功夫，最终获得实惠的仍然是广大观众。

西方国家在名义上是民权政治。实际上，选举上台的各个政党之间的政策并没有多大差别。就拿美国来说，民主党与共和党为了能够获得总统大选的胜利，必须要尽量争取最多的选民。两党在制订政策时，必然以这个目的为原则。我们把选民的政治主张看成是位置博弈中的均匀分布的人群，把两个政党看成是两个店铺，最终的结果必然是两个政党的政策趋向于折衷，并且非常近似。从这个意义上来说，西方政党的换届选举倒真是有“换汤不换药”的味道。

猎鹿模型的合作哲学

社会学告诉我们，在人类文明之初的原始社会，人们维生的方式主要是狩猎。

话说某个部落有两个出色的猎人，某一天他们狩猎的时候，看到一头梅花鹿。于是两人商量，只要守住梅花鹿可能逃跑的两个路口，梅花鹿就会无路可逃。只要他们能够齐心协力，梅花鹿就会成为他们的盘中餐。不过只要其中有任何一人放弃围捕，梅花鹿就会逃跑掉。

“福兮祸之所依；祸兮福之所伏。”有时运气太好并不一定有好的结果。正当两个猎人严阵以待，围捕梅花鹿的时候，在两个路口都跑过一群兔子，如果猎人去抓兔子，会抓住4只兔子。从维持生存的角度来看，4只兔子可以供一个人吃4天，1只梅花鹿如果被抓住将被两个猎人平分，可供每人吃10天。这里不妨假设两个猎人叫A和B。

在这个矩阵图中，每一个格子都代表一种博弈的结果。具体说来：

1．左上角的格子表示，猎人A和B都抓兔子，结果是猎人A和B都能吃饱4天；

2．左下角的格子表示，猎人A抓兔子，猎人B打梅花鹿，结果是猎人A可以吃饱4天，B则一无所获；

3．在右上角，猎人A打梅花鹿，猎人B抓兔子，结果是猎人A一无所获，猎人B可以吃饱4天；

4．在右下角，猎人A和B合作抓捕梅花鹿，结果是两人平分猎物，都可以吃饱10天。

在这个博弈中，根据纳什均衡的定义，应用博弈论中的“严格劣势删除法”（有兴趣的读者可以找本书参考文献中的相关书籍阅读，这里不做详细介绍。）可以得到该博弈有两个纳什均衡点，那就是：要么分别打兔子，每人吃饱4天；要么合作，每人吃饱10天。

两个纳什均衡，就是两个可能的结局。两种结局到底哪一个最终发生，这无法用纳什均衡本身来确定。

比较[10，10]和[4，4]两个纳什均衡，明显的事实是，两人一起去猎梅花鹿比各自去抓兔子可以让每个人多吃6天。按照经济学的说法，合作猎鹿的纳什均衡，分头抓打兔子的纳什均衡，具有帕累托优势。与[4，4]相比，[10，10]不仅有整体福利改进，而且每个人都得到福利改进。

换一种更加严密的说法就是，[10，10]与[4，4]相比，其中一方收益增大，而其它各方的境况都不受损害。这就是[10，10]对于[4，4]具有帕累托优势的含义。

在经济学中，帕累托效率准则是：经济的效率体现于配置社会资源以改善人们的境况，主要看资源是否已经被充分利用。如果资源已经被充分利用，要想再改善我就必须损害你或别的什么人，要想再改善你就必须损害另外某个人。

一句话简单概括，要想再改善任何人都必须损害别的人了，这时候就说一个经济已经实现了帕累托效率。

相反，如果还可以在不损害别人的情况下改善任何人，就认为经济资源尚未充分利用，就不能说已经达到帕累托效率。效率是指资源配置已达到这样一种境地，即任何重新改变资源配置的方式，都不可能使一部分人在没有其他人受损的情况下受益。这一资源配置的状态，被称为“帕累托最优”(Paretooptimum)状态，或称为“帕累托有效”(Pareto efficient)。

目前在世界上比比皆是的企业强强联合，就接近于猎鹿模型的帕累托改善，跨国汽车公司的联合、日本两大银行的联合等等均属此列，这种强强联合造成的结果是资金雄厚、生产技术先进、在世界上占有的竞争地位更优越，发挥的影响更显著。

总之，他们将蛋糕做得越大，双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好，还是其他什么重组方式,最重要的在于将蛋糕做大。在宝钢与上钢的强强联合中，宝钢有着资金、效益、管理水平、规模等各方面的优势，上钢也有着生产技术与经验的优势。两个公司实施强强联合，充分发挥各方的优势，发掘更多更大的潜力，形成一个更大更有力的拳头，将蛋糕做得比原先两个蛋糕之和还要大。

猎鹿模型的讨论，我们的思路实际只停留在考虑整体效率最高这个角度，而没有考虑蛋糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。

我们不妨做这样一种假设，猎人A比猎人B狩猎的能力水平要略高一筹，但B猎人却是酋长之子，拥有较高的分配权。

可以设想，A猎人与B猎人合作猎鹿之后的分配不是两人平分成果，而是A猎人仅分到了够吃2天的梅花鹿肉，B猎人却分到了够吃18天的梅花鹿肉。

在这种情况下，整体效率虽然提高，但却不是帕累托改善，因为整体的改善反而伤害到猎人A的利益。我们假想，具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎人A的狩猎热情遭到伤害，这必然会导致整体效率的下降。进一步推测，如果不是两个人进行狩猎，而是多人狩猎博弈，根据分配可以分成既得利益集团与弱势群体，这和我国的现状非常相似。

我国改革的进程在九十年代中期以前是一种帕累托改善的过程。但是随着各种复杂的不确定因素影响，贫富差距逐渐拉大，基尼指数甚至超过0.45的国际警戒线，帕累托改善的过程受到干扰。

这种情况如果继续下去，社会稳定和改革深化必将受到决定性的冲击。我们的党和政府已经关注到弱势群体的生存状态，并适时地提出建设和谐社会的改革目标，纠正了一些错误思潮，将改革的进程拉回到健康的轨道。

“囚徒困境”的深刻哲理

在博弈论中，有一个流传颇为广泛的故事，叫做“囚徒困境”(Pris-oner's Dilemma)。

话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人A和B，并从他们的住处搜出被害人家中丢失的财物。但是，他们都矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。

这个时候，聪明的警官找他们谈话，分别告诉他们说：“你们的偷盗罪确凿，所以可以判你们2年刑期。但是，我可以和你做个交易。如果你招了，他不招，那么你会作为证人无罪释放，他将被判10年徒刑；如果你招了，他也招了，你们都将被判5年有期徒刑；如果他招了，你不招，他无罪释放，你被判无期徒刑，终身囚禁；如果你们都不招，各判2年。”

一般读者可能会误认为，既然两个囚犯最好的结果是都不招供，两人都只被判2年，那么，两个囚犯都选择不招供就是这个博弈的最终结果。

然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。

反过来说，这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行，认罪伏法。对一个博弈来说，游戏规则非常地重要，适宜的规则才能够达到目的。在我们的日常生活中莫不如此，规则制订者往往利用条件制定出有利于自身的规章制度。

读到这里，很多读者不禁会问，为什么两个人都选择了“招”，傻到接受这种最坏的结果呢？

在解释这个问题之前，笔者首先说明一下，囚徒困境和其它的博弈一样，都需要有2个前提假设：囚徒A和B两人都是自利理性的个人，即只要给出两种可选的策略，每一方将总是选择其中对他更有利的那种策略；两人无法沟通，要在不知道对方所选结果的情况下，独自进行策略选择。

囚犯“思想搏斗过程”大致如下，囚犯A的内心活动是这样：假如他招了，我不招，我就要将牢底坐穿，招了最坏坐10年，还是招了合算；假如他不招，我也不招，只坐2年的牢（因无法串供，风险太大）；如果我招，他不招，马上被释放，也是招了合算。

因此，无论囚犯B是坦白还是沉默，囚犯A采取坦白的策略对自己更为有利。

同样，以上推理也适用于囚犯B。结果两个囚徒都坦白了，都被判刑5年。

囚徒困境之所为被称为“困境”，正是在于：如果A、B二人都保持沉默，则都只被判刑2年，显然比两人都坦白的结果要好。

两名囚犯都作出招供的选择，这对他们个人来说都是最佳的，即最符合他们个体理性的选择。照博弈论的说法，这是惟一的纳什均衡点。

除了这个均衡点，A与B的任何一人单方面改变选择，他只会得到更加不经济的结果。而在其它的结果中，比如两人都不坦白的情况下，都有一人可以通过单方面改变选择，来减少自己的刑期。可是两人经过一番理性计算后，却选择了一个使自己陷入不利的结局。

其实“囚徒困境”不允许囚犯A和B进行沟通的假设，与实际生活中大部分情况的现实是有差异的。比如，在爱情博弈中，很多恋人会经常花前月下、彻夜厮守；在企业的价格战中，企业之间也会多有沟通，甚至结成价格联盟；即使是20世纪下半世纪的美苏军备竞赛中，两个超级大国也会经常进行外交交谈，及时交换信息。

因此不妨将条件放宽，允许囚犯A和B在审讯室里在一起呆上10分钟，给予他们充分的串供的机会。

很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都不去坦白。然后，双方再单独被提审。

我们不妨设想囚犯A的心理活动。他一定会认为，如果囚犯B遵守约定的话，则自己坦白就可获得自由；如果囚犯B告密的话，若自己不坦白就会被终生囚禁。事实上，囚犯A的策略并没有因为简单的沟通或协议而摆脱两难境地。对于囚犯B也是一样。

虽然“坦白从宽，抗拒从严”的道理人人都懂，而从博弈论的角度来看，实际上就是一个囚徒困境的应用。“囚徒困境”被看成是博弈论的代表性案例，不仅因为其简单易懂，还在于它的现象在日常生活中广泛存在。

比如，恋人们在恋爱中的海誓山盟，最终还是分手；企业之间相互沟通合作结成战略关系时是信誓旦旦，但价格战仍然会爆发；美苏两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年。

囚徒困境的游戏规则，能够让狡猾的罪犯招供，得到应有的惩罚，固然不是坏事。然而，我们不妨假设囚徒A和B完全都是清白的具有理性的大大的良民，这个博弈的纳什均衡并不会因为他们的清白而改变。如果在现实生活中，审案存在对身体的残害，完全可能造成屈打成招的冤假错案。在中国历史上，这种冤案并不是什么稀少的事情。

从更深刻的意义上讲，囚徒困境模型动摇了传统社会学、经济学理论的基础，这是经济学的重大革命。

传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制：“当个人在追求他自己的私利时，市场的看不见的手会导致最佳经济后果。”这就是说，每个人的自利行为在“看不见的手”的指引下，追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。

传统经济学秉承了亚当·斯密的思想。传统经济学认为：因此经济学不必担心人们参与竞争的动力，只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正，自然会增进社会福利。

关注我们微信公众号：mw748219

立刻访问