不同于常人的思维
生活中有很多例子与这个模型的道理是相通的,“股票买卖”、“交通拥挤”以及“足球博彩”等等问题都是这个模型的延伸。对这一类问题一般称之为“少数人博弈”。“少数人博弈”是改变了形式的问题,是由一位定居瑞士的中国人张翼成在1997年提出的。
在股票市场上,每个股民都在猜测其他股民的行为而努力与大多数股民不同。如果多数股民处于卖股票的位置,而你处于买的位置,股票价格低,你就是赢家;而当你处于少数的卖股票的位置,多数人想买股票,那么你持有的股票价格将上涨,你将获利。
在实际生活中,股民采取什么样的策略是多种多样的,他们完全可以根据以往的经验归纳得出自己的策略。在这种情况下,股市博弈也可以用少数者博弈来解释。
“少数人博弈”中还有一个特殊的结论,即:记忆长度长的人未必一定具有优势。因为,如果确实有这样的方法的话,在股票市场上,人们利用计算机存储的大量的股票的历史数据就肯定能够赚到钱了。但是,这样一来,人们将争抢着去购买存储量大、速度快的计算机了,在实际中人们还没有发现这是一个炒股必赢的方法。
“少数人博弈”还可以应用于城市交通。现代城市越来越大,道路越来越多、越来越宽,但交通却越来越拥挤。在这种情况下,司机选择行车路线就变成了一个复杂的少数人博弈问题。
虽说城市道路往往是复杂的网络。但我们可以简化问题,假设在交通高峰期间,司机只面临两条路的选择。这个时候,往往要选择没有太多车的路线行走,此时他宁愿多开一段路程,而不愿意在塞车的地段焦急地等待。司机只能根据以往的经验,来判断哪条路更好走。当然,所有司机都不愿意在塞车的道路上行走。因此每一个司机的选择,必须考虑其他司机的选择。
在司机行车的“少数者博弈”问题中,司机经过多次的选择和学习,许多司机往往能找到规则性,这是以往成功和失败的经验教训给他的指引,但这不是必然有效的规则性。
在这个过程中,司机的经验和司机个人的性格起作用。有的司机因有更多的经验而更能躲开塞车的路段;有的司机经验不足,往往不能有效避开高峰路段;有的司机喜欢冒险,宁愿选择短距离的路线;而有的司机因为保守而宁愿选择有较少堵车的较远的路线,等等。最终,不同特点、不同经验司机的路线选择,决定了路线的拥挤程度。
混合策略的妙用
人生充满了不确定性,正是因为无法事先确定胜负,才使许许多多的比赛和博弈充满了魅力。在两种不确定走向存在时,我们如何才能尽力采取两头兼顾的办法呢?这就需要我们采取一种“混合策略”,它虽然不能保证你永远在博弈中获胜,却给你指明了一条最佳的应对思路。
所谓“混合策略”,是与“纯策略”相对而言的。在博弈论中,“纯策略”是指参与者对某个策略有一个“明确的”选择——或者用或者不用,别无他途。而“混合策略”,则是指策略人随机地选取自己的策略。在现实生活中,采取混合策略的例子很多。
小朋友之间进行的“石头——剪刀——布”的游戏,便是一个人人皆知的使用混合策略的例子。小朋友玩游戏时,每次都是在“石头”、“剪刀”、“布”三者之间权衡,而不固定采取一个策略,这便是一个混合策略。对于这个游戏而言,参与者要想获得最好的结果,他最应该采用的混合策略(称为“均衡策略”)。选择“石头”、“剪刀”、“布”策略获胜的概率相同,均为1/3。不然的话,如果一方选择某个策略的概率高于其他策略,并且这个规律被对方总结出来的话,对手就会采取相应的应对策略,其获胜的次数便会大大增加了。
通过猜拳这个简单的博弈我们可以知道,参与博弈的人试图通过选择混合策略给对手造成不确定性,使对手不能预测自己的行动,从而使自己获得好处。如果参与博弈的人太有规律地行动,那么他必定就会被对手战胜。或者他一旦破坏了自己的随机策略,那么他就会失败。
很早的时候曾经看过吴孟达和童星郝绍文主演的一部影片,故事记不得了,但有个情节印象挺深刻:吴孟达和郝绍文要通过猜“剪刀,石头,布”来决定最后10块钱的归属。吴孟达的做法是:给郝绍文一枚硬币让他攥在手里然后划拳。郝绍文是小孩子,理所当然地按照吴孟达的预期出了“石头”(因为郝只有出石头才能确保手中的硬币不至丢落),吴孟达自然是出了“布”赢得了10块钱。吴为了防止郝的混合策略,采取了一种作弊的手段,虽然手段不够光彩,但是结果却让自己很满意。不让对手洞悉自己,而采取混合策略的做法,在某些对抗中非常普遍。玩牌,划拳以及足球、篮球等比赛中都是如此。
我们大家都知道“田忌赛马”的故事:战国时期,齐威王与大将田忌赛马,每次都派出一匹不同等级的马。在三场比赛中,由于齐威王的马都比田忌的马要好,所以全部获胜。田忌的谋士、杰出的军事家孙膑发现,田忌的上马虽然不如齐王的上马,但比齐王的中马更强,而田忌的中马也比齐王的下马强。而且,齐王的马每次都是按照上、中、下来安排出场顺序的。于是在下一次比赛的时候。孙膑让田忌把马的出场顺序改为:下、上、中,但齐王的马的出场顺序仍旧是:上、中、下。结果,田忌以2比1在比赛中获胜。
在这里,齐王的失败在于他运用了纯策略:他每一次出场的马都是确定的,而且这一点也为田忌和孙膑所知。如果齐王不这么做,而是采取混合策略,即在每一次比赛中。随机选择出场的马,孙膑的策略将难以施展,齐王也就不一定输。事实上,由于齐王的马总体上比田忌的马跑得快,齐王赢田忌的可能性还是要大得多。只要计算一下就可以知道,假如齐王运用的是混合策略,这时田忌也只能用混合策略进行回应。这样每个人的马出场顺序均有6种可能,共有36种可能组合。如果齐王隐瞒自己的策略,不让田忌知道马的出场顺序,田忌赢的可能性只有1/6,而齐王赢的可能性为56。
在战争中,军事家实施混合策略。是让敌人“知道”自己可能采取任何一个备选策略,但却不让对方猜到自己究竟要采取哪一个策略,即只让敌人“知道”自己所选策略的一个概率分布。战争中的一方对另一方进行轰炸时,一般不会向对方透露轰炸的具体日期,因为将被轰炸的一方如果知道对方的轰炸日期,就会采取对付空袭的措施。而一旦后者做好了准备,轰炸方的目的就难以完成。在“轰炸——被轰炸”的博弈中。轰炸一方的时间是随机的,防炸方也是时刻准备着,这就是混合策略。
国际政治生活中也不乏混合策略的例子。
比方说,美国正在和恐怖分子进行一场反恐战争。他们之间玩的也是混合策略。恐怖分子要对美国进行袭击,而美国要防止恐怖分子的袭击。恐怖分子胜利果实的大小,等于被袭击方美国的损失。恐怖分子不能预先告诉美国,他们将何时何地以何种方式袭击何处目标。如果美国政府事先已经得知恐怖分子的计划,肯定会采取措施进行防范,恐怖分子的袭击将难以得手。
因此,恐怖分子采取的是混合策略:任何时间、任何地点均可对美国进行袭击。而对于美国政府来说,他们的任何一个目标,无论是民用的还是军用的,均有可能成为恐怖分子的袭击目标,因而不能放松对任何一处目标的保卫。
灵活调整概率
一名小偷想要偷窃一间有守卫看守的仓库,如果小偷偷窃时守卫在睡觉,小偷就能得手,偷得价值为V的赃物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住,并且因为盗窃罪而坐牢(用经济学的术语,我们说这时他获得的效用为负,记为-P)。守卫如果睡觉但仓库未遭偷窃,这时守卫从睡觉中获得了一定的正效用,记为S。如果在守卫睡觉时仓库被窃,守卫就要被解雇,其负效用为D。如果小偷不偷,他既无得也无失;如果守卫不睡,意味着出一份力挣一份钱,他也没有得失。
根据上述假设,小偷在该博弈中有“偷”和“不偷”两种可选策略,守卫有“睡”和“不睡”两种可选策略。
这个“小偷与守卫”之间博弈的例子,是因在博弈论方面的伟大贡献而获得1994年诺贝尔经济学奖的泽尔腾教授1996年3月在上海的一次演讲中讲的。
在这个博弈中,最合理的策略是什么呢?假设小偷选择“偷”的策略,那么对守卫来说最好的策略是选择“不睡”,这样可以抓住小偷完成自己的职责,并保住自己的工作;但当守卫选择“不睡”时,小偷的正确策略就应该是“不偷”而不是“偷”;反过来,既然小偷“不偷”,当然守卫选择“睡”比较合算;而守卫偷懒睡觉时,小偷又会是不偷白不偷。还是应该要去“偷”……这样一来,就形成了一环套一环的因果循环,无论从哪里开始都一样,永远不可能停止。因此,如果是一次性博弈,那么这个博弈就没有一个可被双方接受的纳什均衡,也无法预测博弈的结果。
我们一开始讲的“小偷与守卫”的博弈,其最终结果也是一种混合策略:小偷以一定的概率选择“偷”还是“不偷”,而守卫也以一定的概率选择“睡”与“不睡”。这样,双方就可以达到一种动态的平衡。
现在,政府决定采取一切可能的措施,来打击盗窃活动。那么,这时候是该严惩小偷呢,还是加重对失职守卫的处罚呢?
有的人也许会说,那还用问?肯定是严惩小偷,毕竟盗窃行为是他做的嘛!可是,问题真的这么简单吗?我们来认真分析一下,假如加重对小偷的惩罚,最后会出现什么结果。
对小偷加重惩罚,会使得小偷因偷窃被抓的负效用P增大,如果守卫混合策略中的“睡”与“不睡”的概率分布不变,此时小偷选择“偷”所得到的期望收益将变负,也就是他会得不偿失,因此小偷会停止偷窃。但是,小偷不再偷窃,会使守卫因为减少了后顾之忧,反而更多地选择“睡觉”,也就是说守卫会提高“睡觉”的概率。这时候,小偷再去行窃,得手的概率自然更大。于是,小偷又会重新选择混合策略。在多次博弈后,最终小偷选择“偷窃”策略的概率又会回到原来的水平,但与此同时守卫选择“睡觉”的概率却增大了。
因此,政府加重对小偷的惩罚从长期效果看并不能减少盗窃的发生。最多只能抑制短期的盗窃率。事实上,它的主要作用是,守卫可以有更多机会偷懒。正是由于这个原因,泽尔腾把这个“小偷与守卫”博弈称为一种“激励的悖论”。
那么,如何才能真正减少盗窃呢?博弈论专家给我们开出的药方是:加重对失职守卫的处罚。
加重对守卫的处罚,意味着守卫因睡觉被窃而被解雇的负效用D增大了。此时,如果小偷“偷窃”的概率不变,那么守卫“睡觉”的期望收益就会降为负值,因此,守卫肯定会选择不睡觉。与此同时,守卫“不睡觉”,则小偷只能减少盗窃的概率。结果,经过多次博弈后,守卫睡觉的概率又会回到原来的水平。也就是说,加重对守卫的处罚只是在短期内可以使守卫真正尽职,从长期看并不能使守卫更尽职。但它却会取得另一个效果,那就是降低盗窃发生的概率。
因此,从这个模型出发,我们得到了一个与我们平常的观念不同的结论:政府加重对小偷的处罚在长期中并不能抑制盗窃,最多只能在短期内抑制盗窃的发生率,而且它会使更多的守卫偷懒;而加重对失职守卫的处罚,则会更有效地降低盗窃发生的概率。因此,在监督和违法行为之间的博弈中,要减少违法行为,关键并不在于加大对违法行为的惩治,而在于加强对监督失职的责任追究。
这里有一个与“小偷与守卫”博弈类似的故事:乾隆皇帝某次出行,在轿中阅奏折,看到有奏犯人脱逃者。乾隆很生气,即用《论语》中的话问随巡大臣:“虎兕出于柙,龟玉毁于椟中,是谁之过欤?”意思是,老虎狮子从笼子里跑出来,龟甲玉器在匣子里毁坏了,是谁的责任呢?周围大臣无一作声,时任侍卫的和珅却用朱熹批注的一句话大声回答:“典守者不得辞其责。”寥寥几字,切中要害。和珅一句话博得了乾隆的欢心,从此飞黄腾达,成为乾隆第一宠臣。在这里,和珅的话再好不过地体现了我们前面得出的结论。
“小偷与守卫”博弈所导出的“激励的悖论”,提示了政策目标与政策结果之间的一种意外关系,这对防止腐败具有重要的政策性启示:当事人腐败了,如果只是就事论事,谁犯错误惩罚谁,从长期来讲,并不能有效遏制腐败,而加重处罚其责任领导,则可以更有效地遏制腐败。因此,谁主管谁负责,建立可操作的责任追究制,才是遏制腐败的根本出路。
我们再来看看企业中管理者与被管理者之间的博弈。企业员工欲违规,如果违规时管理者偷懒,则员工就能得手;如果管理者很尽职,则违规者就会被抓住而受到处罚;管理者不尽职而且没有人违规,则管理者有正效用的收益,如果偷懒且有人违规,则管理者要被解雇。为了抑制违规现象,对于很多企业,加重对违规者的惩罚往往成为首选。然而,上面的分析告诉我们,加重对违规者的惩罚,使违规员工的负效用增加,如果管理者混合策略中的概率分布不变,则员工违规的期望收益变为负值,即违规得不到任何好处,因此员工会停止违规。但是在长期中,违规的减少会使管理者更多地选择偷懒或渎职,最终管理者偷懒的概率提高了,达到新的均衡,而此时员工违规的期望得益又恢复到大于零,他会重新选择混合策略。因此,加重对违规者的惩罚在长期中并不能抑制违规,最多只能抑制短期的违规发生率,它的主要作用是使管理者有更多机会偷懒。
另一方面,如果加重对失职管理者的处罚,则意味着管理者因不尽职而受处罚的负效用增大,如果员工的违规概率不变,那么管理者偷懒的期望得益变为负值,管理者会选择不偷懒。管理者不偷懒,则被管理者只能减少违规的概率。这就是说,加重对管理者偷懒的处罚在短期中的效果是使管理者真正尽职。加重处罚失职管理者在长期中的真正作用,恰恰是降低违规发生的概率。
企业员工与管理者之间的博弈,只是从加大对违规者的惩罚和加大对管理者失职的处罚来起到抑制违规的作用。其实,还可以从降低员工的违规得益和提高管理者尽职的奖励入手。由于在现实情况中,违规得益通常难以进行有效控制,所以我们可以考虑加大对尽职管理者的奖励。如果管理部门在辖区实行承包责任制,责任到人,一旦辖区内出现违规现象,则对责任人进行相应处罚。如果辖区内在一定时间内未出现违规现象,则对责任人进行相应奖励,而且保证此奖励大于责任人偷懒的得益,同时加大对于违规的惩罚。那么,这场博弈就会以管理部门最希望看到的局面收场:员工不敢违规,监管者不敢偷懒。