52. Y4博弈: Nash 均衡

囚徒困境

巴菲特針對美國的競選經費提出改革提議，將個人捐款限額從1,000美元提高到5,000美元，並禁止其他所有形式的捐款(例如禁止公司/工會捐款，也禁止政治獻金)。

這個提案對國會兩大黨兩敗俱傷，勢必不會有人贊成。但巴菲特卻發表以下的言論：「如果這個法案沒有通過，本人就會對該案投贊成票最多的政黨捐贈10億美元。」

兩大黨都擔心對方獲得鉅額捐贈，因此都投下贊成票，最後巴菲特不花一毛錢，就讓卡關的提議通過。

John Nash 均衡

納許均衡，是指充分考慮對手決策後妥協，做出競爭環境下最好的選擇。

納許舞會。一加一大於二，蘇軾赤壁賦大江東去浪淘盡周瑜210，劉備借荊州，220麥城之戰。

膽小鬼賽局

1962年10月，美國在土耳其部署了鎖定蘇聯的彈道飛彈，蘇聯在古巴也部署了鎖定美國的彈道飛彈，消息走漏後，雙方的緊張關係升至最高點。

時任美國總統甘迺迪和蘇聯最高領導人赫魯雪夫都不想開戰，卻持續測試對方的底線，誰都不願被視為先轉彎的「懦夫」。

經過13天，古巴飛彈危機最終在美蘇的秘密談判下，以雙方讓步、撤除導彈收場，全球也倖免於第三次世界大戰。

***資訊戰別讓自己太容易被預測*** 用合作代替對抗

田忌賽馬、孫臏+齊威王 vs 魏惠王+龐涓

博弈論十大經典模型：

1、囚徒困境Prisoner's dilemma (降價策略)

這是博弈論中最經典的案例，非常耐人尋味，說的是兩個囚犯的故事：

兩個囚徒一起做壞事，結果被員警發現抓了起來，分別關在兩個獨立的不能互通資訊的牢房裡進行審訊。

在這種情形下，兩個囚犯都可以做出自己的選擇：供出他的同夥(即與員警合作，從而背叛他的同夥)，或者保持沉默(也就是與他的同夥合作，而不是與員警合作)。

兩個囚犯都知道，如果他倆都能保持沉默的話，就都會被釋放，因為只要他們拒不承認，警方無法給他們定罪。

但警方也明白這一點，所以就給了兩個囚犯一點兒刺激：

如果他們中的一個人背叛，即告發他的同夥，那麼他就可以被無罪釋放，同時還可以得到一筆獎金。而他的同夥就會被按照最重的罪來判決，並且為了加重懲罰，還要對他施以罰款，作為對告發者的獎賞。

當然，如果這兩個囚犯互相背叛的話，兩個人都會被按照最重的罪來判決，誰也不會得到獎賞。

那麼，這兩個囚犯該怎麼辦呢？是選擇互相合作還是互相背叛？

從表面上看，他們應該互相合作，保持沉默，因為這樣他們倆都能得到最好的結果......自由。但他們不得不仔細考慮對方可能採取什麼選擇。

A犯不是個傻子，他馬上意識到，他根本無法相信他的同夥不會向警方提供對他不利的證據，然後帶著一筆豐厚的獎賞出獄而去，讓他獨自坐牢。這種想法的誘惑力實在太大了。

但他也意識到，他的同夥也不是傻子，也會這樣來設想他。

所以，A犯的結論是，唯一理性的選擇就是背叛同夥，把一切都告訴警方。因為如果他的同夥笨得只會保持沉默，那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了，那麼，A犯反正也得服刑，起碼他不必在這之上再被罰款。

所以其結果就是，這兩個囚犯按照不顧一切的邏輯得到了最糟糕的報應：坐牢。

在很多商業或個人的合作過程中，我們不可避免地會遇到類似的兩難境地，這個時候需要相互之間有足夠的瞭解與信任，沒有起碼的信任做基礎，切不可貿然合作。

在對對方有了足夠的信任之後，誠意也是必不可少的，如果沒有誠意或者太過貪婪，就可能鬧到雙方都沒有好處的糟糕情況，造成雙輸的結果。

紅黑遊戲 (黑牌我有罪，紅牌我是無辜的)

將所有學生分成A，B兩組，並選出組長，由組長負責投票。

每組都有六張紅牌及六張黑牌，共比賽六次，每次出一張牌，可紅可黑，兩組同時翻牌。翻牌後按計分規則計分，其中第三回合分數乘以兩倍，第六回合分數乘以三倍。六次總得分較高者勝出。

小組內可以討論，但組與組之間禁止互相聯繫。

計分規則	A組出黑牌	A組出紅牌
B組出黑牌	A扣3分, B扣3分	A扣5分, B得5分
B組出紅牌	A得5分, B扣5分	A得3分, B得3分

計分表	A組得分	A組得分
第一回合
第二回合
第三回合分數乘2
第四回合
第五回合
第六回合分數乘3
總分

2、槍手博弈The Truel (Intel vs AMD)

有三個槍手，第一個槍手A的命中率是80%， B是60%，C是40%。

他們同時舉槍瞄準、同時射擊另兩個人中的一個，要盡可能消滅對手，每個人一次機會，一顆子彈，目標是努力使自己活下來。

誰活下來的可能性最大？

如果你認為槍法最准的A勝出，那麼你就錯了。

我們來看，如果你是A，你毫無疑問的會瞄準對你威脅最大的B，而B也會瞄準對他威脅最大的A，而C則也可能瞄準A，那麼三個人存活的概率都是多少呢？

A = 100% - 60% - （1-60%）* 40% = 24%

B = 100% - 80% = 20% (因為命中率為80%的A在瞄準他)

C = 100% （因為沒有人瞄準他）

原來，槍法最不准的C竟然活了下來。

那麼，換一種玩法呢？

如果三個人輪流開槍，誰會生存下來？

如果A先開槍的話，A還是會先打B，如果B被打死了，則下一個開槍的就是C，那麼此時A生存的概率為60%，而C依然是100%（他開過槍後A沒有子彈了，遊戲結束）；

如果打不死B，則下一輪在B開槍的時候一定會全力回擊，A的生存率為40%，不管是否打死A，第三輪AB的命運都掌握在C的手裡了。

那麼，如果遊戲規則規定必須由C先開槍，如果你是C怎麼才能讓自己活下來呢？

答案是胡亂開一槍，只要不針對AB任何一人即可。

當C開槍完畢，AB還是會陷入互相攻擊的困境。

在市場競爭中，每個公司需要決定如何分配資源來應對競爭對手。

· Intel：可能選擇集中資源對抗 AMD，因為 AMD 是其最直接的競爭對手。或者，Intel 可能選擇忽視 ARM，認為其威脅較小。

· AMD：可能選擇與 Intel 正面競爭，同時關注 ARM 的發展，以防範未來的威脅。

· ARM：可能選擇專注於自己的優勢市場，避免直接與 Intel 和 AMD 競爭，同時尋找機會擴展。

3、智豬博弈Boxed pigs game (WiMAX)

在博弈論（Game Theory）經濟學中，“智豬博弈”是一個著名的納什均衡的例子：

假設豬圈裡有一頭大豬、一頭小豬。豬圈的一頭有豬食槽，另一頭安裝著控制豬食供應的按鈕，按一下按鈕會有10個單位的豬食進槽，但是誰按按鈕就會首先付出2個單位的成本，若大豬先到槽邊，大小豬吃到食物的收益比是9∶1；同時到槽邊，收益比是7∶3；小豬先到槽邊，收益比是6∶4。

那麼，在兩頭豬都有智慧的前提下，最終結果是小豬選擇等待。

實際上小豬選擇等待，讓大豬去按控制按鈕，而自己選擇“搭便車”的原因很簡單：

在大豬選擇行動的前提下，小豬也行動的話，小豬可得到1個單位的純收益(吃到3個單位食品的同時也耗費2個單位的成本，以下純收益計算相同)；而小豬等待的話，則可以獲得4個單位的純收益，等待優於行動；

在大豬選擇等待的前提下，小豬如果行動的話，小豬的收入將不抵成本，純收益為-1單位；如果小豬也選擇等待的話，那麼小豬的收益為零，成本也為零。總之，等待還是要優於行動。

在小企業經營中，學會如何“搭便車”是一個精明的職業經理人最為基本的素質。

大公司擁有更多的資源和市場影響力，能夠承擔更高的成本，並獲得更大的市場份額。

小公司資源有限，市場影響力較小，需要更謹慎地分配資源，可能選擇跟隨大公司的策略，以最小化自身的風險和成本。

這種現象在經濟生活中十分常見，卻很少為小企業的經理人所熟識。

台灣WiMAX的發展是一個典型的智豬博弈案例。大型業者扮演了「大豬」的角色，承擔了更大的風險和成本；中小企業則扮演了「小豬」的角色，採取了更加謹慎的策略。最終，由於市場環境的變化和技術的不成熟，大型業者未能獲得預期的回報，而中小企業也未能充分利用這一機會。

4、鬥雞博弈Chicken Game (2008藍色百事)

兩隻鬥雞在決鬥的時候，無論選擇進或退都是一個難題，因為納什均衡已經給出了一勝一敗的最優策略。

在很多較量下，死拼將是得不償失的，因為很可能給第三者機會。

因此，兩個已經在戰場的強勢力很可能自覺的遵循納什均衡，當一方攻擊時，另一方暫退。雖然可能某方暫時受損，但較之於兩敗俱傷是好得多的。

不過，要維持這一狀況，必須保證下一次先期受損的一方發動攻勢的時候，另一方同樣的後退。於是這樣的攻擊性行為開始變得“儀式化”，沒有人真正流血。

這是兩巨頭之間的遊戲，某種程度上警告後來者，想進來跟我們一起玩，你玩得起嗎？

百事可樂的「敢為中國紅」廣告，可以看作是公司在與可口可樂的競爭中，採取的一種高風險、高回報的策略。通過這個廣告，百事可樂成功地引起了消費者的關注，並在一定程度上改變了消費者對品牌的認知。

雙方都在試圖通過更激進的策略，迫使對手退縮，這個口號雖然具有很高的辨識度，但也存在一定的民族主義風險。

協和客機的鬥雞博弈：英法兩國為了提升國家的科技形象和航空產業的競爭力，都投入了大量的資源研發協和客機。這兩大航空強國在超音速客機的研發上形成了競爭關係。

不敢退縮：一旦一方放棄研發，就意味著在航空技術競賽中落後，同時也會損害國家的聲譽。因此，雙方都不願意輕易退縮。

風險與收益：研發超音速客機是一項高風險、高成本的工程。除了技術上的挑戰，還面臨著噪音污染、燃料消耗高、以及對平流層的影響等問題。

尋找平衡點：英法兩國都在尋找一個平衡點，即在不損害自身利益的情況下，迫使對方退縮。

協和客機的結局：雙輸。由於運營成本高昂、噪音問題嚴重，以及對環境的影響，協和客機的商業前景並不樂觀。2000年的一起空難事件更是加速了協和客機的退役。

5、蜈蚣博弈Centipede game (得失荊州)

一場顛前倒後的博弈。

甲乙兩位參與者前面有兩堆硬幣，一堆四枚、一堆一枚。每位參與者行動時要二選一：

1. 拿走較多的那堆硬幣並把較少的那堆留給對手，

2. 把兩堆硬幣放到對手面前讓對手決定，這樣的話，兩堆硬幣的數量都會翻倍。

如果甲選擇讓對手決定，則兩堆硬幣的數量分別變為八枚和兩枚。

蜈蚣賽局有一個兩人事先都知道的最大期數，一旦超過這個期數，則當前行動者必須選擇拿走較多那堆的硬幣，結束賽局。

劉備大意失荊州，有兩個階段

合作階段：劉備集團與孫權表面上保持合作關係，共同對抗曹操。

背叛階段：孫權最終選擇背叛，偷襲荊州，導致劉備集團遭受重大損失。

從蜈蚣博弈的角度來看，劉備失荊州的原因主要有以下幾點：

對風險的低估：劉備集團沒有充分考慮到孫權背叛的可能性，以及一旦背叛所帶來的嚴重後果。

缺乏有效的防備措施：劉備集團在荊州的防禦部署不夠嚴密，給了孫權可乘之機。

6、分蛋糕博弈

兩個小孩怎麼分蛋糕？

經典的故事，經典的解答：一個分，一個選。

現實多如此，權利的合理分配，將有效促進公平與效率；經營權與所有權的分置，的確使得經濟更加活力。

不過分蛋糕的進階模型卻強調了討價還價的策略，分蛋糕不是一次性的，而是多回合的，而且出現成本：蛋糕在融化。

時間成本的加入，將使得分配變得複雜化。雙方如果不能及時達成交易，不僅集體的收益將減量，而且個體的收益也將減少。

在此情況下，利用時間成本以及威脅、承諾將對其中一方極其有利。

顧客可能迫于情勢，必須儘快結束談判，這時賣方卻不慌不忙，故意拖延，顧客一方將不得不在價格上作出妥協。

顧客一方當然也有策略，它的策略就是貨比三家，要求承諾或威脅，這個前提是買方市場的存在。顧客還應當保護自己討價還價的能力，這就是顧客有權投訴商家。

7、鷹鴿博弈

這個博弈很多人等同於鬥雞博弈。

不過，鬥雞是兩個兼具侵略性的個體，鷹鴿卻是兩個不同群體的博弈，一個和平，一個侵略。

在只有鴿子一個包穀場裡，突然加入的鷹將大大獲益，並吸引同伴加入。

但是，結果並不是鷹將鴿逐出包穀場，而是一定比例共存，因為鷹群增加一隻鷹的邊際收益趨零時（鷹群發生內鬥），均衡將到來。

由此產生了ESS進化上的穩定策略，也就是說一旦均衡形成，偏離的運動會受到自然選擇的打擊。也就是鷹群飽滿後，再試圖加入的鷹將會被鷹群排擠。

進化上的穩定均衡最大的好處，莫過於保持穩定。但問題在於形成強勢的路徑依賴，也就是勝出的不一定是最好的。

因為最好的會被當作出頭鳥幹掉，這是個體的失敗，集團的勝利以及集體的止步不前。

8、髒臉博弈

恍然大悟的博弈。

三個人在屋子裡，不許說話。美女進來說：你們當中至少一個人的臉是髒的。三人環看，沒有反應。

美女又說：你們知道嗎？三人再看，頓悟，臉都紅了。為什麼？

因為美女後一句廢話點破天機，三個人都知道髒臉的存在，而且推測知道對方也知道了髒臉的存在（因為另兩人臉沒紅，說明他們看到髒臉了），而且知道對方知道自己已經想到上一步……

迴圈開始，知識開始共同化，真相大白：三個人都是髒臉，所有人都臉紅了。

這就是共同知識的作用，它的作用顯得有點可怕的強大。幾乎是一招無影腿，殺人不見血。

在檯面上的博弈之前，私下的算計已經置對手于死地。不過，很可能對方也預料到這一點，早也想到這一點，同時殺來。終於，形成雙死局面。

當然，現實雖然存在類似現象，不過共同知識更大的作用，在於減少交易成本。因為某些規則人盡皆知，雙方只要各自依之行事就可以了。

1）資訊均衡：

很顯然，資訊的作用在博弈之中非常重要。將博弈論還原到現實，人們不再完全理性，資訊存在不對稱，博弈就需要在搶佔資訊高地上作出努力。

資訊不對稱，是一個很大的障礙。資訊的不對稱會造成“逆向選擇”和“道德風險”，前者事前，後者事後。資訊不對稱短期內對某一方會有利，但最終會破壞整個市場。於是有兩個解決策略。

2）資訊傳遞：

傳達你的正面的資訊的策略，也就是說吸引顧客走到你的櫃檯面前。它的要點是保持有效、減低成本。

3）信息甄別：

誘導對手暴露其私下擁有的真實資訊。就是給顧客一個放大鏡，保證顧客不會走到其他櫃檯去。這種策略顯然更加有效，不過風險也更大：萬一顧客用放大鏡看出了了自己的瑕疵怎麼辦？

插播3：博傻理論

在資本市場中（如股票、期貨市場）：人們之所以完全不管某個東西的真實價值而願意花高價購買，是因為他們預期會有一個更大的傻b，會花更高的價格從他們那兒把它買走。

“博傻理論”所要揭示的就是投機行為背後的動機，投機行為的關鍵是判斷“有沒有比自己更大的傻b”，只要自己不是最大的傻b，那麼自己就一定是贏家，只是贏多贏少的問題。

如果再沒有一個願意出更高價格的更大傻b來做你的“下家”，那麼你就成了最大的傻b。可以這樣說，任何一個投機者信奉的無非是“最大的傻b”理論。

何謂博傻？

博傻是指在高價位買進股票，等行情上漲到有利可圖時迅速賣出，這種操作策略通常被市場稱之為傻瓜贏傻瓜，所以只能在股市處於上升行情中適用。

從理論上講，博傻也有其合理的一面，博傻策略是高價之上還有高價，低價之下還有低價，其遊戲規則就像接力棒，只要不是接最後一棒都有利可圖，做多者有利潤可賺，做空者減少損失，只有接到最後一棒者倒楣。

在藝術品市場中：預期會有人花更高的價格從你手中買走它。

博弈論中的傻b理論（Theory of Greater Fool）：

你之所以完全不管某件藝術品的真實價值，即使它一文不值，也願意花高價買下，是因為你預期會有更大的傻b，花更高的價格從你手中買走它。

而投資成功的關鍵，就在於能否準確判斷，究竟有沒有比自己更大的傻b出現？

只要你不是最大的傻b，就僅僅是賺多賺少的問題。

如果再也找不到願意出更高價格的更大傻b從你手中買走這件藝術品，那麼，很顯然你就是最大的傻b了。

9、以牙還牙

這是一個用於博弈論的重複囚徒困境（Reiterated Prisoner's Dilemma）非常有效的策略。

也就是說，人家怎麼對你，你也怎麼對他。

說得再準確點，這個策略在開局時選擇合作，以後則模仿對手在上一期的行動。

這一策略有兩個步驟：

1）第一個回合選擇合作

2）下一回合是否選合作，要看上一回對方是否合作。

若對方上一回背叛，此回合我亦背叛；若對方上一回合作，此回合繼續合作

以牙還牙策略有四個特點：

1）友善：以牙還牙者開始一定採取合作態度，不會背叛對方；

2）報復性：遭到對方背叛，以牙還牙者一定會還擊作出報復；

3）寬恕：當對方停止背叛，以牙還牙者會原諒對方，繼續合作；

4）不羡慕對手：以牙還牙者個人永遠不會得到最大利益，整個策略以全體的最大利益為依歸。

10、手錶定律

手錶定律是指一個人有一隻表時，可以知道現在是幾點鐘，而當他同時擁有兩隻表時卻無法確定。

兩隻表並不能告訴一個人更準確的時間，反而會讓看表的人失去對準確時間的信心。

你要做的就是選擇其中較信賴的一隻，盡力校準它，並以此作為你的標準，聽從它的指引行事。

記住尼采的話：“兄弟，如果你是幸運的，你只需有一種道德而不要貪多，這樣，你過橋更容易些。”

如果每個人都“選擇你所愛，愛你所選擇”，無論成敗都可以心安理得。然而，困擾很多人的是：他們被“兩隻表”弄得無所適從、心身交瘁，不知自己該信仰哪一個；

還有人在環境、他人的壓力下，違心選擇了自己並不喜歡的道路，為此而鬱鬱終生，即使取得了受人矚目的成就，也體會不到成功的快樂。

手錶定理在企業經營管理方面，能給我們一種非常直觀的啟發，就是對同一個人或同一個組織的管理，不能同時採用兩種不同的方法，不能同時設置兩個不同的目標。

甚至，每一個人不能由兩個人來同時指揮，否則將使這個企業或這個人無所適從。

手錶定理所指的另一層含義，在於每個人都不能同時挑選兩種不同的價值觀，否則，你的行為將陷於混亂！

囚徒困境......個人理性與集體的非理性

智豬博弈......搭好順風車，借力成事

槍手博弈......對比關係及策略決定強弱

鬥雞博弈......狹路相逢勇者未必勝

分蛋糕博弈......討價還價的策略

以牙還牙......有一種智慧叫寬恕

鷹鴿博弈......路徑依賴法則新解

蜈蚣博弈......從後往前的推理

獵鹿博弈......合作是硬道理

酒吧博弈......求同存異的智慧

鯰魚效應......有競爭才有發展

重複博弈......衝突與合作方能共用

協和謬誤......欲罷不能的錯上加錯

信息甄別......酒好不怕巷子深

人質困境......雪上加霜的囚徒困境　

髒臉博弈......都是共同知識惹的禍　

成本博弈......擺脫沉沒成本羈絆的策略

手錶定律......標準不同結論就不同