《博弈論》：“囚徒困境”是與他人博弈時實現(xiàn)利益最大化的縮影

時寶官 2020-10-25

展開全文

1、囚徒困境

“囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾擬定出的一個理論，它講述的是：兩個嫌疑犯在作案后被警察分別關押，他們彼此之間都不能互相通信，警察給他們兩個選擇，要么承認犯罪，要么抵賴。

但這兩個嫌疑犯的選擇會關乎到他們判刑多長時間，我們姑且將這兩個嫌疑犯命名為甲和乙。

1）甲乙都承認，雙方判刑8年；

2）甲乙都抵賴，雙方判刑1年；

3）某一方承認，另一方抵賴，那么承認犯罪的一方將被釋放，抵賴的一方將判刑10年。

對于任何一方來說，他們獲刑的結果都可能是0、1 、8、10年中的一種。

從整體來看，雙方都抵賴的情況下，雖然被判刑1年，卻實現(xiàn)了整體的利益最大化。

但從個人來看，如果承認犯罪，那么會被釋放或者判刑8年。而如果抵賴，則會被判刑1年或10年。

而由于甲乙之間是不能相互通信的，那么這就是一個在未知信息下與對方博弈的一個過程。在囚徒困境中，囚徒考慮的都是自身利益的最大化，于是彼此都選擇了承認犯罪，判刑8年。

2.生活中的囚途困境

囚徒其實也發(fā)生在我們周圍，就比如說很多家長給孩子報班，每個家長都在猜測其他家長的想法，看到其他家長去報班了，于是也給自己的孩子報班。

兩家的孩子都報班了，那么大家的孩子都不相上下，可是卻把孩子給累倒了。

但如果大家都約好，我們不去報班了，這顯然能夠實現(xiàn)整體利益的最大化，孩子與同伴不會相差很多，還能快樂地玩耍。

大家約好都不去報班，看起來好像雙輸，卻能夠實現(xiàn)整體利益的最大化。

此外，在價格競爭、環(huán)境保護和社交問題等方面都存在囚徒困境。就以價格競爭為例，價格競爭可以分為商家與消費者的博弈，以及商家與商家的博弈。

在商家與消費者的博弈中，如果商家不讓利，就吸引不了消費者。于是商家在與消費者博弈的過程中找到了一個平衡點，就是通過讓利促使消費者消費，就如我們常聽到的：滿300減30，買二送一，兩件9折，三件85折……

在商家與商家的博弈中，如果大家都打起價格戰(zhàn)，那么彼此可能都沒有利益可圖，而最大的受益人就是消費者，那最好的辦法就是在這個博弈的過程中找到一個平衡點，大家約定商品的價格區(qū)間，如果遠高于這個價格區(qū)間，消費者就不會下單，如果低于這個價格區(qū)間，商家就會被拉出群聊，這對大家都沒有好處。

3.優(yōu)秀的策略是建立在別人成功的基礎上的

阿克塞爾羅德是行為分析及博弈論專家，他曾邀請一群人來參加博弈游戲，規(guī)則是：

我們用Y代表合作，用N代表不合作，并設定以下規(guī)則：若A和B都選擇Y，兩人都得3分；若A和B都選擇N，兩人都得1分；若一人選Y，另一人選N，選Y的人得0分，選N的人得5分。

對于個人來說，在一次博弈中想要取得個人利益最大化，那就必須把5分拿下，選擇N，此時的團體總分是0+5=5分，但這個5分并不是每局都能穩(wěn)定獲得的，因為如果對方也選了N，那這局就只能獲得1分。

可對于團體來說，如果要實現(xiàn)整體利益最大化，就得雙方進行合作，此時的團體總分是3+3=6分，并且能夠保證在每局中雙方都能穩(wěn)定獲得3分。

阿克塞爾羅德讓每一個參加游戲的人把自己認為得分最高的策略編成計算機程序，然后讓這些程序兩兩博弈循環(huán)進行下去，最終“一報還一報”的程序獲得了最高分。

這個程序的特點在于：第一次對局的時候采取合作策略，之后每次對局都以對手上一次的策略作為參考，即對手上一次選擇合作，我這一次就選擇合作，而如果對手上一次選擇不合作，那我這一次也不合作。在雙方程序博弈的過程中，另一方會發(fā)現(xiàn)這個規(guī)律，并采取合作的策略，因為這是在當前情況下的最優(yōu)解。

在所有程序博弈結束后，阿克塞爾羅德發(fā)現(xiàn)得分排名靠前的程序一般有三個特點：

1）具備善良性：即從來不主動背叛別人；

2）具備可激怒性：當對方背叛你時，你也要給予報復。

3）寬容性：別人背叛了你一次，你不能無休止地報復，而要在別人選擇合作的時候與其合作。

其實這個程序的特點也告訴我們：優(yōu)秀的策略是建立在別人成功的基礎上的。如果我們想要獲取利益，不能只考慮自身，而要選擇與他人合作，實現(xiàn)彼此的共贏。