博弈論<5.如何找到一個最優(yōu)策略>

新用戶49272060 2022-07-20 發(fā)布于廣東

展開全文

博弈理論中存在一些對人的基本假定，比如它假定參與博弈的人必須是理性的，而理性就意味著他在博弈中是從自己的利益出發(fā)的，或者說他是自私的。理性的人在博弈過程中會將自身利益最大化作為自己的目標(biāo)，因此，博弈論的研究是建立在理性人之間的博弈之上的。

約翰·福布斯·納什利用他創(chuàng)造的“囚徒困境”博弈故事清楚地說明了“納什平衡”的存在，也即在非合作博弈中存在一個均衡解，這個解可使博弈雙方的利益都獲得保障。

每場博弈中都會涉及三大要素：參與者、策略、得失。

在囚徒困境中，兩個囚徒是博弈的參與者，他們選擇的策略都是承認(rèn)殺人事實，結(jié)果兩人都贏得了中間宣判結(jié)果。而如果一名囚徒承認(rèn)殺人事實，另一名囚徒不承認(rèn)殺人事實，其結(jié)果是承認(rèn)者獲得減刑，否認(rèn)者獲得死刑。最后兩個理性的囚徒在經(jīng)過慎重考慮之后，都選擇承認(rèn)殺人事實，這樣一來他們都獲得了穩(wěn)妥的保命結(jié)果。

除了囚徒困境，我們還能在“自私基因”“智豬博弈”等理論中找到這種均衡解。

美國博弈論專家羅伯特·阿克塞爾羅德在研究合作型博弈時首先設(shè)定了兩個前提條件，第一個條件是每個參與者都是理性的（自私的）；第二個條件是沒有外界因素干擾參與者的個人決策。

這就意味著，在合作博弈中，每個參與者都會為了最大化自身利益而進(jìn)行個人決策。在這兩個條件下，羅伯特·阿克塞爾羅德研究了以下三個關(guān)于合作的問題：

一是博弈者為什么要合作；

二是博弈者在什么時候合作，什么時候不合作；

三是博弈者如何使別人與他合作。

這三個問題的研究意義深遠(yuǎn)，它們在社會實踐中的合作問題上多有體現(xiàn)，比如貿(mào)易博弈中如何通過合作來使博弈雙方都能獲得穩(wěn)定收益的問題等。在博弈過程中，若參與雙方都追求自身利益的最大化，就會損害群體利益。

舉例來說，若現(xiàn)在進(jìn)行一場合作博弈，A、B分別代表博弈雙方，兩者都能自由進(jìn)行無差別選擇?，F(xiàn)在，擺在兩人面前的選擇有兩個：合作和不合作。我們用Y代表合作，用N代表不合作，并設(shè)定以下規(guī)則：若A和B都選擇Y，兩人都得3分；若A和B都選擇N，兩人都得1分；若一人選Y，另一人選N，選Y的人得零分，選N的人得5分。在這個例子中，對這個兩人團(tuán)體來說，最優(yōu)的策略是兩人都選Y。這樣一來，每個人都能得到3分，團(tuán)體得分就是6分。若兩人都選擇N，那么每人各得1分，團(tuán)體得分是2分；若一人選Y，另一人選N，則選Y的人得零分，選N的人得5分，團(tuán)體得分是5分。該博弈論通過得分矩陣可以清楚地描述個體理性與團(tuán)體理性之間的矛盾。若個人在博弈中追求利益最大化，就會使群體利益受損，這就是這類博弈所體現(xiàn)的重要內(nèi)涵。

站在A的角度來考慮，可以發(fā)現(xiàn)，若B選Y, A在選N的情況下可以獲得最大化利益，即5分；若A在B選擇Y的前提下選擇了Y，他可以得3分；若B選N, A也選擇N，他只能得1分；若A在B選擇N的前提下選擇了Y，他只能得零分。A所能獲得的可能得分從最高到最低分別是5分，3分，1分，零分。對A來說，要使自身利益最大化就是得5分；要使團(tuán)體利益最大化就是得3分。

其中的困境在于如何使每個人在選定策略后都能得到穩(wěn)定的分?jǐn)?shù)，同時還不讓自己離利益最大化太遠(yuǎn)。個人得5分雖然可以實現(xiàn)其自身利益最大化，但整個團(tuán)體的分?jǐn)?shù)只有5分；若每人得3分，團(tuán)體得6分，團(tuán)體利益就能實現(xiàn)最大化，但個人只能獲得3分，距離他們的最高目標(biāo)5分還差一些。這就是個人理性和團(tuán)體理性之間的矛盾。若這個博弈只進(jìn)行一次便結(jié)束，那么它在數(shù)學(xué)上是沒有最優(yōu)解的。若博弈可進(jìn)行多次，且兩個參與者知曉博弈的次數(shù)，那么理性的他們在最后一次博弈中一定會選擇相互背叛，這樣才能實現(xiàn)自身利益最大化。

如果是這樣的話，他們在之前的博弈中是否合作都是無關(guān)緊要的，即使兩人達(dá)成了一次合作，也是沒有必要的。所以，參與者在知道博弈次數(shù)的情況下不會進(jìn)行合作。但是，如果這類博弈是在多人之間進(jìn)行的，同時每一個參與者都不知道具體的博弈次數(shù)，那么在這種情況下，參與者就會意識到這個問題，即在持續(xù)地選擇合作時，每一個人都能持續(xù)且穩(wěn)定地得到3分。若彼此持續(xù)不合作的話，每個人只能持續(xù)得到1分而已。

通過這樣的思考，參與者之間的合作動機(jī)就非常明顯了。多次博弈的過程中，參與者未來的收益要比現(xiàn)在的收益增加一定的折現(xiàn)率，這個折現(xiàn)率越大，則未來的收益越重要。而這個折現(xiàn)率在多人博弈持續(xù)進(jìn)行的條件下相對較大，所以未來的收益趨于最重要。這個時候，參與者的最優(yōu)策略就與別人采取的策略產(chǎn)生了聯(lián)系。我們假設(shè)一個參與者第一次選擇合作策略，之后一旦對方不合作，他便選擇永不合作。與這種參與者進(jìn)行博弈，一直與他合作下去當(dāng)然是最有利的。我們再假設(shè)有一個參與者無論別人采取何種策略，他都選擇合作，那么與這種參與者進(jìn)行博弈，始終不與他合作才能獲得最高的分?jǐn)?shù)。與此同時，我們對于那些總是不合作的人往往會采取不合作的策略。

阿克塞爾羅德根據(jù)這些思想制定了一個這樣的實驗：他邀請一群人來參加這個博弈游戲，得分規(guī)則與我們提到的A和B之間的合作博弈一樣，但何時結(jié)束這個游戲，沒有人知道。阿克塞爾羅德要求每一個參與游戲的人把自己感到得分最高的策略編成計算機(jī)程序，然后讓這些程序兩兩博弈循環(huán)進(jìn)行下去，看一看究竟哪種策略的得分最高。

第一輪游戲總共有15個程序參加，包括阿克塞爾羅德自己制定的一半概率合作一半概率不合作的隨機(jī)程序和14個主要考察對象設(shè)計的程序。在兩兩循環(huán)博弈進(jìn)行了300次后，阿克塞爾羅德終止了游戲，最后的結(jié)果顯示，加拿大學(xué)者羅伯布的“一報還一報”程序獲得了最高得分?！耙粓筮€一報”程序的特點在于第一次對局采取合作策略，之后每次對局都以對手上一次的策略作為參考，即對手上一次選擇合作，我這一次就選擇合作，對手上一次選擇不合作，我這一次就選擇不合作。

阿克塞爾羅德對得分較高的程序進(jìn)行了分析，他發(fā)現(xiàn)得分排名靠前的程序一般有三個特點：

一是具備“善良性”，即從來不主動背叛別人；

二是具備“可激怒性”，即對于別人的背叛不能一直許以善意的合作，還要具備一定的報復(fù)；

三是“寬容性”，即別人背叛了你一次，你不能無休止地進(jìn)行報復(fù)，而要在別人選擇合作的時候與其合作。

阿克塞爾羅德沒有滿足已有的實驗，他又邀請了更多的人重新做了相同的實驗，并在游戲開始之前，向所有人公布了上一次實驗的研究結(jié)果。這次實驗的對弈程序高達(dá)63個，包括他的隨機(jī)程序和62個研究對象的程序。經(jīng)過一定數(shù)量的對局，這次實驗的結(jié)果與上一次沒有區(qū)別，最終“一報還一報”程序依然斬獲了得分第一名。這次實驗證明了“一報還一報”策略仍是最優(yōu)解，同時也證明了排名靠前的程序都具有“善良性”“可激怒性”“寬容性”三個特點。

63個程序，前15名中除了第8名程序是“不善良”的外，其余程序都是“善良的”；而在得分較低的后15名中，除了一個程序具有“善良性”外，其余都是“不善良”程序。另外，優(yōu)秀程序具有“可激怒性”和“寬容性”也在實驗中得到了證明。

與此同時，阿克塞爾羅德在這次實驗中還有新的發(fā)現(xiàn)，即優(yōu)秀策略還具有“清晰性”，也就是說，優(yōu)秀的程序通常只需要在幾次對弈之后就能被清晰地辨識出來，而那些復(fù)雜的策略卻并沒有令人滿意的得分。“一報還一報”策略顯然就具備“清晰性”特點，在應(yīng)用這一策略后，對手很容易發(fā)現(xiàn)其中的規(guī)律，并明白只有主動與對方合作才能贏得合作。