博弈的最佳策略是“一報還一報”

停留的花香 2015-11-29

展開全文

——《互聯(lián)網(wǎng)時代的世界觀·關(guān)系宇宙》導(dǎo)讀之七十九

由陸天然、葉舟、胡均亮合著、國務(wù)院研究室中國言實出版社出版發(fā)行的《互聯(lián)網(wǎng)時代方法論叢書》第一卷《互聯(lián)網(wǎng)時代的世界觀·關(guān)系宇宙》一書科學(xué)地論證了博弈的最佳策略是“一報還一報”。

生活中的“一報還一報”合作策略

什么是“一報還一報”策略？

即“人不犯我，我不犯人，人若犯我，我必犯人”。為了進一步理解“一報還一報”策略，在此不妨首先看看三個小故事：

故事一：

一次，張作霖逛街正自得其樂，突然聽到一聲吆喝，嚇得他打了個哆嗦，回頭一看，原來是個賣豆腐腦的，挑著擔(dān)子正從小巷里走出來。張大帥大怒：“給我抓起來！”賣豆腐腦的莫名其妙地被一直拉進大帥府?！拔乙獦寯浪?！”張作霖說著，把小販一直拖到操場上。只聽“砰”的一聲槍響，小販即癱軟在地。不一會兒，只見小販蠕動著身子，爬了起來。奇怪，身體絲毫無傷。這時，張作霖得意地說：“剛才你嚇我一跳，現(xiàn)在我嚇你一死。”

故事二：

上世紀(jì)初，張作霖所屬的東北軍有兩名士兵無故被日本查道兵打死了，事后日方賠給士兵家屬每戶120元。張作霖對此十分憤怒，下令東北軍：“碰到日本查道兵就打，我也有錢?！睎|北軍得令后，很快打死了12個日兵，惹得日本駐沈陽領(lǐng)事跑去找張作霖，提出抗議，要求：一、懲兇；二、道歉；三、賠償；四、保證不再有類似事件發(fā)生。結(jié)果，張作霖這樣回復(fù)：一、“胡子”殺了人跑了，既捉不到，自難嚴(yán)懲；二、不是東北軍干的事，為什么要我道歉；三、東北“胡子”很多，無法保證以后不再發(fā)生，四、賠償可辦到，依日本兵打死東北軍一人賠120元賠償。日本領(lǐng)事聞言無可奈何，此事只好不了了之。

故事三：

一個面包師每天從他一位農(nóng)民鄰居那兒購買黃油。有一天，他覺得本應(yīng)該是3磅重一包的黃油似乎太輕了點。

于是他開始定期地稱一稱黃油，發(fā)現(xiàn)每回都是分量不足，這等于他每次都多付了錢。

他特別生氣，便開始提起訴訟。這一來事情就鬧到了法官面前。

“您沒有天平嗎？”法官問農(nóng)民。

“有哇，法官先生，我有一架天平?！鞭r(nóng)民回答道。

“有很準(zhǔn)的砝碼嗎？”

“沒有，法官先生，我不需要砝碼?！?/span>

“沒有砝碼，那你怎么稱黃油呢？”

“這好辦，”農(nóng)民回答說，“你瞧，就在面包師從我這兒買黃油的那段時間，我也一直買他的面包。我總是要同樣重的面包。每次這些面包就作為稱黃油的砝碼。如果砝碼不準(zhǔn)，那就不是我的過錯，而是他的過錯了。

于是，法官判定農(nóng)民無罪，而面包師不得不承擔(dān)訴訟的費用。

很顯然，誰都不是傻瓜。我們怎樣對待世界，世界就會同樣對待我們；我們怎樣對待周圍的人，周圍的人也會同樣對待我們。把自己最好的東西給別人，就會從別人那里獲得最好的東西。幫助別人越多，得到也會越多；愈吝嗇就愈會一無所有。

再接著講上文圖書訂貨商的故事分析：

劉收到了訂貨商的錢而未發(fā)貨，是劉首先選擇了背叛，那么，別人很快便不敢再交錢給劉了，不敢再跟劉往下合作下去了。劉因為第一輪先采取背叛，很快被首先淘汰出局了。

這就是最典型的——一報還一報合作策略。

劉如果選擇合作——對方也會選擇繼續(xù)合作。

劉如果選擇背叛——對方也會選擇直接背叛。

其實，“一報還一報策略”在社會生活中最為常見：

我贊美你，你立即報以笑臉；我過年送了一筐蘋果給你，你“五一”送一箱“王老吉”給我；我給你撓背，你也給我洗頭，等等，諸如此類的事都是最常見的一報還一報。

那么，“一報還一報”合作策略究竟是聰明的策略還是愚蠢的策略？究竟會給自己帶來什么呢？

“一報還一報”為什么會勝利？

合作是人類最有利的生存方式，多數(shù)人都相信這一結(jié)論。但多數(shù)人是否選擇合作，卻不一定，因為人們對他人是否合作心存疑慮。

有一個著名的假設(shè)：囚徒困境。

“囚徒困境”是1950年美國蘭德公司提出的博弈論模型。兩個共謀犯罪的人被關(guān)入監(jiān)獄，不能互相溝通情況。如果兩個人都不揭發(fā)對方，則由于證據(jù)不確定，每個人都坐牢一年；若一人揭發(fā)，而另一人沉默，則揭發(fā)者因為立功而立即獲釋，沉默者因不合作而入獄5年；若互相揭發(fā)，則因證據(jù)確實，二者都判刑3年。由于囚徒無法信任對方，因此傾向于互相揭發(fā)，而不是同守沉默。

囚徒困境講述的就是在信息不對稱的前提下，人與人合作與背叛選擇中利益最大化的思維模擬。

C（合作）D（背叛）

C（合作）甲=3，乙=3甲=0，乙=5

D（背叛）甲=5，乙=0甲=1，乙=1

從上圖可知，甲乙雙方都選擇合作，收益為6，任何一方背叛，總收益為5，雙方都選擇背叛，總收益為2。

以此來看，合作會比背叛有利多了。問題在于，兩個囚徒真的會作出對雙方有利的選擇而不是只顧自己嗎？現(xiàn)實中的囚徒，常常彼此揭發(fā)，愿意選擇合作、共守秘密的反倒是極少數(shù)。

因此，有人認(rèn)為，雖然合作與信任是人類社會得以存在和發(fā)展的基礎(chǔ)，但它們總會被自私所侵蝕?；舨妓股踔恋贸鲆粋€極悲觀的結(jié)論：無論人與人還是國與國的關(guān)系，隨著資源稀缺的加劇，都會變得更接近狼與狼的關(guān)系。

但我們看到，現(xiàn)代社會雖說資源危機深重，終究沒有淪為原始叢林，有合作善意的人群還沒有滅絕，人與人之間的溫情和信任也沒有消失——自私和克制自私，似乎同樣屬于人類本能。
人類之所以不會墮落為狼群，可能是因為，人類掌握了一個簡單的“法寶”：一報還一報。

為了驗證這一推測，同時也是為了探索合作中不同策略的規(guī)律，美國密歇根大學(xué)政治學(xué)家羅伯特·阿克塞爾羅德想出了一個聰明的辦法。他向當(dāng)時博弈論專家們發(fā)出了廣告邀請，讓有興趣參賽的博弈論專家和一些社會學(xué)家，各自設(shè)計一種自認(rèn)為最好的博弈策略，來參加他的“博弈策略”比賽。

第一次實驗中，他收到14個“策略參賽者”比賽。加上自己的第15個策略程度“隨機策略”，也就是沒有策略的策略，隨機地出“合作”或“背叛”牌。如果前面14個策略在比賽中比隨機策略得分還低，那就證明那個策略設(shè)計十分可悲和難堪。

15個策略，共進行了225輪相互“比賽”，每場“比賽”都玩到了200個回合。
由于參賽者都是當(dāng)世博弈論專家，故有些參賽程序看起來設(shè)計得非常聰明，但比賽結(jié)果卻令人出乎預(yù)料。

冠軍策略居然是——一報還一報。

此策略是加拿大多倫多大學(xué)著名博弈論心理學(xué)家拉波波特教授提供。一報還一報策略非常簡單：第一回合采取合作，然后再一回合都重復(fù)對手上一回合的策略。

令人跌破眼鏡的是，在15個參賽策略中，最失敗的居然是那個設(shè)計最復(fù)雜的策略。

“一報還一報”為什么會贏？

因為當(dāng)遇到合作者時，他永遠(yuǎn)采取合作，故針對合作者來說，其得分也最高。當(dāng)遇到狡詐者背叛者時，你怎么來，我也怎么對付你，因此，也差不到哪里去。由此“一此還一報”得出：

一是——一開始采取合作姿態(tài)——善良；

二是——不首先背叛——講原則；

三是——對背叛者予以背叛懲罰——正義；

四是——當(dāng)背叛者改正后我也不再背叛——寬??；

五是——對合作者的高分不嫉妒——平衡。

由“一報還一報”的勝利，同樣也可推導(dǎo)出是人性的光輝的勝利，如善良、光明正大、講原則、講誠信，能理解別人的成功，能分享別人的成功，能包容寬恕別人等，這都是人性中最美好的部分。

阿克塞爾多德組織了第一屆博弈策略競賽之后不久，又召開了第二屆比賽。

這次，阿克塞爾羅德共收到62套策略程度，加上他“沒有策略的策略”即“隨機策略”，共63套策略參賽。

而且，主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設(shè)計的所有人。
比賽結(jié)果很快又出來了，依然還是拉波波特的“一報還一報”策略再度獲勝。而且，善良策略普遍表現(xiàn)得比狡詐的策略好。在前15名中，只有一個不是善良策略，在后15名中只有一個不是“狡詐”策略。

不過，著名生物學(xué)家演化博弈論的奠基人之一史密斯設(shè)計“兩怨還一報”的“超級寬恕——好好先生”策略居然被狡詐的策略“群狼”所“擊敗”。

正因為如此，阿克塞爾羅德又進行了一輪比賽。他沒有征集新的策略，而是在改變電腦程序后，讓第二屆所有參賽策略再進行比寒。他想找出史密斯的“演化穩(wěn)定策略”。

第三屆比賽結(jié)果表明：幾乎所有”詭詐型“策略都在200代左右完全消失了?！耙粓筮€一報”仍表現(xiàn)得很出色。其他五種“善良而勇敢”、“善良而精明”、“善良聰明堅定”等策略也獲得了同樣的成功。

對于這一演化博弈結(jié)果，生物學(xué)家道金斯（名著《自私基因》的作者）不無感慨地歸納道：即使有自私的基因掌權(quán)控制，好人仍能得到好報！

三次比賽總結(jié)出“一報還一報”勝利原因如下：

勝利原因之一——本性善良（第一步合作）；

勝利原因之二——正義（對丑惡立即反擊）；

勝利原因之三——寬?。愀恼笪胰院献鳎?；

勝利原因之四——誠信（我自己不首先背叛）；

勝利原因之五——平衡（不嫉妒強者）；

勝利總原因是——大愛是唯一的指引。

從以上三次比賽中，我們還可以得出：

關(guān)系穩(wěn)定進化，是每個人都希望追求的結(jié)果。因為每個人的財富名譽地位，都得建立在穩(wěn)定的關(guān)系進化上；因為每個人的快樂幸福自由，都得依靠穩(wěn)定的關(guān)系進化。

人與人之間有了許多相處策略，唯有采取合作，采取大愛才是最佳的選擇，才會使彼此共生共享共贏。否則，就會存在潛在的風(fēng)險，相互在背叛中折磨。

“一報還一報”的六種優(yōu)良特征

如何運用“一報還一報”策略？其特征是什么？

下文引用一位專家的文章：

“一報還一報”策略，在國內(nèi)大部分人都理解為“以其人之道，還治其人之身”、“以牙還牙”等，但這些詞語都是貶義詞，就有誤解“一報還一報”策略的意義。因此，有必要說明“一報還一報”策略的真正含義?！耙粓筮€一報”的策略很簡單，就是首先第一步選擇合作，其后的每一步都選擇跟對方上一步相同的策略。但是“一報還一報”策略卻具有一般策略所不具有的優(yōu)點。

阿克塞爾羅德給出了“一報還一報”策略6種優(yōu)良特征：

一是具有善良性，它不首先背叛。在計算機競賽中，凡是善良的規(guī)則之間相處得很好，也就是能得到較高收益。只要對方不背叛，每個善良的規(guī)則一定是持續(xù)合作直到最后一步。

二是具有寬容性。就是別人只背叛一次，“一報還一報”只報復(fù)別人的一次。而那些不太寬容的規(guī)則有可能會在報復(fù)別人的同時，也是在自我報復(fù)，故而在計算機競賽中這些不太寬容的規(guī)則收益也較低。因為，“一旦一方的背叛誘發(fā)一長串的報復(fù)和反報復(fù)，雙方都要吃虧。”這是人們考慮“反射效應(yīng)”不深入的緣故。一般的人都會想第一層次，“即選擇的直接效果，那就是背叛比合作來得收益高。第二層次是選擇的間接效果，即考慮對方是否會出發(fā)自己的背叛。但是第三層次就很少有人考慮了，即為了反應(yīng)對方的背叛行為，有人就會重復(fù)甚至擴大自己以前的挑釁性選擇。一個孤立的背叛變成了一連串無休止的報復(fù)?！?/span>

三是具有韌性。就是“一報還一報”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益，而且也能夠跟那些善良的策略相處而得到較高的收益，這就表明它在很大的環(huán)境中表現(xiàn)極佳。

四是策略具有明晰性，在使用“一報還一報”策略時，別人能夠很快識別出你的策略。

五是不占他人便宜。從兩次競賽的結(jié)果，“一報還一報”策略并不比其他的策略的收益高多少。因為，試圖占便宜可以引起如下的風(fēng)險：一種是如果一個策略用背叛試探是否可以占便宜，它就得冒被那些可激怒的規(guī)則報復(fù)的風(fēng)險；另一種是雙方反擊一旦開始，就難以擺脫僵局；第三種是放棄了其他的一些合作機會。

六是報復(fù)性，而且是即刻報復(fù)。在某些情況下，即刻報復(fù)比等一段時間才報復(fù)是有好處的，因為即刻報復(fù)，可以讓對方知道背叛是會受到立即懲罰的。

那么既然“一報還一報”策略自身有如此多的優(yōu)點，但也還有一個缺點，那就是報復(fù)性可以形成惡性循環(huán)。比如對方由于一次疏忽而選擇了背叛，那么“一報還一報”策略也就是背叛，這樣對方可能又會選擇背叛，于是就有可能形成了惡性循環(huán)。

雖然有形成惡性循環(huán)的可能性，但是“一報還一報”策略還是一個善良的策略。
（作者/《互聯(lián)網(wǎng)時代方法論叢書》主編、中國互聯(lián)網(wǎng)方法論課題研究中心主任）

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

博弈的最佳策略是“一報還一報”