【原】德?lián)?AI 之父托馬斯·桑德霍姆：撲克 AI 如何完虐人類，和 AlphaGo 大不同

昵稱71360118 2020-09-01

展開全文

來自雷鋒網(wǎng)（leiphone-sz）的報道

雷鋒網(wǎng)按：11 月 6 日，在今天舉行的京東 JDD（京東金融全球數(shù)據(jù)探索者大會）大會上，卡耐基梅隆大學計算機系教授、德?lián)?AI 之父托馬斯·桑德霍姆發(fā)表演講，講述了他們創(chuàng)造的人工智能冷撲大師 Libratus 背后的原理究竟是什么？并表示這種非完美信息的游戲 AI 也可以在經(jīng)濟生活帶來廣泛的應(yīng)用。

卡耐基梅隆大學計算機系教授、德?lián)?AI 之父托馬斯·桑德霍姆

演講開始，桑德霍姆即透露，Libratus 和名噪一時的 AlphaGo 非常不同，后者是基于完美信息的游戲，前者則是非完美信息的游戲（imperfect-info games）。“在不完美信息的游戲里面，我們的挑戰(zhàn)是不知道對手和他的行為或者是說他的行為可能性。那么對于他們以往做了些什么呢？我也不知道?！彼f。

之后，他闡述了 Libratus 的基本原理，包含抽象化、子博弈解決器和自我改善模塊三個部分，里面并沒有用到深度學習。

桑德霍姆認為，人工智能不光是機器學習，“機器學習是關(guān)于過去，我們從過去的數(shù)據(jù)中學習，希望能夠預(yù)測到未來或者是說在未來能夠做到更多有益的東西，而戰(zhàn)略性邏輯會關(guān)系到很多的可能性，是關(guān)于未來而推出的游戲”。

以下內(nèi)容由雷鋒網(wǎng)根據(jù)桑德霍姆的演講速記整理，有不改變原意的刪減。

今天我講一下超人類的 AI 怎么做戰(zhàn)略性的分析和推理，這里用撲克做例子，今天我們說的是不完美信息的游戲，也就是說整個對手的狀態(tài)不被機器人所知，這個跟下棋沒有什么太大的聯(lián)系，但是和談判很像。

非完美信息的游戲：撲克 AI 與 AlphaGo 大不同

我們知道 AlphaGo 的技術(shù)可以用于所有的完美信息的游戲，完美信息的游戲有一個好性質(zhì)，就是一個大游戲可以分解成各個小的子游戲，子游戲怎么樣解決的呢？通過別的子游戲的結(jié)論來學習。比如當我們看這一局的時候，不用關(guān)心其他局或者是其他的象棋步驟里面對手怎么做？只看這一步怎么樣做就能夠?qū)W到了。

而非完美的信息是什么意思？就是一個信息一個子游戲?qū)W到的，不能用于另外一個子游戲。那么不完美信息的游戲就比完美信息的游戲更難。這些是基于某一個小領(lǐng)域的技術(shù)，并且不可遷于其他的小領(lǐng)域的，比如說撲克，我們發(fā)明的這種算法能夠在這種不完美信息的情景下也能夠?qū)W習。

由于完美信息和不完美信息的游戲兩者本質(zhì)不一樣，AlphaGo 所應(yīng)用的技術(shù)不可以應(yīng)用到完美的撲克游戲里面，因為兩者的性質(zhì)是不一樣的。在不完美信息的游戲里面，我們的挑戰(zhàn)是不知道對手和他的行為或者是說他的行為可能性。那么對于他們以往做了些什么呢？我也不知道。

我跟我的撲克對手，我不知道他以往的行動，他也不知道我以往的行動，像我們?nèi)祟惷鎸Φ那榫袄锩娓嗟氖沁@一類的，不知道對手背后的盤算。那么我們想問的是對手的行動對我有什么樣的啟示，我怎么樣通過對手的行動來推測到背后的動機，我的行動也泄露了我的哪些意圖給我的對手呢？

這里面有意思的是，我們不需要去解析這些行動的信號。這些信號讓我們回過頭來看這個納什的方程式，納什先生其實只是給博弈論一個定義，他并沒有給我們結(jié)論，他用一些算法，根據(jù)更窄的定義來算出，爭取更好的算法。那撲克里面有很多的數(shù)學原理，如果我們看一下納什先生的那篇博士論文，把他的博弈論方程首先展示給我們，這是 1993 年的時候，這里只有一個定義，那就是類似于撲克的定義。再往后對于撲克，我們有了更多的科學家和更多的定義。

◆ ◆ ◆

AI 完虐人類賭神

大家也會討論如果有更多更好的策略和戰(zhàn)略來贏撲克，最近去年，我們有數(shù)以百計的關(guān)于這個撲克的撲克研究。我講的不會太多，我只講一些重點的研究，首先有 2004、2005 年的學生和我一起做了這樣一個關(guān)于無損抽取的一個算法，就是說你略掉了，或者是說不知道這個游戲的 99% 的信息，卻依然可以去知道這個游戲的規(guī)則。

那么，我們現(xiàn)在要談的無限下注德州撲克的紙牌壓注成為最難的一個計算機界解決的標桿，里面包含了 10 的 161 次方的情景。

到目前為止我剛剛說的無限下注的紙牌游戲是被 AI 攻破的，我們看一下這種單周的關(guān)于無限下注的突破，這是第二次單挑，因為之前有一次人機對抗，當時的 AI 輸給了人類選手，這次我們叫做再對抗，再挑戰(zhàn)。

我們的 AI 系統(tǒng)是一個冷撲大師的智能系統(tǒng)，它的對手是四個非常優(yōu)秀的撲克選手，我們一共做了 12 萬次的交手，在 20 天之內(nèi)，下注的賭金 20 萬美元之多，大家有很強的動機去贏。2017 年這場，我們把這筆 20 萬美元的獎金，不是每個人給 20 萬，而是根據(jù)這四個選手的表現(xiàn)成比例的分配，而且我們的試驗設(shè)計非常的保守，讓人類去設(shè)計整個游戲的范式，為什么這么做呢？讓人類去設(shè)計整個游戲的各種范式，以便于到最后去決定誰贏誰輸?shù)臅r候，因為是人類事先設(shè)計好的，就不會有各種的爭吵和爭議了。

那么，整個的人類在押注的時候，更多的時候會覺得人類會贏。我們看一下游戲的現(xiàn)場，丹尼爾是我的朋友，我的同事，他們單獨的一對一單調(diào)。

冷撲 AI VS 中國龍之隊

一說到丹尼爾和 AI 單挑，AI 和上面的四位撲克大師在樓上單挑。比方說杰森，他在同時看著兩桌，他在這兩桌之間可能來回切換，在他左邊的這個小屏幕上，他可以進行切換，最終的結(jié)果，我們的冷撲大師系統(tǒng)贏，而且大勝人類。同理，我們用這個冷撲大師跟中國的賭神進行對抗，中國的龍之隊，中國的六位賭神，這是國際撲克大師的贏家，這些都是頂級的撲克手。冷撲大師還是贏了我們?nèi)祟惖馁€神。

◆ ◆ ◆

冷撲 AI 的秘密：竟然沒用深度學習

有人要問了，我們這個冷撲大師的系統(tǒng)是什么原理呢？基本上我們用的是已驗證正確的技術(shù)，這里面沒有深度學習。所以說在上面主要有三個選擇，第一個選擇是有很多游戲規(guī)則的輸出，還有一些更小的游戲的抽象化，最后有一個算法進行藍圖戰(zhàn)略的執(zhí)行。然后在我們的子博弈的解決器里面，實際上也是在游戲的過程中來進行問題的解決，有一個自我改善的模塊，它能夠把所有的這些本身的 AI 后臺的主機在晚上的時候做一個更新。

對于軟件的運行，在我們匹茲堡的超級計算機中心的這臺計算機有 1200 萬小時的游戲的時間積攢。所以說它有很多的輸入的信息，如果我們把 AlphaGo 和它進行對比的話，AlphaGo 是用人類的游戲歷史，我們沒有做這個東西，我們是白手起家的。好像是我們對著鏡子給自己進行拳擊，然后突然跳起來飛踢泰森的關(guān)系，我們也是一樣的，我們通過 AlphaGo 來進行自我游戲?qū)崿F(xiàn)的。

抽象化

我們看看第一個解析，是模塊里面使用新的抽象化的算法，相對來說獲得一個更小的規(guī)則，然后我們會有一個平衡化的過程。然后重新回到我們最初的游戲中進行我們所謂的藍圖戰(zhàn)略。

然后這里有兩個抽象化，一個是勝利的抽象化，是定期進行算法的計算。2016 年的時候做過，現(xiàn)在我們用一個最大的抽象化，進行了一個平衡化的算法，來獲得多種抽象化，所以從第一個賭局到我們的第二個賭輪里面，在所有的賭輪里面都可以進行，第四個賭輪里面我們使用了子博弈的解決器，這里面有一個產(chǎn)品的抽象畫，所以這樣的話我們可以對我們的客戶端有一個更好的理解了。

第三個正式的抽象化是從我們的撲克賭輪中，這里使用了人工智能之外，還加入了一些大賭局和小賭局的概念，所以說我們可以有最初的一個初級算法，然后把它進行一個優(yōu)化，但是暫時沒有辦法來進行拓展，所以說我們還需要把它第一個賭局慢慢的往外拓展。

子博弈解決器

后來到了子博弈的解決器，這里有五個新部分，第一個部分很可能是可以把它當前的對手的一些內(nèi)容考慮在內(nèi)，第二個，它是屬于一些戰(zhàn)略中的，你的子博弈的，這個計算方式很可能不會比這個藍圖戰(zhàn)略更差。然后，如果說對手在當前的階段犯一個錯誤的話，我們可以重新再考慮到它這樣的一個情況下，然后同時考慮到出現(xiàn)的錯誤，但是還能夠保證你的勝利，所以說它是可以在與真正的人進行比賽的時候，不會出現(xiàn)這種類似的錯誤。

還有就是說關(guān)于子博弈的解決問題。一開始的時候，你解決這個問題一，再進行游戲。但是我們在這里先要再解決剩余的一些，就是說整個局我要重新的做一遍，每當對手走一步，我都會把剩下的部分再重新算一遍。另外，它還可以把當時，你可以猜想的步驟的實際這一步計算在內(nèi)，這些都是在我們的抽象中，還有它可以啟動得比較早，以前都是在最后一個賭輪，現(xiàn)在我們放在第三個賭輪里面，如果這里沒有在子博弈中的這種牌的抽象化，我們這樣做是因為我們希望能夠通過一種新方式進行子博弈的解決。

自我改善模塊

最后一個模塊，它就是自我改善的模塊，它采用了完全不同的一種方法來進行自身的改善。并且它也使用了之前我們所說的平衡戰(zhàn)略。那么我通常是怎么做的呢？就是說我們需要把一系列的對手模塊聚集在一起進行開發(fā)，我覺得它是比較有風險的一個方法，特別是對于一些頂級玩家來講，因為頂級玩家是屬于世界上的這個方面的專家，他們是很容易發(fā)現(xiàn)漏洞的專家，所以說這個過程中，很容易會遇到困難，然后我們讓對手的行為集成告訴我們自己戰(zhàn)略里面的漏洞在哪。

這樣在這個超級計算機里面，算法會把這些加入到我們的行為抽象畫里去，之后我們就可以把它添加到我們的庫里面去，可以在自己的主機里面把一些理性的內(nèi)容再加入進去。

◆ ◆ ◆

超人類的 AI 怎么做戰(zhàn)略性的分析和推理

下面我們再講一下，在我們實驗室里面研究的一些情況，還有就是說如何來解決非完整的信息的內(nèi)容，這是我們的一些在做的課題，所以在游戲中和我們之前講的，它會有一個非完整性信息，需要有一個抽象化的尋找器，然后我們要知道它里邊的一個，游戲中會出現(xiàn)的問題的路徑，然后我們有一個這種算法，它可以把一些概率來進行計算，如果說你這個模型離我們的偏差這么遠，然后它這個模塊會來進行改善，我們在撲克中是來做競賽的，所以我們在比賽中需要應(yīng)用來進行一個模擬，雖然規(guī)則不是這么清楚。所以同樣的一個概念，如果我們的模塊，現(xiàn)實當中只有這么一個差異的話，我們可以來改善我們的戰(zhàn)略。然后讓它更適合現(xiàn)實中的情況。

第二點，在我們之前說過，可能在事件當中最好的是平衡戰(zhàn)略，也是我們能夠獲得的最好的理論，今年夏天開始，我們有更多的一些算法了。

第三個，我們在雙方都會出現(xiàn)比較大的，或者是很多的錯誤的時候，我們是不是能解決這些問題。盡管傳統(tǒng)意義上來講，我們覺得有一些錯誤可能是可以進行計算化的，但是現(xiàn)在在計算機里面的一些技術(shù)可以用更好的辦法來進行一個改善。最后，就是在利用或者是說開發(fā)之間的這種對比，在游戲中，我們需要去發(fā)現(xiàn)對方的漏洞。然后開始通過這種非游戲理論的方式，考慮到自己如何不會被對方所利用。

所以說如果你開始采用游戲理論的時候，有人利用了這種游戲理論或者是博弈理論是不安全的。但是現(xiàn)實中不見得如此，你可以利用別人的同時，也可以保證自己不被利用，也可以保證自己的安全性。像我之前提到的這些技術(shù)，不僅僅是被用來編程，這些被用來任何一個你有互動的過程中，這個當中不光有一方，還有不完整的信息，對于新技術(shù)的能力，之所以這么振奮，是因為我們看到了這種戰(zhàn)略性的機器中有很多的類似知識的復制。我認為這種戰(zhàn)略定價，或者是說戰(zhàn)略產(chǎn)品的組合，也可以利用它來進行一個優(yōu)化。

AI 也可以應(yīng)用于現(xiàn)實世界的“游戲”

現(xiàn)在，在 AI 當中，我們不光可以節(jié)省更多的人力，同時，又可以做得比最好的人類更強，讓我們有更多的理由來利用到實際中。有一些人可能覺得大多數(shù)的現(xiàn)實中的應(yīng)用，總會存在著不完美信息，就算是不看做一個游戲，那么我們想象一下，比如說在定價中的利用，如果對方的這個競爭對手的價格已經(jīng)固定了，如果突然對方改變了這個價格，你需要實現(xiàn)自己的價值優(yōu)化，需要反應(yīng)，這里面是一個反映式的模塊。

戰(zhàn)略性的定價可以讓你來驅(qū)動市場的發(fā)展，同時可以事先進行價格的思考，同樣你戰(zhàn)略性的產(chǎn)品和組合優(yōu)化，在金融中的使用也比較多，比如說戰(zhàn)略性的結(jié)構(gòu)或者是說戰(zhàn)略貿(mào)易執(zhí)行等等，還有自動的溢價。我們使用眼鏡改善我們的視力，為什么不能用 AI 來改善自己的戰(zhàn)略邏輯呢？

還有像拍賣中，假如有一種投機式的拍賣，在沒有人知道底價的情況下，是不是可以采用合理的競猜。還有像電影版權(quán)，不同的一些流媒體公司，他們可能要買一些不同的視頻流，到底如何能夠構(gòu)建一個更好的視頻流的組合，如何來進行更好的談判。大部分的應(yīng)用會考慮到網(wǎng)絡(luò)安全問題，如何來防護漏洞和操作系統(tǒng)中的問題，以及政治運動中，我到底要花多少錢，基于我競爭對手的預(yù)算來進行計算。還有自動駕駛車輛中，或者是說半自動駕駛的車隊由不同公司來進行運維的時候，如何來獲得一個更好的道路規(guī)則。有很多的一些軍隊或者是說在實體安全方面的應(yīng)用，還有生物適應(yīng)或者是說一些醫(yī)藥的安排中，我們已經(jīng)有了多種的計劃能夠把這些，比如說對患者人群來進行更好的一個規(guī)劃，才能夠避免進行一些疫苗的注射和癌癥的防護等等，當然我們還有娛樂式的，訓練式的應(yīng)用技術(shù)，在很多的新的游戲中，同時也會有一些社交的游戲。

◆ ◆ ◆

人工智能不光是深度學習

最后一張幻燈片我想指出的是人工智能不光是深度學習，還有一些重要的部分和領(lǐng)域，現(xiàn)在有一些新的技術(shù)和領(lǐng)域，我們叫做戰(zhàn)略性邏輯，它是我們戰(zhàn)略博弈的一部分，同時我們還有向?qū)κ纸５鹊?，這些也是需要很多的模型。

機器學習是關(guān)于過去，我們從過去的數(shù)據(jù)中學習，希望能夠預(yù)測到未來或者是說在未來能夠做到更多有益的東西，而戰(zhàn)略性邏輯會關(guān)系到很多的可能性，是關(guān)于未來而推出的游戲。我們已經(jīng)做了一些試驗，希望能夠獲得更多結(jié)果，謝謝大家。

Facebook田淵棟：德州撲克上戰(zhàn)勝人類的AI究竟用的是什么算法？| 解析

洞見 | 就算是輸給AI，也不能說人類丟掉了德州撲克的陣地

近期熱門

馬云演講 / iOS 11 黑科技 / 英偉達“核彈” / WP 死亡啟示

Google 發(fā)布會總結(jié) / 蘋果發(fā)布會總結(jié) / 順豐技術(shù)壁壘

錘子科技倒閉細節(jié) / 小米生態(tài)鏈騙人 / 網(wǎng)絡(luò)招嫖

● ● ●

報告下載

IBM云計算、區(qū)位鏈、物聯(lián)網(wǎng)等領(lǐng)域趨勢報告

關(guān)鍵詞：0629

人工智能領(lǐng)域，史上最全研究、應(yīng)用、人物專訪報告

關(guān)鍵詞：0633