讓天下三子，DeepMind官方解讀新AlphaGo強大實力

AS400r 2017-05-24

展開全文

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

機器之心 2017-05-24 17:02

機器之心原創(chuàng)

記者：杜夏德

參與：李澤南、吳攀

5 月 23 日，烏鎮(zhèn)圍棋峰會第一場人機大戰(zhàn)以柯潔落敗而結束，DeepMind 和谷歌在今天的人工智能高峰論壇中詳細回顧了昨天的比賽，并解讀了 AlphaGo 背后的強大實力。

第一天比賽結束，DeepMind 創(chuàng)始人 Hassabis 表示，比賽進入了數(shù)子階段，AlphaGo 的優(yōu)勢很小，柯潔完成了一場偉大的比賽。竭盡全力的柯潔表示，此次大賽之后不但不會再與機器交戰(zhàn)，也不會利用機器來練習，他「更喜歡與人類棋手下棋，這樣自己還有贏的可能。」

比賽之后，DeepMind 在官方網(wǎng)站上發(fā)布了一篇對這場比賽的分析解讀，機器之心對這篇文章的內容進行了編譯介紹。同時，我們還整合了機器之心前方記者發(fā)回的一線報道，讓我們可以一窺 AlphaGo「讓天下三子」的棋力及其背后的技術。

第一局比賽官方回顧

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

柯潔與 AlphaGo 在圍棋峰會上的第一場比賽跌宕起伏，黑棋和白棋都展現(xiàn)了細致入微的精細布局。經(jīng)過多次局部交鋒與創(chuàng)新的變化，AlphaGo 執(zhí)白堅持到了最后，以 0.5 點（1/4 子）的微小優(yōu)勢獲勝。

在開局階段，柯潔使用了大膽的策略率先發(fā)起了攻勢，他采用了以往 AlphaGo 最喜歡的舉動——點三三。這種策略在 20 世紀 30 年代由圍棋界的傳奇吳清源與木谷實引入棋壇，并在棋壇流行多年，但在當代棋壇銷聲匿跡。然而，隨著 AlphaGo 的出現(xiàn)，最近柯潔等頂級棋手已經(jīng)開始嘗試在正式比賽中將這一方法復興了。在柯潔走出點三三后，AlphaGo 以它最喜歡的二間拆應對，柯潔向前延伸，完成了侵入。此前，隨著 AlphaGo 在以 Master 名義進行 60 盤網(wǎng)上對局的比賽中，這樣的變化正逐漸流行起來。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

柯潔和 Demis Hassabis 在比賽之前握手

跟著就是一個罕見的三三打入定式，然后 AlphaGo 落下了非常新穎的一子：它沒有直接以扭的方式打吃或使用常見的飛，而是在第 24 手使用了大飛擴展了范圍。樊麾相信 AlphaGo 此舉體現(xiàn)了它自己的哲學：「AlphaGo 的方式并不是在這里那里爭奪棋盤局部的空間，而是把每顆棋子都放在對大局最有意義的位置上。這是真正的圍棋理論：并不是『我想要得到什么』，而是『我該怎樣讓每顆棋子都發(fā)揮出其最大的潛力』。」

之后，兩位棋手在左上角進行了一場激動人心的交換，柯潔在這個過程中表現(xiàn)出色。放棄托角而取得邊，黑棋在一場交換中吃掉了四顆白子，而 AlphaGo 評估認為這對雙方來說都是理想的結果。柯潔真不愧是世界第一！通過在第 49 手使用的方法，黑棋在下盤威脅到了白棋的厚勢，但白棋在第 50 手和 54 手時通過刺和斷轉變了方向。這些走法的目標并不是直接的跟隨，而是在精妙地最大化其在這一區(qū)域的實力和未來的主動權。盡管 AlphaGo 更偏愛單關跳來強化其中心實力，柯潔在第 51 手對四顆白子進行了包圍，維持了對局部的控制。在第 55 手，一著聰明的試應手讓黑棋通過左底部邊角來交換更下面的邊，柯潔的這一步選擇為棋局的未來進展設定了方向。在黑棋在邊角存活下來之后，卻給了白棋一道外圍的銅墻鐵壁，柯潔果斷地放棄了他在更下面邊的棋子，以在上部分獲得更強的優(yōu)勢和主動權。

隨后，在所占的實地落后的情況下，柯潔被迫充分利用上邊，從而在第 97 手下出了雄心勃勃的大跳（這或許是勝負手）。AlphaGo 在第 98 手的反應又迫使柯潔在第 99 手截斷這單顆白棋，這一決定性的變化開啟了這局比賽的最后一次大范圍交換。在收官階段，柯潔奮力追趕，而 AlphaGo 則保持適當?shù)踩念I先，最終以四分之一子的優(yōu)勢獲勝。

DeepMind 希望我們在這場比賽中看到的創(chuàng)新能夠成為圍棋更多創(chuàng)新的開始，并期待全世界的棋手們都能分析這些下法，并在未來的對弈中嘗試它們。

「讓天下三子」的棋力和技術

比賽之后，David Silver、谷歌大腦負責人 Jeff Dean 等人在烏鎮(zhèn)圍棋峰會現(xiàn)場對 AlphaGo 背后的技術進行了解讀，以下是機器之心對相關內容的整理解讀。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

機器之心已經(jīng)多次報道過了 AlphaGo 的基礎技術，可參閱機器之心昨天的報道《柯潔 1/4 子惜敗，機器之心獨家對話 AlphaGo 開發(fā)者導師 Martin Müller》。AlphaGo 結合了監(jiān)督學習與強化學習的優(yōu)勢。通過訓練形成一個策略網(wǎng)絡，將棋盤上的局勢作為輸入信息，并對有所可行的落子位置形成一個概率分布。然后，訓練一個價值網(wǎng)絡對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

圍棋的分支系數(shù)非常大：每一顆棋子可能的走法數(shù)量超過了整個宇宙的原子數(shù)量，而且不像國際象棋，它無法用窮舉搜索的方法來得到結果。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

為了減少搜索的寬度，AlphaGo 會根據(jù)策略網(wǎng)絡（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

而為了減少搜索的深度，AlphaGo 使用了價值網(wǎng)絡來進行評估。雖然 AlphaGo 的價值網(wǎng)絡不能準確地計算出影響的數(shù)值，但它的價值網(wǎng)絡能夠在一定深度上一次性考慮棋盤上的所有棋子，以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優(yōu)勢轉化為整個比賽的勝勢。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

AlphaGo 將這兩種網(wǎng)絡整合進基于概率的蒙特卡羅樹搜索（MCTS）中，實現(xiàn)了它真正的優(yōu)勢。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

現(xiàn)在的 AlphaGo 使用的是去年的硬件（TPU 第一代），系統(tǒng)共用到 4 個 TPU ，相比去年與李世乭對弈時需要的計算能力大幅縮小，而因為算法效率的提高，圍棋水平卻增強了。

一間 64 臺 TPU 的艙中，有 1/8 用于訓練的一個機器翻譯模型，也就是說有 8 個 TPU 訓練機器翻譯模型。谷歌軟件工程師陳智峰告訴機器之心記者，在他們所做的模型訓練測試中，使用 8 個 TPU 能讓原先的訓練時間從 24 小時縮短到一個下午。谷歌的 TPU 艙還在建立中，在問及谷歌目前有多少個這樣的 TPU 艙時，谷歌方面還不愿透露。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

在基本方法的基礎上，AlphaGo Master 有了進一步的提升。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

其可以復盤前面的棋局，預測走到哪一步就可以贏，每一步都預測未來的贏家。原版的網(wǎng)絡有 12 層，而 Master 有 40 層。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

在棋力評估上，與樊麾對弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的優(yōu)勢，而與李世石對弈的 AlphaGo 版本比與樊麾對弈的 AlphaGo 版本又有三子的優(yōu)勢，而現(xiàn)在最新的 AlphaGo 版本又新提升了三子的優(yōu)勢。

深度強化學習不僅可以用來下圍棋，而且還可以進行像素學習，學習 3D 虛擬游戲，可以自己學會在 3D 環(huán)境中學習導航。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

另外據(jù)Jeff Dean介紹，谷歌建有TPU艙，一個TPU艙里面包含64臺二代TPU，能進行每秒11.5萬億次浮點運算，4倍快于市面上最好的32臺GPU。

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

各方對本局比賽的點評

在 5 月 23 日的比賽過后，參賽兩方和各路圍棋職業(yè)選手圍繞棋局和技術的角度對這場對決進行了解讀。

柯潔：我很早就知道自己要輸 1/4 子，AlphaGo 每步棋都是勻速，在最后單官階段也是如此，所以我就有時間點目，看清自己輸 1/4 子，所以只好苦笑。

如果要我自己點評，AlphaGo 確實下得太精彩，很多地方都值得我們去學習、探討，思想和棋的理念，改變我們對棋的最初的看法，沒有什么棋是不可以下的，可以大膽去創(chuàng)新，開拓自己的思維，去自由的下一盤棋。今天我也是大膽去開拓自己的思維，在我印象中，AlphaGo 非常貪戀實地，開局點三三等等。所以今天我也一直貫徹先撈后洗的戰(zhàn)術，先把實地鈔票撈到手，但在角部還是被他掏到實地，打破了我的戰(zhàn)術，一下子就進入他的步調了。感覺 AlphaGo 和去年判若兩人，當時覺得他的棋很接近人，現(xiàn)在感覺越來越像圍棋上帝。我希望盡全力去拼每一盤棋。很感謝有 AlphaGo 這樣的對手，感謝 DeepMind 團隊給我機會去下這三盤棋，也希望通過這次比賽讓大家了解圍棋這個好項目，給大家?guī)砜鞓贰?/p>

AlphaGo 其實已給我們展現(xiàn)了很多精彩的實戰(zhàn)，弱點暫時還沒有看到。我覺得以前他還是有，但現(xiàn)在對棋的理解和判斷遠勝于我們，所以想贏只好通過找 BUG，但真的很難。不過對自己永遠要有信心。之前我發(fā)微博說，這可能是我與人工智能最后三盤棋，現(xiàn)在就只剩兩盤棋了，這可能是我活到現(xiàn)在最難得的機會，我會盡全力去珍惜這次機會。

我做這個決定已經(jīng)考慮很久，因為我覺得 AI 進步速度太快了，每一次都是巨大進步，我覺得以后可能會變得更加完美，人與他的差距不是靠自身的努力可以去彌補的。我還是想和人類下棋，因為到未來，我們與 AlphaGo 的差距可能越來越大，人和人的差距可能越來越小。我對人的勝率還可以。這次峰會是我與人工智能的最后 3 盤棋，當然也不會在網(wǎng)上與人工智能練棋。如果人類比賽中出現(xiàn) AI，我雖然不愿意但也不是我能決定的，我覺得我也可能會輸。我其實對今天的表現(xiàn)有點不滿，覺得能做的更好。但這次是最后一次較量，希望不留遺憾，下出好棋，讓 AlphaGo 主機更發(fā)燙一點也好。

Michael Redmond（目前唯一的非東亞裔圍棋九段選手）：柯潔從今年 1 月份 Master 的一系列比賽中獲得了靈感，在他的布局中加入了一些新變化。他在今天的比賽中使用了和 AlphaGo 類似的低位打入策略，這是以前聞所未聞的舉動。盡管這是一個我們難以理解的策略，但過去一個月職業(yè)棋手們一直在對它做出自己的解讀。

此外，在 5 月 23 日比賽結束后的新聞發(fā)布會上，AlphaGo 團隊的 David Silver 透露了新一代 AlphaGo 是年初 Master 的升級版，并提到一些細節(jié)：新的 AlphaGo 程序運行在單個谷歌云服務器上，由 TPU 芯片進行計算處理。算法上也進行了革新，它所需的計算能力僅需與李世乭對戰(zhàn)時的 10%，自我對弈能力更強。去年，AlphaGo 的模型中有 12 層神經(jīng)網(wǎng)絡，而在以 Master 名義出戰(zhàn)時，深度已有 40 層。

在被問及 AlphaGo 是否控制了本局比賽的勝率時，Silver 解釋道，擴大每一步棋勝率是 AlphaGo 的探索的一個方向。如果只是為了取得最終的勝利，每一步它都會選擇走風險很小的棋。

Demis Hassabis（DeepMind 創(chuàng)始人和首席執(zhí)行官）：偉大的比賽！向柯潔致以敬意，他將 AlphaGo 推向了自己的極限。AlphaGo 仍需要和人類對弈，它需要先學習人類棋譜，隨后開始通過自我對局來進步提高，所以 AlphaGo 是依靠人類棋譜數(shù)據(jù)和此前版本來進一步提升。僅通過自身對決可能發(fā)現(xiàn)不了缺陷，和頂尖棋手對決才能提高。我們希望通過完善 AlphaGo，在其他領域為人類服務。我們在《自然》上發(fā)表了論文，本周之后我們會公布更多細節(jié)和計劃，眾所周知目前也有很多強大人工智能軟件，我們也會在今后公開 AlphaGo 更多技術細節(jié)，使其他實驗室或團隊能夠建造自己的 AlphaGo。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

讓天下三子，DeepMind官方解讀新AlphaGo強大實力

讓天下三子，DeepMind官方解讀新AlphaGo強大實力