免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

 AS400r 2017-05-24

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

機器之心 2017-05-24 17:02

機器之心原創(chuàng)

記者:杜夏德

參與:李澤南、吳攀

5 月 23 日,烏鎮(zhèn)圍棋峰會第一場人機大戰(zhàn)以柯潔落敗而結束,DeepMind 和谷歌在今天的人工智能高峰論壇中詳細回顧了昨天的比賽,并解讀了 AlphaGo 背后的強大實力。

第一天比賽結束,DeepMind 創(chuàng)始人 Hassabis 表示,比賽進入了數(shù)子階段,AlphaGo 的優(yōu)勢很小,柯潔完成了一場偉大的比賽。竭盡全力的柯潔表示,此次大賽之后不但不會再與機器交戰(zhàn),也不會利用機器來練習,他「更喜歡與人類棋手下棋,這樣自己還有贏的可能。」

比賽之后,DeepMind 在官方網(wǎng)站上發(fā)布了一篇對這場比賽的分析解讀,機器之心對這篇文章的內容進行了編譯介紹。同時,我們還整合了機器之心前方記者發(fā)回的一線報道,讓我們可以一窺 AlphaGo「讓天下三子」的棋力及其背后的技術。

第一局比賽官方回顧

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

柯潔與 AlphaGo 在圍棋峰會上的第一場比賽跌宕起伏,黑棋和白棋都展現(xiàn)了細致入微的精細布局。經(jīng)過多次局部交鋒與創(chuàng)新的變化,AlphaGo 執(zhí)白堅持到了最后,以 0.5 點(1/4 子)的微小優(yōu)勢獲勝。

在開局階段,柯潔使用了大膽的策略率先發(fā)起了攻勢,他采用了以往 AlphaGo 最喜歡的舉動——點三三。這種策略在 20 世紀 30 年代由圍棋界的傳奇吳清源與木谷實引入棋壇,并在棋壇流行多年,但在當代棋壇銷聲匿跡。然而,隨著 AlphaGo 的出現(xiàn),最近柯潔等頂級棋手已經(jīng)開始嘗試在正式比賽中將這一方法復興了。在柯潔走出點三三后,AlphaGo 以它最喜歡的二間拆應對,柯潔向前延伸,完成了侵入。此前,隨著 AlphaGo 在以 Master 名義進行 60 盤網(wǎng)上對局的比賽中,這樣的變化正逐漸流行起來。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

柯潔和 Demis Hassabis 在比賽之前握手

跟著就是一個罕見的三三打入定式,然后 AlphaGo 落下了非常新穎的一子:它沒有直接以扭的方式打吃或使用常見的飛,而是在第 24 手使用了大飛擴展了范圍。樊麾相信 AlphaGo 此舉體現(xiàn)了它自己的哲學:「AlphaGo 的方式并不是在這里那里爭奪棋盤局部的空間,而是把每顆棋子都放在對大局最有意義的位置上。這是真正的圍棋理論:并不是『我想要得到什么』,而是『我該怎樣讓每顆棋子都發(fā)揮出其最大的潛力』。」

之后,兩位棋手在左上角進行了一場激動人心的交換,柯潔在這個過程中表現(xiàn)出色。放棄托角而取得邊,黑棋在一場交換中吃掉了四顆白子,而 AlphaGo 評估認為這對雙方來說都是理想的結果。柯潔真不愧是世界第一!通過在第 49 手使用的方法,黑棋在下盤威脅到了白棋的厚勢,但白棋在第 50 手和 54 手時通過刺和斷轉變了方向。這些走法的目標并不是直接的跟隨,而是在精妙地最大化其在這一區(qū)域的實力和未來的主動權。盡管 AlphaGo 更偏愛單關跳來強化其中心實力,柯潔在第 51 手對四顆白子進行了包圍,維持了對局部的控制。在第 55 手,一著聰明的試應手讓黑棋通過左底部邊角來交換更下面的邊,柯潔的這一步選擇為棋局的未來進展設定了方向。在黑棋在邊角存活下來之后,卻給了白棋一道外圍的銅墻鐵壁,柯潔果斷地放棄了他在更下面邊的棋子,以在上部分獲得更強的優(yōu)勢和主動權。

隨后,在所占的實地落后的情況下,柯潔被迫充分利用上邊,從而在第 97 手下出了雄心勃勃的大跳(這或許是勝負手)。AlphaGo 在第 98 手的反應又迫使柯潔在第 99 手截斷這單顆白棋,這一決定性的變化開啟了這局比賽的最后一次大范圍交換。在收官階段,柯潔奮力追趕,而 AlphaGo 則保持適當?shù)踩念I先,最終以四分之一子的優(yōu)勢獲勝。

DeepMind 希望我們在這場比賽中看到的創(chuàng)新能夠成為圍棋更多創(chuàng)新的開始,并期待全世界的棋手們都能分析這些下法,并在未來的對弈中嘗試它們。

「讓天下三子」的棋力和技術

比賽之后,David Silver、谷歌大腦負責人 Jeff Dean 等人在烏鎮(zhèn)圍棋峰會現(xiàn)場對 AlphaGo 背后的技術進行了解讀,以下是機器之心對相關內容的整理解讀。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

機器之心已經(jīng)多次報道過了 AlphaGo 的基礎技術,可參閱機器之心昨天的報道《柯潔 1/4 子惜敗,機器之心獨家對話 AlphaGo 開發(fā)者導師 Martin Müller》。AlphaGo 結合了監(jiān)督學習與強化學習的優(yōu)勢。通過訓練形成一個策略網(wǎng)絡,將棋盤上的局勢作為輸入信息,并對有所可行的落子位置形成一個概率分布。然后,訓練一個價值網(wǎng)絡對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

圍棋的分支系數(shù)非常大:每一顆棋子可能的走法數(shù)量超過了整個宇宙的原子數(shù)量,而且不像國際象棋,它無法用窮舉搜索的方法來得到結果。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

為了減少搜索的寬度,AlphaGo 會根據(jù)策略網(wǎng)絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

而為了減少搜索的深度,AlphaGo 使用了價值網(wǎng)絡來進行評估。雖然 AlphaGo 的價值網(wǎng)絡不能準確地計算出影響的數(shù)值,但它的價值網(wǎng)絡能夠在一定深度上一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優(yōu)勢轉化為整個比賽的勝勢。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

AlphaGo 將這兩種網(wǎng)絡整合進基于概率的蒙特卡羅樹搜索(MCTS)中,實現(xiàn)了它真正的優(yōu)勢。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

現(xiàn)在的 AlphaGo 使用的是去年的硬件(TPU 第一代),系統(tǒng)共用到 4 個 TPU ,相比去年與李世乭對弈時需要的計算能力大幅縮小,而因為算法效率的提高,圍棋水平卻增強了。

一間 64 臺 TPU 的艙中,有 1/8 用于訓練的一個機器翻譯模型,也就是說有 8 個 TPU 訓練機器翻譯模型。谷歌軟件工程師陳智峰告訴機器之心記者,在他們所做的模型訓練測試中,使用 8 個 TPU 能讓原先的訓練時間從 24 小時縮短到一個下午。谷歌的 TPU 艙還在建立中,在問及谷歌目前有多少個這樣的 TPU 艙時,谷歌方面還不愿透露。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

在基本方法的基礎上,AlphaGo Master 有了進一步的提升。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

其可以復盤前面的棋局,預測走到哪一步就可以贏,每一步都預測未來的贏家。原版的網(wǎng)絡有 12 層,而 Master 有 40 層。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

在棋力評估上,與樊麾對弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的優(yōu)勢,而與李世石對弈的 AlphaGo 版本比與樊麾對弈的 AlphaGo 版本又有三子的優(yōu)勢,而現(xiàn)在最新的 AlphaGo 版本又新提升了三子的優(yōu)勢。

深度強化學習不僅可以用來下圍棋,而且還可以進行像素學習,學習 3D 虛擬游戲,可以自己學會在 3D 環(huán)境中學習導航。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

另外據(jù)Jeff Dean介紹,谷歌建有TPU艙,一個TPU艙里面包含64臺二代TPU,能進行每秒11.5萬億次浮點運算,4倍快于市面上最好的32臺GPU。

讓天下三子,DeepMind官方解讀新AlphaGo強大實力

各方對本局比賽的點評

在 5 月 23 日的比賽過后,參賽兩方和各路圍棋職業(yè)選手圍繞棋局和技術的角度對這場對決進行了解讀。

柯潔:我很早就知道自己要輸 1/4 子,AlphaGo 每步棋都是勻速,在最后單官階段也是如此,所以我就有時間點目,看清自己輸 1/4 子,所以只好苦笑。

如果要我自己點評,AlphaGo 確實下得太精彩,很多地方都值得我們去學習、探討,思想和棋的理念,改變我們對棋的最初的看法,沒有什么棋是不可以下的,可以大膽去創(chuàng)新,開拓自己的思維,去自由的下一盤棋。今天我也是大膽去開拓自己的思維,在我印象中,AlphaGo 非常貪戀實地,開局點三三等等。所以今天我也一直貫徹先撈后洗的戰(zhàn)術,先把實地鈔票撈到手,但在角部還是被他掏到實地,打破了我的戰(zhàn)術,一下子就進入他的步調了。感覺 AlphaGo 和去年判若兩人,當時覺得他的棋很接近人,現(xiàn)在感覺越來越像圍棋上帝。我希望盡全力去拼每一盤棋。很感謝有 AlphaGo 這樣的對手,感謝 DeepMind 團隊給我機會去下這三盤棋,也希望通過這次比賽讓大家了解圍棋這個好項目,給大家?guī)砜鞓贰?/p>

AlphaGo 其實已給我們展現(xiàn)了很多精彩的實戰(zhàn),弱點暫時還沒有看到。我覺得以前他還是有,但現(xiàn)在對棋的理解和判斷遠勝于我們,所以想贏只好通過找 BUG,但真的很難。不過對自己永遠要有信心。之前我發(fā)微博說,這可能是我與人工智能最后三盤棋,現(xiàn)在就只剩兩盤棋了,這可能是我活到現(xiàn)在最難得的機會,我會盡全力去珍惜這次機會。

我做這個決定已經(jīng)考慮很久,因為我覺得 AI 進步速度太快了,每一次都是巨大進步,我覺得以后可能會變得更加完美,人與他的差距不是靠自身的努力可以去彌補的。我還是想和人類下棋,因為到未來,我們與 AlphaGo 的差距可能越來越大,人和人的差距可能越來越小。我對人的勝率還可以。這次峰會是我與人工智能的最后 3 盤棋,當然也不會在網(wǎng)上與人工智能練棋。如果人類比賽中出現(xiàn) AI,我雖然不愿意但也不是我能決定的,我覺得我也可能會輸。我其實對今天的表現(xiàn)有點不滿,覺得能做的更好。但這次是最后一次較量,希望不留遺憾,下出好棋,讓 AlphaGo 主機更發(fā)燙一點也好。

Michael Redmond(目前唯一的非東亞裔圍棋九段選手):柯潔從今年 1 月份 Master 的一系列比賽中獲得了靈感,在他的布局中加入了一些新變化。他在今天的比賽中使用了和 AlphaGo 類似的低位打入策略,這是以前聞所未聞的舉動。盡管這是一個我們難以理解的策略,但過去一個月職業(yè)棋手們一直在對它做出自己的解讀。

此外,在 5 月 23 日比賽結束后的新聞發(fā)布會上,AlphaGo 團隊的 David Silver 透露了新一代 AlphaGo 是年初 Master 的升級版,并提到一些細節(jié):新的 AlphaGo 程序運行在單個谷歌云服務器上,由 TPU 芯片進行計算處理。算法上也進行了革新,它所需的計算能力僅需與李世乭對戰(zhàn)時的 10%,自我對弈能力更強。去年,AlphaGo 的模型中有 12 層神經(jīng)網(wǎng)絡,而在以 Master 名義出戰(zhàn)時,深度已有 40 層。

在被問及 AlphaGo 是否控制了本局比賽的勝率時,Silver 解釋道,擴大每一步棋勝率是 AlphaGo 的探索的一個方向。如果只是為了取得最終的勝利,每一步它都會選擇走風險很小的棋。

Demis Hassabis(DeepMind 創(chuàng)始人和首席執(zhí)行官):偉大的比賽!向柯潔致以敬意,他將 AlphaGo 推向了自己的極限。AlphaGo 仍需要和人類對弈,它需要先學習人類棋譜,隨后開始通過自我對局來進步提高,所以 AlphaGo 是依靠人類棋譜數(shù)據(jù)和此前版本來進一步提升。僅通過自身對決可能發(fā)現(xiàn)不了缺陷,和頂尖棋手對決才能提高。我們希望通過完善 AlphaGo,在其他領域為人類服務。我們在《自然》上發(fā)表了論文,本周之后我們會公布更多細節(jié)和計劃,眾所周知目前也有很多強大人工智能軟件,我們也會在今后公開 AlphaGo 更多技術細節(jié),使其他實驗室或團隊能夠建造自己的 AlphaGo。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多