-
陳經(jīng):感謝AlphaGo對圍棋的貢獻,人機纏斗剛剛開始
關(guān)鍵字: AlphaGo谷歌AlphaGoAlphaGo對戰(zhàn)李世石AlphaGo李世石人機大戰(zhàn)2016年3月15日人機大戰(zhàn)第五盤,AlphaGo執(zhí)白280手中盤勝李世石,總比分4:1結(jié)束了這場持續(xù)一周的圍棋盛事。
我在廣州愛范兒公司和吳肇毅九段一起直播了這場比賽,感覺對機器的招法比較能夠理解。這使得我在這場特殊的比賽中,有時對局勢的判斷比吳九段更為準確,雖然我的圍棋水平不高。下面用幾個圖來解釋一下機器開盤的失誤和技術(shù)特色。
在右邊的常見套路中,AlphaGo選擇了16位擋而不是Q10拆,放黑17位打入,接著繼續(xù)18位打,放黑19位沖21位斷,很簡單地就棄掉了三子。粗粗一看黑吃下三子實空不小,但這是AlphaGo的招法創(chuàng)新,黑布局感覺已經(jīng)落后了。因為白有A位靠下的手段,會在上面形成一道厚勢,白棋把棋走在外面,對于厚味外勢的價值估計得比人類棋手更準,而且它的整體行棋方式也能與之配合。人類高手出于實戰(zhàn)考慮選擇實地的更多,通常認為虛虛的外勢不太好掌控。從大局觀來看,AlphaGo的理解更合乎棋道。
這個局面的看點是AlphaGo第48手斷入,然后被黑51全部吃下,虧了不小的目數(shù)。這是確定無疑的損失,機器犯了錯。這個錯誤非常象AlphaGo和樊麾的第三局,它也是在黑右下大空里走了幾手,沒有棋卻損了空。為什么它這么下?
48手這個斷是很明顯的直覺要點,在AlphaGo的策略網(wǎng)絡(luò)里估計會是排名很前的選擇。后續(xù)搗亂可以連續(xù)多招,黑要小心應對,下錯了就立刻完蛋。黑應對了,白可以繼續(xù)“考驗”黑。AlphaGo也會用策略網(wǎng)絡(luò)模擬黑的應對,正確應對的招數(shù)肯定有,但也有錯誤的建議給出來。這樣,連續(xù)搜索展開后,在不少葉子節(jié)點AlphaGo高興地發(fā)現(xiàn)黑應錯了被白一舉擊潰。就算黑一直應對正確,最后白損失也不大,能夠完封右邊中,大局上還是自己好。所以,蒙特卡洛模擬(MCTS)對48這手給出的勝率評分會比較高。這應該算是AlphaGo算法框架的一個bug。AlphaGo愿意下這種“局部變化復雜,對手應對錯誤自己立刻勝利,應對正確自己稍虧但大局還好”的辣招。對人類高手來說,這種計算應該不難,所以就占了便宜。48手算是虧目較多的一次小bug,但是局面還早。這時AlphaGo對自己的勝率估計應該比下出48手時低一些了,它終于知道吃了虧,但當初就是愿意去這么試。因為手數(shù)較多,它下48的時候并不知道會虧。只有定型的差不多了,才覺得算清了,沒有東西。
-
本文僅代表作者個人觀點。
- 請支持獨立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責任編輯:陳佳靜
-
俄副總理:或向中國提供重型發(fā)動機 評論 120習近平:中方在TikTok問題上的立場是清楚的 評論 26美媒挑事:巴基斯坦與中國很鐵,你細品… 評論 111“訓練成本才這么點?美國同行陷入自我懷疑” 評論 150中美高層本月頻繁互動,什么信號? 評論 91最新聞 Hot
-
新加坡總理:這個問題,是中國紅線中的紅線
-
馮德萊恩揚言:歐盟要制裁,含中企
-
歐盟安撫歐爾班:俄羅斯問題上收收手,5.5億歐元還是照給
-
特朗普“下令美軍開火”
-
俄副總理:或向中國提供重型發(fā)動機
-
法軍高官:中國一天一個樣,見都沒見過
-
中國駐菲律賓大使黃溪連即將離任
-
助紂為虐……美國將向以色列再賣64億美元軍火
-
他被確認出任美國常駐聯(lián)合國代表
-
愛沙尼亞稱“被侵犯”,俄國防部否認
-
美媒挑事:巴基斯坦與中國很鐵,你細品…
-
“中方最嚴厲的公開回應”
-
“挑戰(zhàn)中國主導,美國把手伸向贊比亞”
-
“訓練成本才這么點?美國同行陷入自我懷疑”
-
普京罕見透露前線俄軍人數(shù)
-
加拿大饞哭了:中國又從澳方買了,一買就是9船…
-