-
陳經(jīng):被圍棋AI橫掃后,職業(yè)棋手應(yīng)該如何提高水平?
關(guān)鍵字: 圍棋AI柯潔MasterAlphaGo谷歌人工智能價值網(wǎng)絡(luò)算法【文/ 觀察者網(wǎng)專欄作者 陳經(jīng)】
2016到2017歲末年初的三天假期,棋迷們驚喜地發(fā)現(xiàn)圍棋對弈網(wǎng)站出現(xiàn)了好幾個高水平圍棋AI。
在弈城上像勞模一樣一直猛下的是日本的DEEPZEN,至2017年1月3日五天時間已經(jīng)下了超過200盤,輸了20盤。之前DEEPZEN在高手不多的KGS圍棋網(wǎng)上也是這么猛下,人們已經(jīng)熟悉了它的風(fēng)格。DEEPZEN在弈城的戰(zhàn)績并不出人意料,甚至有點令人失望。雖然它勝多負(fù)少,但主要是勝不帶P標(biāo)志的業(yè)余棋手,對職業(yè)棋手輸?shù)枚?,還沒有世界冠軍級棋手出手測試。
另一個一上線就引發(fā)關(guān)注的是騰訊野狐圍棋的“刑天”。騰訊在2016年11月上線的AI“絕藝”在一個月中已經(jīng)打出了不小的名氣,勝了柯潔一盤,5:1勝樸廷桓。這讓人們對國產(chǎn)AI有了信心,騰訊也報名了2017年3月在日本舉辦的AI圍棋世界錦標(biāo)賽。但是高手們似乎摸清了絕藝的路數(shù)找到了對付它的辦法,柯潔對絕藝的戰(zhàn)績是3:1,不少職業(yè)高手都戰(zhàn)勝過它,絕藝出過一些明顯的bug。因此從11月底,絕藝再沒下過棋,下線研發(fā)升級去了。
一個月后,2016年12月27日,升級版本“刑天”又上線開始下棋。這次升級應(yīng)該有進(jìn)步,對柯潔戰(zhàn)成5:2,對樸廷桓4:1。但不能說有本質(zhì)進(jìn)步,柯潔明顯找到了對付它的辦法,幾次吃死它的大龍,刑天死活還是有問題。這些測試棋全部是20秒或30秒一手的快棋,刑天對世界冠軍級高手們的勝利,很大程度是高手們因為時間壓力出現(xiàn)錯誤,如柯潔有一盤已經(jīng)殺死了刑天的大龍絕對優(yōu)勢,后面不小心輸回去了。騰訊開發(fā)的AI水平已經(jīng)很高了,職業(yè)棋手感覺它的實力和2016年3月與李世石對戰(zhàn)的AlphaGo版本V18相當(dāng)。職業(yè)棋手們已經(jīng)找到了刑天的漏洞,對它有辦法了不會太怕。
上圖是2016年12月30日柯潔第一次對陣勝刑天,就執(zhí)黑大勝。本局柯潔早早就吃掉刑天棋盤右邊的一條大龍,最后三招柯潔連下三個單長走起了五子棋,估計是人類操作員手動替刑天認(rèn)輸了。AI如果走出這樣的棋,即使一時對人類高手勝多負(fù)少,棋手們也不會怕。
這時弈城網(wǎng)站上的Master在2016年12月29日也開始下棋了,一開始并不引人關(guān)注,開始10多局勝的并不是世界冠軍級棋手。隨著12月30日Master對排名第一第二的柯潔與樸廷桓各勝2局取得20連勝,終于引起了關(guān)注。棋迷與棋手并不是太吃驚,因為之前絕藝與刑天也有這樣的驚艷表現(xiàn),而且Master下的是20秒的快棋,20秒時間太短高手容易犯錯,30秒高手們會好多了。
棋迷們喜大普奔,這么多高水平的AI同時在對弈網(wǎng)站上,AlphaGo的論文養(yǎng)出了一堆狗仔,“群狗鬧新年”太有意思了。接下來職業(yè)棋手和棋迷們自然的預(yù)期是,隨著每手時間提升至30秒,高手們耐心琢磨也找到Master的漏洞終于勝出,對它的預(yù)期和刑天差不多。
但事實證明,Master的水平比刑天要高得多。在弈城達(dá)成30連勝后,Master轉(zhuǎn)戰(zhàn)野狐,除1月1日新年休息了一天,保持每天10局的節(jié)奏。到2017年1月3日,Master達(dá)成了50連勝,對手中包括16位世界冠軍,三國水平最高的柯潔、樸廷桓、井山裕太都在其中。人類高手們排隊輪流上陣,不一會就倒下被門板抬走。人類一勝難求,甚至沒有出現(xiàn)過勝機(jī)。經(jīng)常是一個局部就大為落后,Master早早領(lǐng)先10多目甚至20目以上,收官時再“讓”給人類一些目數(shù)送成4目半、2目半或者半目勝。
人類水平最高的棋手群體,在Master面前這樣漏洞百出,這讓一些職業(yè)棋手以及棋迷們有些難以接受。
Master的神秘身份
Master的身份顯然就是AlphaGo的升級版本,我斷定沒有其它可能。Master在弈城注冊為韓國職業(yè)棋手,這是因為AlphaGo勝了李世石后獲得了韓國棋院頒發(fā)的九段證書。1個月前在KGS天元開局虐殺DEEPZEN的GodMoves很可能也是AlphaGo,應(yīng)該是放CPU與GPU較少的單機(jī)版到各網(wǎng)站測試。谷歌在11月宣稱AlphaGo取得了巨大進(jìn)步,將于2017年初復(fù)出下棋。谷歌CEO還訪問了中國棋院,如果達(dá)成與柯潔的第二次人機(jī)大戰(zhàn)協(xié)議不奇怪。谷歌一向有簽保密協(xié)議的作風(fēng),但中國棋院要求谷歌放出單機(jī)版進(jìn)行公開測試也正常。
谷歌對AlphaGo有信心了,放出來測試不怕被找到bug,主動或者應(yīng)邀出來公測是自然的發(fā)展,時間也對得上。一個有趣的細(xì)節(jié)是,參與測試的棋手中,孟泰齡只獲得過一個國內(nèi)冠軍,離世界冠軍們水平還差一點,但是他卻有機(jī)會與Master下了四盤棋。我猜測這是因為,Master和AlphaGo的“人肉機(jī)械臂”操作者都是谷歌論文的作者之一Aja Huang,他經(jīng)常上WeiqiTV看孟泰齡的節(jié)目,是他的粉絲,因此多次邀請他與Master對局。
也有說Master可能是韓國研發(fā)的AI,這個可能性極低。圍棋AI的研發(fā)是有軌跡的,象騰訊這樣參照谷歌論文快速達(dá)到很高水平是可以理解的,但是也需要出來測試找到問題又回頭想辦法,不太可能悶頭研發(fā)一出來就天下無敵。而谷歌經(jīng)過多個版本的升級,確實有這個實力。2016年中,Deepmind在學(xué)術(shù)報告上就宣稱后續(xù)版本能讓V18四個子了,又取得了巨大進(jìn)步。
Master達(dá)成50連勝后并未終止下棋,1月4號上午又繼續(xù)開戰(zhàn)。如果是論勝負(fù),由于Master只選擇30秒的快棋,對人類高手來說思考時間不足難以發(fā)揮最高水平。而Master固定地每8秒下一次,時間根本沒用完,這是機(jī)器天然的優(yōu)勢。人類高手對戰(zhàn)時經(jīng)常選擇20秒的讀秒,30秒算網(wǎng)棋中時間長的了,但基本是練習(xí)?,F(xiàn)在對Master的挑戰(zhàn)已經(jīng)帶上了悲壯色彩,比正式比賽氣氛還要激烈,野狐圍棋的創(chuàng)始人古力九段聲稱第一個戰(zhàn)勝Master的人獎金10萬元。
由于Master的棋力極高,又不走人類棋手習(xí)慣的套路,很多局面都需要強(qiáng)度極大的思考,30秒人類高手實在是不夠,會出不少漏洞。因此,如果還是30秒的棋局,Master的勝利會一直延續(xù)下去。有些讀秒功夫強(qiáng)的棋手號稱快慢棋水平差不多,但那是人與人在一些常見套路中對戰(zhàn)。而且讀秒功夫強(qiáng)是說后半盤收束,布局與前半盤如果出現(xiàn)新型,總是得停下來思考,10來分鐘都算短的,半小時或1小時以上的長考也常見。
上圖是1月3日柯潔與Master一個戰(zhàn)斗告一段落??聺嵒ǖ袅藘纱巫x秒(一共就三次30秒)才在左上角的戰(zhàn)斗中頂住了。黑吃掉白四子目數(shù)不小,白也沒有安定,應(yīng)該至少是不落后。后面Master也選擇了激烈的下法,柯潔只剩下一次30秒,應(yīng)對不利輸?shù)袅?。在新型的?zhàn)斗中,其他棋手基本會被Master打垮。
因此,Master對人類最高水平棋手取得50連勝這個事實,不宜過于夸張。圍棋AI的算法特性是,搜索空間是指數(shù)增長的,幾十倍時長只是帶來搜索深度增加幾層,幾秒鐘與幾十分鐘的搜索可能棋力并無本質(zhì)提升。增加時長更可能是用于MCTS的隨機(jī)模擬終局?jǐn)?shù)量,模擬質(zhì)量能上升一些。達(dá)到基本時長保證足夠的搜索深度與模擬的局面數(shù)量之后,再增加時間意義并不太大。
AlphaGo在分布式版本有1202個CPU和176個GPU,比“單機(jī)版”的48個CPU與8個GPU數(shù)多幾十倍,但是對單機(jī)版的勝率70%并沒有本質(zhì)棋力提升。實戰(zhàn)證明,Master和刑天思考幾秒或者十幾秒就有基本的水平了。如果能夠戰(zhàn)勝“秒下”的AI版本,戰(zhàn)勝思考時間更長的版本沒有本質(zhì)的困難。
而人類高手群體在這次Master翻牌式的點名測試中全敗,表現(xiàn)出了一些過去可能不太重視的弱點,值得好好總結(jié)分析。本文從圍棋棋藝與“棋機(jī)結(jié)合”的角度進(jìn)行技術(shù)解讀。前面是新聞式的介紹,閱讀后面的內(nèi)容就需要對圍棋技術(shù)與計算機(jī)算法有一定的了解。
-
本文僅代表作者個人觀點。
- 請支持獨立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:武守哲
-
新加坡總理:這個問題,是中國紅線中的紅線 評論 25俄副總理:或向中國提供重型發(fā)動機(jī) 評論 198美媒挑事:巴基斯坦與中國很鐵,你細(xì)品… 評論 116“訓(xùn)練成本才這么點?美國同行陷入自我懷疑” 評論 159最新聞 Hot
-
新加坡總理:這個問題,是中國紅線中的紅線
-
香港鬧市發(fā)現(xiàn)戰(zhàn)時炸彈,緊急疏散超6000人
-
國家外匯管理局:8月外資總體凈買入境內(nèi)股票和債券
-
馮德萊恩揚(yáng)言:歐盟要制裁,含中企
-
歐盟安撫歐爾班:俄羅斯問題上收收手,5.5億歐元還是照給
-
特朗普“下令美軍開火”
-
俄副總理:或向中國提供重型發(fā)動機(jī)
-
法軍高官:中國一天一個樣,見都沒見過
-
中國駐菲律賓大使黃溪連即將離任
-
助紂為虐……美國將向以色列再賣64億美元軍火
-
他被確認(rèn)出任美國常駐聯(lián)合國代表
-
愛沙尼亞稱“被侵犯”,俄國防部否認(rèn)
-
美媒挑事:巴基斯坦與中國很鐵,你細(xì)品…
-
“中方最嚴(yán)厲的公開回應(yīng)”
-
“挑戰(zhàn)中國主導(dǎo),美國把手伸向贊比亞”
-
“訓(xùn)練成本才這么點?美國同行陷入自我懷疑”
-