阿爾法狗再進(jìn)化可以自我對弈提升棋藝100:0擊敗舊版

2017-10-20

3037

【上海鄰米網(wǎng)站開發(fā)，移動(dòng)端開發(fā)】阿爾法狗再進(jìn)化，10月19日谷歌旗下人工智能研究部門DeepMind發(fā)布了新版AlphaGo（阿爾法狗）軟件，它可以完全靠自己學(xué)習(xí)圍棋這款名為AlphaGo Zero的系統(tǒng)可以通過自我對弈進(jìn)行學(xué)習(xí)，它利用了一種名為強(qiáng)化學(xué)習(xí)的技術(shù)。

熱點(diǎn)背景

導(dǎo)讀經(jīng)過3天的訓(xùn)練后，這套系統(tǒng)已經(jīng)可以擊敗AlphaGo Lee，也就是去年擊敗韓國頂尖棋手李世石的那套系統(tǒng)，而且比分高達(dá)100比0。經(jīng)過40天訓(xùn)練后，它總計(jì)運(yùn)行了大約2900萬次自我對弈，使得AlphaGo Zero得以擊敗AlphaGo Master（今年早些時(shí)候擊敗世界冠軍柯潔的系統(tǒng)），比分為89比11。

熱點(diǎn)關(guān)注

“阿爾法狗”再進(jìn)化：“自學(xué)”3天高分贏過舊版

2017-10-19 19:03:47

10月19日消息，谷歌旗下人工智能研究部門DeepMind發(fā)布了新版AlphaGo（阿爾法狗）軟件，它可以完全靠自己學(xué)習(xí)圍棋。這款名為AlphaGo Zero的系統(tǒng)可以通過自我對弈進(jìn)行學(xué)習(xí)，它利用了一種名為強(qiáng)化學(xué)習(xí)的技術(shù)。在不斷訓(xùn)練的過程中，這套系統(tǒng)開始靠自己的能力學(xué)會(huì)圍棋中的一些高級概念。【上海鄰米網(wǎng)站開發(fā)，移動(dòng)端開發(fā)】

經(jīng)過3天的訓(xùn)練后，這套系統(tǒng)已經(jīng)可以擊敗AlphaGo Lee，也就是去年擊敗韓國頂尖棋手李世石的那套系統(tǒng)，而且比分高達(dá)100比0。經(jīng)過40天訓(xùn)練后，它總計(jì)運(yùn)行了大約2900萬次自我對弈，使得AlphaGo Zero得以擊敗AlphaGo Master（今年早些時(shí)候擊敗世界冠軍柯潔的系統(tǒng)），比分為89比11。【上海鄰米網(wǎng)站開發(fā)，移動(dòng)端開發(fā)】

結(jié)果表明，具體到不同技術(shù)的效果，人工智能在這一領(lǐng)域仍有很多學(xué)習(xí)的空間。AlphaGo Master使用了很多與AlphaGo Zero相同的開發(fā)技術(shù)，但它需要首先利用人類的數(shù)據(jù)進(jìn)行訓(xùn)練，隨后才切換成自我對弈。

值得注意的是【上海鄰米網(wǎng)站開發(fā)，移動(dòng)端開發(fā)】，雖然AlphaGo Zero在幾周的訓(xùn)練期間學(xué)會(huì)了一些關(guān)鍵概念，但該系統(tǒng)學(xué)習(xí)的方法與人類有所不同。另外，AlphaGo Zero也比前幾代系統(tǒng)更加節(jié)能，AlphaGo Lee需要使用幾臺機(jī)器和48個(gè)谷歌TPU機(jī)器學(xué)習(xí)加速芯片。其上一代AlphaGo Fan則要用到176個(gè)GPU芯片。AlphaGo Zero只需要使用一臺配有4個(gè)TPU的機(jī)器即可。

上一頁：五年級家長陪孩子寫作業(yè) 急到心梗住院做兩個(gè)支架

下一頁："向發(fā)動(dòng)機(jī)扔硬幣致航班取消"再現(xiàn) 涉事老太被控制

阿爾法狗再進(jìn)化 可以自我對弈提升棋藝100:0擊敗舊版

熱點(diǎn)背景

熱點(diǎn)關(guān)注

“阿爾法狗”再進(jìn)化：“自學(xué)”3天高分贏過舊版

阿爾法狗再進(jìn)化可以自我對弈提升棋藝100:0擊敗舊版