聚乳酸生物可降解材料(可降解材料有哪些) 怎么設(shè)置qq空間形象墻(如何設(shè)置qq空間照片墻) 陰陽(yáng)師業(yè)火原怎么打(陰陽(yáng)師的業(yè)原火怎么打) plenty of可以放在句首嗎?(plenty of修飾可數(shù)還是不可數(shù)) AE教程 如何制作全息影像特效動(dòng)畫(ae怎么做全息投影) dnf55冰龍?jiān)趺创?深淵冰龍15怎么打) 酚酞溶液測(cè)碳化深度(碳化深度怎么測(cè)) 泡茶用什么杯子(茶葉用什么杯子泡好) 商務(wù)簽證辦理流程及材料(商務(wù)簽證辦理流程及材料要求) 咖啡怎么做好喝又簡(jiǎn)單(咖啡怎么做出來(lái)的) 如何讓EXCEL表格打印每頁(yè)都顯示標(biāo)題行(excel標(biāo)題行 每頁(yè)都顯示怎么打印出來(lái)) 2018年黑龍江高校排名 2018年黑龍江大學(xué)排名(黑龍江省所有大學(xué)排名榜) 摩斯密碼怎么敲視頻教學(xué)(摩斯密碼怎么敲視頻) 魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開(kāi)始(魔獸世界雷霆小徑之戰(zhàn)任務(wù)怎么開(kāi)始視頻) 怎么在電腦上查看手機(jī)版網(wǎng)頁(yè) wap(怎么用手機(jī)查看電腦版網(wǎng)頁(yè)) 生的五筆怎么打(盛的五筆怎么打) 手工制作圣誕帽教案(手工制作圣誕帽教案大班) 阿里巴巴服裝加工訂單(找服裝加工訂單) 大閘蟹的正確做法圖解(大閘蟹的正確做法圖解大全) 抗訴的意思(抗訴是什么意思) 如何選購(gòu)嬰兒內(nèi)衣?嬰兒內(nèi)衣哪種好啊(買什么兒童的內(nèi)衣比較好) 烤魚片的做法(空氣炸鍋烤魚片的做法) frp是什么材料圖片(frp是什么材料) 倫敦奧運(yùn)會(huì)官方游戲london2012 110米欄攻略(倫敦110米欄奧運(yùn)視頻) 別來(lái)玩狼牙新系統(tǒng)境界提升玩法介紹(狼牙該如何使用) 關(guān)于逆境中成長(zhǎng)的名言(逆境有利于成長(zhǎng)名言) 爬樓梯有什么好處?(爬樓梯有什么好處嗎) 八字不合怎么辦(名字和八字不合怎么辦) 寧濫勿缺下一句(寧濫勿缺) dnf補(bǔ)丁wegame怎么找(wegame中dnf補(bǔ)丁在哪?) 什么手機(jī)游戲可以賺人民幣(什么手機(jī)游戲可以賺人民幣 手游 手機(jī)) PDF文件怎么拆分成多個(gè)文件(怎么合并多個(gè)pdf) 乘法是什么符號(hào)的意思(乘法是什么符號(hào)) IP電話如何使用(ip話機(jī)怎么使用) 海底世界資料大全(關(guān)于海底世界的資料) 怎樣自己動(dòng)手包書皮(怎么自己包書皮) 如何設(shè)置瀏覽器的無(wú)痕瀏覽(如何設(shè)置瀏覽器的無(wú)痕瀏覽功能) 春風(fēng)圖片大全(春風(fēng)圖) 摩爾莊園怎么加好友?(摩爾莊園怎么加好友安卓和蘋果) 【孤島驚魂5新曙光】攻略之如何釣魚(孤島驚魂新曙光釣魚需要魚餌嗎) 歐陽(yáng)詢觀古碑文言文翻譯過(guò)程(歐陽(yáng)詢觀古碑文言文翻譯) 和平精英電音盛典怎么擊破氣球(和平精英打爆氣球) 杭州學(xué)廚師怎么樣?工資怎么樣?(杭州學(xué)廚師怎么樣?工資怎么樣啊) 凹凸的筆畫順序(凹的筆畫順序) 港行的iPhone5 A1429開(kāi)啟聯(lián)通LTE教程(港版a1530支持聯(lián)通4g嗎) dnf疲勞藥怎么購(gòu)買(dnf哪里可以兌換疲勞藥) 32位能用什么剪輯軟件(適合32位系統(tǒng)的視頻剪輯軟件) 如何使用支付寶里有的功能去超市能讓你更省錢?(支付寶如何在超市使用) 如何使用淘寶點(diǎn)外賣服務(wù) (如何使用淘寶點(diǎn)外賣服務(wù)中心) 酚類化合物有哪些性質(zhì)(酚類化合物有哪些呀)

DeepMind研究團(tuán)隊(duì)發(fā)布通用算法AlphaZero及測(cè)試數(shù)據(jù)

導(dǎo)讀 12月7日,谷歌旗下人工智能實(shí)驗(yàn)室DeepMind的研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)。003010雜志評(píng)

12月7日,谷歌旗下人工智能實(shí)驗(yàn)室DeepMind的研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)。003010雜志評(píng)論說(shuō),單個(gè)算法可以解決許多復(fù)雜問(wèn)題,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問(wèn)題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d員工和DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo在2016年與圍棋世界冠軍李世石比賽時(shí)首次為人所知,最終以4: 1的總比分奪冠。事實(shí)上,早在2016年1月,谷歌就在國(guó)際學(xué)術(shù)期刊《科學(xué)》上發(fā)表了一篇封面文章,介紹了AlphaGo以5:0,毫無(wú)退讓地戰(zhàn)勝了歐洲冠軍、專業(yè)圍棋第二段范輝。

2017年10月18日,DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本,代號(hào)為AlphaGo Zero。當(dāng)時(shí)DeepMind說(shuō)象棋AI的算法主要基于復(fù)雜枚舉,需要人工評(píng)估。在過(guò)去的幾十年里,人們已經(jīng)把這種方法做到了極致。而AlphaGo Zero在圍棋上的超人表現(xiàn),就是通過(guò)和自己下棋練出來(lái)的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了AlphaZero的算法中。AlphaZero花了長(zhǎng)達(dá)13天的時(shí)間“自學(xué)”,然后與世界冠軍國(guó)際象棋AI對(duì)質(zhì):

在國(guó)際象棋比賽中,AlphaZero四小時(shí)內(nèi)首次擊敗了第九季TCEC世界冠軍斯托克菲什。

在象棋比賽中,AlphaZero在2小時(shí)后擊敗了國(guó)際象棋聯(lián)合會(huì)的世界冠軍Elmo。

在圍棋中,AlphaZero經(jīng)過(guò)30個(gè)小時(shí)的戰(zhàn)斗,在李世石擊敗了AlphaGo。

AlphaZero:一個(gè)算法吃掉所有三個(gè)象棋。

最開(kāi)始,前幾代AlphaGo用人類玩家的棋譜訓(xùn)練了上千盤,學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時(shí),你跳過(guò)這一步,通過(guò)自我游戲來(lái)學(xué)習(xí)下棋,從零開(kāi)始。系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開(kāi)始,將這個(gè)神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法結(jié)合起來(lái),自己下棋。游戲過(guò)程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級(jí),預(yù)測(cè)每一步和最終的贏家。

和AlphaGo Zero一樣,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和來(lái)自隨機(jī)小游戲的蒙特卡洛樹(shù)搜索,通過(guò)自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外沒(méi)有任何知識(shí)背景。強(qiáng)化學(xué)習(xí)是一種通過(guò)“試錯(cuò)”的機(jī)器學(xué)習(xí)。

DeepMind在博客中介紹,AlphaZero一開(kāi)始是完全失明的,但隨著時(shí)間的推移,系統(tǒng)從和平游戲的輸贏中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等。每一輪過(guò)后,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)越來(lái)越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過(guò)實(shí)驗(yàn),AlphaZero花了9個(gè)小時(shí)掌握象棋,12個(gè)小時(shí)掌握象棋,13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。例如,圍棋中很少出現(xiàn)平局,因此AlphaGo Zero在假設(shè)結(jié)果不是贏就是輸?shù)那闆r下估計(jì)并優(yōu)化了獲勝概率。阿爾法零將考慮平局或其他潛在結(jié)果,并估計(jì)和優(yōu)化結(jié)果。

其次,棋盤旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會(huì)改變,所以AlphaGo Zero會(huì)通過(guò)生成8幅對(duì)稱圖像來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國(guó)際象棋和象棋中,棋盤是不對(duì)稱的。因此,AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹(shù)搜索過(guò)程中改變棋盤位置。

在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也與新玩家有關(guān)。但AlphaZero只從AlphaGo Zero繼承了一個(gè)單一的神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評(píng)估步驟和選擇最佳玩家的過(guò)程。

此外,AlphaGo Zero使用貝葉斯優(yōu)化調(diào)整搜索到的超參數(shù);在Azero中,所有游戲都重復(fù)使用相同的超參數(shù),因此無(wú)需針對(duì)特定游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊(duì)在一場(chǎng)AlphaZero玩白色,Stockfish玩黑色的象棋游戲中,展示了AlphaZero蒙特卡洛樹(shù)在1000次、10000次……和100萬(wàn)次模擬后的內(nèi)部搜索狀態(tài)。每個(gè)樹(shù)形圖顯示了十個(gè)最常搜索的狀態(tài)。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章