首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

圖文詳解AlphaGo的原理及弱點(diǎn)

大?。?/span>0.6 MB 人氣： 2017-10-12 需要積分：1

推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論（0）

前往下載地址

分享到:

標(biāo)簽：AlphaGo(27632)

　近期AlphaGo在人機(jī)圍棋比賽中連勝李世石3局，體現(xiàn)了人工智能在圍棋領(lǐng)域的突破，作為人工智能領(lǐng)域的工作者，我們深感欣慰。其實(shí)質(zhì)是深度學(xué)習(xí)網(wǎng)絡(luò)（CNN）跟蒙特卡羅搜索樹（MCTS）結(jié)合的勝利，是人類智慧的進(jìn)步。不少***的“磚”家開(kāi)始鼓吹機(jī)器戰(zhàn)勝人類、甚至人類將被機(jī)器統(tǒng)治等無(wú)知言論，讓人實(shí)在看不下去。作為圍棋愛(ài)好者和人工智能領(lǐng)域工作者，我們覺(jué)得是時(shí)候跟大家講講AlphaGo的原理及其弱點(diǎn)了。
　　可以很負(fù)責(zé)任的告訴大家，AlphaGo還沒(méi)有完全攻克圍棋這個(gè)難題，職業(yè)棋手也并非沒(méi)有希望贏Go了，更不能說(shuō)機(jī)器戰(zhàn)勝了人類。AlphaGo未來(lái)需要走的路還很長(zhǎng)。如果有***職業(yè)棋手想挑戰(zhàn)AlphaGo，我們?cè)敢鉃槠浣M建最頂尖（且懂圍棋）的人工智能專家顧問(wèn)團(tuán)，助其取勝AlphaGo。
　　雖然網(wǎng)上技術(shù)貼不少，但還沒(méi)有一篇文章完全講清楚AphaGo的原理，Nature上刊登的文章也缺乏一張刨解全局的圖（加之用英文描述，同學(xué)們很難理解透徹）。以下是我跟張鈞波博士在多次閱讀原文并收集了大量其他資料后，一起完成的一張圖，解釋了AlphaGo的原理，看完后大家自然知道其弱點(diǎn)在何處了。
　　圖文詳解AlphaGo的原理及弱點(diǎn)

　　圖1、AlphaGo的原理圖（作者為本圖花費(fèi)大量心血，版權(quán)歸兩位作者所有，歡迎轉(zhuǎn)發(fā)，但請(qǐng)勿盜圖）
　　AlphaGo總體上包含離線學(xué)習(xí)（圖1上半部分）和在線對(duì)弈（圖1下半部分）兩個(gè)過(guò)程。
　　離線學(xué)習(xí)過(guò)程分為三個(gè)訓(xùn)練階段。
　　第一階段：利用3萬(wàn)多幅專業(yè)棋手對(duì)局的棋譜來(lái)訓(xùn)練兩個(gè)網(wǎng)絡(luò)。一個(gè)是基于全局特征和深度卷積網(wǎng)絡(luò)（CNN）訓(xùn)練出來(lái)的策略網(wǎng)絡(luò)（Policy Network）。其主要作用是給定當(dāng)前盤面狀態(tài)作為輸入，輸出下一步棋在棋盤其它空地上的落子概率。另一個(gè)是利用局部特征和線性模型訓(xùn)練出來(lái)的快速走棋策略（Rollout Policy）。策略網(wǎng)絡(luò)速度較慢，但精度較高;快速走棋策略反之。
　　第二階段：利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈，利用增強(qiáng)式學(xué)習(xí)來(lái)修正第t輪的策略網(wǎng)絡(luò)的參數(shù)，最終得到增強(qiáng)的策略網(wǎng)絡(luò)。這部分被很多“磚”家極大的鼓吹，但實(shí)際上應(yīng)該存在理論上的瓶頸（提升能力有限）。這就好比2個(gè)6歲的小孩不斷對(duì)弈，其水平就會(huì)達(dá)到職業(yè)9段？
　　第三階段：先利用普通的策略網(wǎng)絡(luò)來(lái)生成棋局的前U-1步（U是一個(gè)屬于［1， 450］的隨機(jī)變量），然后利用隨機(jī)采樣來(lái)決定第U步的位置（這是為了增加棋的多樣性，防止過(guò)擬合）。隨后，利用增強(qiáng)的策略網(wǎng)絡(luò)來(lái)完成后面的自我對(duì)弈過(guò)程，直至棋局結(jié)束分出勝負(fù)。此后，第U步的盤面作為特征輸入，勝負(fù)作為label，學(xué)習(xí)一個(gè)價(jià)值網(wǎng)絡(luò)（Value Network），用于判斷結(jié)果的輸贏概率。價(jià)值網(wǎng)絡(luò)其實(shí)是AlphaGo的一大創(chuàng)新，圍棋最為困難的地方在于很難根據(jù)當(dāng)前的局勢(shì)來(lái)判斷最后的結(jié)果，這點(diǎn)職業(yè)棋手也很難掌握。通過(guò)大量的自我對(duì)弈，AlphaGo產(chǎn)生了3000萬(wàn)盤棋局，用來(lái)訓(xùn)練價(jià)值網(wǎng)絡(luò)。但由于圍棋的搜索空間太大，3000萬(wàn)盤棋局也不能幫AlphaGo完全攻克這個(gè)問(wèn)題。
　　在線對(duì)弈過(guò)程包括以下5個(gè)關(guān)鍵步驟：其核心思想實(shí)在蒙特卡羅搜索樹（MCTS）中嵌入了深度神經(jīng)網(wǎng)絡(luò)來(lái)減少搜索空間。AlphaGo并沒(méi)有具備真正的思維能力。
　　根據(jù)當(dāng)前盤面已經(jīng)落子的情況提取相應(yīng)特征;
　　利用策略網(wǎng)絡(luò)估計(jì)出棋盤其他空地的落子概率;
　　根據(jù)落子概率來(lái)計(jì)算此處往下發(fā)展的權(quán)重，初始值為落子概率本身（如0.18）。實(shí)際情況可能是一個(gè)以概率值為輸入的函數(shù)，此處為了理解簡(jiǎn)便。
　　利用價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢(shì)，兩個(gè)局勢(shì)得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個(gè)用速度來(lái)?yè)Q取量的方法，從被判斷的位置出發(fā)，快速行棋至最后，每一次行棋結(jié)束后都會(huì)有個(gè)輸贏結(jié)果，然后綜合統(tǒng)計(jì)這個(gè)節(jié)點(diǎn)對(duì)應(yīng)的勝率。而價(jià)值網(wǎng)絡(luò)只要根據(jù)當(dāng)前的狀態(tài)便可直接評(píng)估出最后的結(jié)果。兩者各有優(yōu)缺點(diǎn)、互補(bǔ)。
　　利用第四步計(jì)算的得分來(lái)更新之前那個(gè)走棋位置的權(quán)重（如從0.18變成了0.12）;此后，從權(quán)重最大的0.15那條邊開(kāi)始繼續(xù)搜索和更新。這些權(quán)重的更新過(guò)程應(yīng)該是可以并行的。當(dāng)某個(gè)節(jié)點(diǎn)的被訪問(wèn)次數(shù)超過(guò)了一定的門限值，則在蒙特卡羅樹上進(jìn)一步展開(kāi)下一級(jí)別的搜索（如圖2所示）。
　　圖文詳解AlphaGo的原理及弱點(diǎn)

　　圖2、MCTS拓展下一級(jí)節(jié)點(diǎn)
　　AlphaGo的弱點(diǎn)在哪里？
　　攻其策略網(wǎng)絡(luò)，加大搜索空間。進(jìn)入中盤后，職業(yè)選手如能建立起比較復(fù)雜的局面，每一步棋都牽連很多個(gè)局部棋的命運(yùn)（避免單塊、局部作戰(zhàn)），則AlphaGo需要搜索空間則急劇加大，短時(shí)間內(nèi)得到的解的精度就會(huì)大打折扣。通俗地說(shuō)，非常復(fù)雜的變化，人算不清楚，現(xiàn)階段計(jì)算機(jī)的計(jì)算力更沒(méi)辦法。李世石九段的第四局棋就有這個(gè)意思。此處左右上下共5塊黑白棋都相互關(guān)聯(lián)到一起，白1下后，黑棋需要考慮很多地方。很多地方都需要在MCTS上進(jìn)行更深入的搜索。為了在一定的時(shí)間內(nèi)有結(jié)果，只能放棄搜索精度。
　　圖文詳解AlphaGo的原理及弱點(diǎn)

　　圖3、李世石對(duì)AlphaGo第四盤棋棋譜
　　攻其價(jià)值網(wǎng)絡(luò)，萬(wàn)劫不復(fù)：AlphaGo的價(jià)值網(wǎng)絡(luò)極大地提高了之前單純依靠MCTS來(lái)做局勢(shì)判斷的精度，但離準(zhǔn)確判斷圍棋局勢(shì)還有不小的差距。神經(jīng)網(wǎng)絡(luò)還不能完全避免在某些時(shí)候出現(xiàn)一些怪異（甚至錯(cuò)誤）的判斷，更何況其訓(xùn)練樣本還遠(yuǎn)遠(yuǎn)不足。這也是為什么有了價(jià)值網(wǎng)絡(luò)還仍然需要依靠快速走棋來(lái)判斷局勢(shì)。大家都曾經(jīng)懷疑過(guò)AlphaGo的打劫能力，也感覺(jué)到了AlphaGo有躲避打劫的跡象。實(shí)際上南京大學(xué)的周志華教授曾經(jīng)撰文指出打劫會(huì)讓價(jià)值網(wǎng)絡(luò)崩潰的問(wèn)題，原理不再重復(fù)。不能說(shuō)AlphaGo不會(huì)打劫，而是害怕在棋局早期的多劫并存。即，打劫要乘早，太晚了搜索空間變小，即便價(jià)值網(wǎng)絡(luò)失效，還可以靠快速走棋網(wǎng)絡(luò)來(lái)彌補(bǔ)。開(kāi)劫應(yīng)該以在剛剛進(jìn)入中盤時(shí)期為好（太早劫財(cái)還不夠），并且保持長(zhǎng)時(shí)間不消劫，最好在盤面上能同時(shí)有兩處以上打劫。沒(méi)有了價(jià)值網(wǎng)絡(luò)的AlphaGo其實(shí)水平也就職業(yè)3-5段左右。
?

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

圖文詳解AlphaGo的原理及弱點(diǎn)下載

普通下載普通下載

用戶評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見(jiàn)積分規(guī)則

發(fā)表評(píng)論

用戶評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

RM新时代网站-首页

圖文詳解AlphaGo的原理及弱點(diǎn)

下載地址

圖文詳解AlphaGo的原理及弱點(diǎn)下載

相關(guān)電子資料下載

用戶評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門詞