首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

深度強(qiáng)化學(xué)習(xí)分析研究

大?。?/span>0.6 MB 人氣： 2017-10-09 需要積分：1

推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論（0）

前往下載地址

分享到:

標(biāo)簽：深度強(qiáng)化學(xué)習(xí)(2256)

原作者Tambet Matiisen在文章結(jié)尾列出了對(duì)本文內(nèi)容給出意見和建議的讀者，以及深入了解這些技術(shù)的在線文檔和視頻鏈接，受篇幅所限，譯文不再贅述。感謝Tambet Matiisen授權(quán)《程序員》翻譯和刊載。
　　原文鏈接：http://neuro.cs.ut.ee/demystifyingdeep-reinforcement-learning/
　　本文為《程序員》文章，未經(jīng)允許不得轉(zhuǎn)載，更多精彩請(qǐng)訂閱2016年《程序員》
　　盡管監(jiān)督式和非監(jiān)督式學(xué)習(xí)的深度模型已經(jīng)廣泛被技術(shù)社區(qū)所采用，深度強(qiáng)化學(xué)習(xí)仍舊顯得有些神秘。這篇文章將試圖揭秘這項(xiàng)技術(shù)，并解釋其背后的邏輯。受眾讀者主要是有機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)背景，卻還沒(méi)來(lái)得及深入鉆研強(qiáng)化學(xué)習(xí)技術(shù)的朋友。
　　文章大綱如下：
　　強(qiáng)化學(xué)習(xí)面臨的主要挑戰(zhàn)是什么？我們將會(huì)在此討論credit assignment問(wèn)題和探索-利用的取舍。
　　如何用數(shù)學(xué)表達(dá)式表示強(qiáng)化學(xué)習(xí)過(guò)程？我們將定義馬爾科夫決策過(guò)程，并用它來(lái)解釋強(qiáng)化學(xué)習(xí)過(guò)程。
　　該如何構(gòu)建長(zhǎng)期策略？我們定義了“未來(lái)回報(bào)折扣（discounted future reword）”概念，它構(gòu)成了下一節(jié)算法的基礎(chǔ)。
　　如何預(yù)測(cè)和估計(jì)未來(lái)回報(bào)？我們將會(huì)定義并且解釋簡(jiǎn)單的基于表的Q-learning算法。
　　如果狀態(tài)空間過(guò)大了怎么辦？我們演示了如何用一個(gè)（深度）神經(jīng)網(wǎng)絡(luò)模型來(lái)替換Q-table算法。
　　在真正使用它之前我們還需要做些什么？我們將會(huì)討論經(jīng)驗(yàn)重播技術(shù)，用神經(jīng)網(wǎng)絡(luò)來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。
　　都完成了嗎？最后，我們會(huì)考慮一些針對(duì)探索-利用問(wèn)題的簡(jiǎn)單解決方案。
　　強(qiáng)化學(xué)習(xí)
　　我們以Breakout（打磚塊）游戲?yàn)槔?。在游戲中，玩家將操控屏幕底部的一塊滑板，讓球反彈后撞擊屏幕上部的磚塊，直到所有磚塊都破碎。每當(dāng)球擊中了磚塊，磚塊會(huì)消失，玩家的得分會(huì)增加——玩家得到了獎(jiǎng)勵(lì)回報(bào)。
　　深度強(qiáng)化學(xué)習(xí)分析研究

　　圖1 Atari Breakout游戲（圖片來(lái)源：DeepMind）
　　假設(shè)你想訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型來(lái)玩這款游戲。網(wǎng)絡(luò)的輸入將是屏幕圖像，輸出結(jié)果是三種動(dòng)作：向左、向右和撞擊（接住球）。我們可以把它當(dāng)做一個(gè)分類問(wèn)題——對(duì)每一幀屏幕圖像，你是需要左移、右移還是撞擊。聽起來(lái)很直白嗎？沒(méi)錯(cuò)，接著你需要，大量的訓(xùn)練樣本數(shù)據(jù)。當(dāng)然，你可以用專家級(jí)玩家的游戲視頻作為訓(xùn)練數(shù)據(jù)，但這不是我們的學(xué)習(xí)方式。我們不需要外人千百次地告訴我們每一幀圖像該選擇哪一種操作動(dòng)作。我們只需要偶爾得到一些正反饋信息，剩下的一切事情我們自己就能搞定。
　　這就是強(qiáng)化學(xué)習(xí)試圖去解決的任務(wù)。強(qiáng)化學(xué)習(xí)介于監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)之間。監(jiān)督式學(xué)習(xí)的每個(gè)訓(xùn)練樣本都有一個(gè)標(biāo)簽，非監(jiān)督式學(xué)習(xí)的訓(xùn)練樣本沒(méi)有標(biāo)簽，強(qiáng)化學(xué)習(xí)的訓(xùn)練樣本有稀疏并且時(shí)間滯后的標(biāo)簽——即獎(jiǎng)勵(lì)回報(bào)。模型僅基于這些獎(jiǎng)勵(lì)回報(bào)從環(huán)境中學(xué)習(xí)正確的行為。
　　盡管概念非常直觀，在實(shí)際操作中卻充滿了挑戰(zhàn)。舉個(gè)例子，當(dāng)你在“打磚塊”游戲中擊中了磚塊并且得到了獎(jiǎng)勵(lì)回報(bào)，這個(gè)回報(bào)往往與最近的幾次動(dòng)作（移動(dòng)滑板）并沒(méi)有關(guān)聯(lián)。調(diào)整滑板位置、撞擊球使其反彈，所有這些復(fù)雜工作在得到回報(bào)之前早已完成了。這被稱為credit assignment問(wèn)題——也就是說(shuō)，是由于之前的哪些行為才取得的回報(bào)，它們的貢獻(xiàn)程度是什么。
　　當(dāng)你用某一種策略取得了一定的回報(bào)之后，你是打算繼續(xù)做下去，還是嘗試一些可能獲得更大回報(bào)的方法呢？在上面的“打磚塊”游戲中，一種簡(jiǎn)單的策略就是移到屏幕的左邊界等著。球飛向左側(cè)的情況總是比右側(cè)更多些，所以你在游戲結(jié)束前總是能很容易地得到大概10分。你對(duì)這個(gè)成績(jī)已經(jīng)感到滿意了，還是想得到更多？這就是所謂的探索-利用困境——是應(yīng)該利用好已知有效的方法，還是要發(fā)掘其它可能更好的方法。
　　強(qiáng)化學(xué)習(xí)是我們（或者所有的動(dòng)物）如何學(xué)習(xí)的一種重要模型。來(lái)自父母的獎(jiǎng)勵(lì)、在學(xué)習(xí)取得的成績(jī)、工作的薪水——這些都是回報(bào)的形式。Credit assignment問(wèn)題和探索-利用困境在我們每天的工作和感情生活中都會(huì)遇到。因此研究這個(gè)問(wèn)題是十分重要的，游戲組成了一只嘗試各種新方法的絕妙沙盒。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

深度強(qiáng)化學(xué)習(xí)分析研究下載

普通下載普通下載

用戶評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見積分規(guī)則

發(fā)表評(píng)論

用戶評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

RM新时代网站-首页

深度強(qiáng)化學(xué)習(xí)分析研究

下載地址

深度強(qiáng)化學(xué)習(xí)分析研究下載

相關(guān)電子資料下載

用戶評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門詞