RM新时代网站-首页

您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

深度強(qiáng)化學(xué)習(xí)分析研究

大?。?/span>0.6 MB 人氣: 2017-10-09 需要積分:1
原作者Tambet Matiisen在文章結(jié)尾列出了對(duì)本文內(nèi)容給出意見和建議的讀者,以及深入了解這些技術(shù)的在線文檔和視頻鏈接,受篇幅所限,譯文不再贅述。感謝Tambet Matiisen授權(quán)《程序員》翻譯和刊載。
  原文鏈接:http://neuro.cs.ut.ee/demystifyingdeep-reinforcement-learning/
  本文為《程序員》文章,未經(jīng)允許不得轉(zhuǎn)載,更多精彩請(qǐng)訂閱2016年《程序員》
  盡管監(jiān)督式和非監(jiān)督式學(xué)習(xí)的深度模型已經(jīng)廣泛被技術(shù)社區(qū)所采用,深度強(qiáng)化學(xué)習(xí)仍舊顯得有些神秘。這篇文章將試圖揭秘這項(xiàng)技術(shù),并解釋其背后的邏輯。受眾讀者主要是有機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)背景,卻還沒(méi)來(lái)得及深入鉆研強(qiáng)化學(xué)習(xí)技術(shù)的朋友。
  文章大綱如下:
  強(qiáng)化學(xué)習(xí)面臨的主要挑戰(zhàn)是什么?我們將會(huì)在此討論credit assignment問(wèn)題和探索-利用的取舍。
  如何用數(shù)學(xué)表達(dá)式表示強(qiáng)化學(xué)習(xí)過(guò)程?我們將定義馬爾科夫決策過(guò)程,并用它來(lái)解釋強(qiáng)化學(xué)習(xí)過(guò)程。
  該如何構(gòu)建長(zhǎng)期策略?我們定義了“未來(lái)回報(bào)折扣(discounted future reword)”概念,它構(gòu)成了下一節(jié)算法的基礎(chǔ)。
  如何預(yù)測(cè)和估計(jì)未來(lái)回報(bào)?我們將會(huì)定義并且解釋簡(jiǎn)單的基于表的Q-learning算法。
  如果狀態(tài)空間過(guò)大了怎么辦?我們演示了如何用一個(gè)(深度)神經(jīng)網(wǎng)絡(luò)模型來(lái)替換Q-table算法。
  在真正使用它之前我們還需要做些什么?我們將會(huì)討論經(jīng)驗(yàn)重播技術(shù),用神經(jīng)網(wǎng)絡(luò)來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。
  都完成了嗎?最后,我們會(huì)考慮一些針對(duì)探索-利用問(wèn)題的簡(jiǎn)單解決方案。
  強(qiáng)化學(xué)習(xí)
  我們以Breakout(打磚塊)游戲?yàn)槔?。在游戲中,玩家將操控屏幕底部的一塊滑板,讓球反彈后撞擊屏幕上部的磚塊,直到所有磚塊都破碎。每當(dāng)球擊中了磚塊,磚塊會(huì)消失,玩家的得分會(huì)增加——玩家得到了獎(jiǎng)勵(lì)回報(bào)。
  深度強(qiáng)化學(xué)習(xí)分析研究
  圖1 Atari Breakout游戲(圖片來(lái)源:DeepMind)
  假設(shè)你想訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型來(lái)玩這款游戲。網(wǎng)絡(luò)的輸入將是屏幕圖像,輸出結(jié)果是三種動(dòng)作:向左、向右和撞擊(接住球)。我們可以把它當(dāng)做一個(gè)分類問(wèn)題——對(duì)每一幀屏幕圖像,你是需要左移、右移還是撞擊。聽起來(lái)很直白嗎?沒(méi)錯(cuò),接著你需要,大量的訓(xùn)練樣本數(shù)據(jù)。當(dāng)然,你可以用專家級(jí)玩家的游戲視頻作為訓(xùn)練數(shù)據(jù),但這不是我們的學(xué)習(xí)方式。我們不需要外人千百次地告訴我們每一幀圖像該選擇哪一種操作動(dòng)作。我們只需要偶爾得到一些正反饋信息,剩下的一切事情我們自己就能搞定。
  這就是強(qiáng)化學(xué)習(xí)試圖去解決的任務(wù)。強(qiáng)化學(xué)習(xí)介于監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)之間。監(jiān)督式學(xué)習(xí)的每個(gè)訓(xùn)練樣本都有一個(gè)標(biāo)簽,非監(jiān)督式學(xué)習(xí)的訓(xùn)練樣本沒(méi)有標(biāo)簽,強(qiáng)化學(xué)習(xí)的訓(xùn)練樣本有稀疏并且時(shí)間滯后的標(biāo)簽——即獎(jiǎng)勵(lì)回報(bào)。模型僅基于這些獎(jiǎng)勵(lì)回報(bào)從環(huán)境中學(xué)習(xí)正確的行為。
  盡管概念非常直觀,在實(shí)際操作中卻充滿了挑戰(zhàn)。舉個(gè)例子,當(dāng)你在“打磚塊”游戲中擊中了磚塊并且得到了獎(jiǎng)勵(lì)回報(bào),這個(gè)回報(bào)往往與最近的幾次動(dòng)作(移動(dòng)滑板)并沒(méi)有關(guān)聯(lián)。調(diào)整滑板位置、撞擊球使其反彈,所有這些復(fù)雜工作在得到回報(bào)之前早已完成了。這被稱為credit assignment問(wèn)題——也就是說(shuō),是由于之前的哪些行為才取得的回報(bào),它們的貢獻(xiàn)程度是什么。
  當(dāng)你用某一種策略取得了一定的回報(bào)之后,你是打算繼續(xù)做下去,還是嘗試一些可能獲得更大回報(bào)的方法呢?在上面的“打磚塊”游戲中,一種簡(jiǎn)單的策略就是移到屏幕的左邊界等著。球飛向左側(cè)的情況總是比右側(cè)更多些,所以你在游戲結(jié)束前總是能很容易地得到大概10分。你對(duì)這個(gè)成績(jī)已經(jīng)感到滿意了,還是想得到更多?這就是所謂的探索-利用困境——是應(yīng)該利用好已知有效的方法,還是要發(fā)掘其它可能更好的方法。
  強(qiáng)化學(xué)習(xí)是我們(或者所有的動(dòng)物)如何學(xué)習(xí)的一種重要模型。來(lái)自父母的獎(jiǎng)勵(lì)、在學(xué)習(xí)取得的成績(jī)、工作的薪水——這些都是回報(bào)的形式。Credit assignment問(wèn)題和探索-利用困境在我們每天的工作和感情生活中都會(huì)遇到。因此研究這個(gè)問(wèn)題是十分重要的,游戲組成了一只嘗試各種新方法的絕妙沙盒。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?
      RM新时代网站-首页