RM新时代投资安全吗,新时代rm平台入口

強化學習模型往往依賴對外部獎勵機制的精心設(shè)計，在模型訓練成本控制和可擴展性上都存在局限。OpenAI的研究人員提出一種新的強化學習模型訓練方式，以agent的“好奇心”作為內(nèi)在獎勵函數(shù)，在訓練中無需外部獎勵，泛化性好，經(jīng)過54種環(huán)境測試，效果拔群。

強化學習模型在很大程度上依賴于對agent的外在環(huán)境獎勵的精心設(shè)計。然而，用手工設(shè)計的密集獎勵來對每個環(huán)境進行標記的方式是不可擴展的，這就需要開發(fā)agent所固有的獎勵函數(shù)。好奇心就是一種內(nèi)在的獎勵函數(shù)，它使用預(yù)測誤差作為獎勵信號。

在本文中，我們首次在54個標準基準測試環(huán)境（包括一系列Atari游戲）中進行了純粹基于好奇心驅(qū)動學習的大規(guī)模研究，不設(shè)置任何外在獎勵。得到的結(jié)果令人驚喜，而且表明內(nèi)在的好奇心目標獎勵與許多游戲環(huán)境中手工設(shè)計的外在獎勵機制之間存在高度的一致性。

強化學習“好奇心”模型：訓練無需外部獎勵，全靠自己

我們研究了使用不同的特征空間來計算預(yù)測誤差的效果，并表明，隨機特征對于許多流行的強化學習游戲的基準測試來說已經(jīng)足夠，但是已學習過的特征看起來似乎具備更高的泛化性。（比如可以遷移至《超級馬里奧兄弟》的新關(guān)卡中）。

我們對agent進行了大規(guī)模的實證研究，這些agent純粹通過各種模擬環(huán)境中的內(nèi)在獎勵來驅(qū)動，這還是業(yè)界首次。特別是，我們選擇基于動力學的內(nèi)在獎勵的好奇心模型。因為該模型具有很強的可擴展性和可并行性，因此非常適合大規(guī)模實驗使用。

圖1：本文研究中使用的54種環(huán)境的快照截圖集合。我們的研究表明，agent能夠只憑借好奇心，在沒有外部獎勵或結(jié)束信號的情況下取得進步。

相關(guān)視頻、結(jié)果、代碼和模型，見https://pathak22.github.io/large-scale-curiosity

我們的思路是，將內(nèi)在獎勵表示為預(yù)測agent在當前狀態(tài)下的行為后果時出現(xiàn)的錯誤，即agent學習的前向動態(tài)的預(yù)測誤差。我們徹底調(diào)查了54種環(huán)境中基于動力學的好奇心：這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務(wù)等，如圖1所示。

為了更好地理解好奇心驅(qū)動的學習，我們進一步研究了決定其表現(xiàn)的關(guān)鍵因素。對高維原始觀察空間（如圖像）中的未來狀態(tài)進行預(yù)測是一個極具挑戰(zhàn)性的問題，對輔助特征空間中的動態(tài)進行學習可以改善結(jié)果。

但是，如何選擇這樣一個嵌入空間是一個關(guān)鍵、未解決的研究問題。通過對系統(tǒng)的簡化，我們研究了用不同的方法對agent觀察到的信息進行編碼的作用，使得agent可以完全靠自身的好奇心機制做出良好的表現(xiàn)。

上圖是8種選定的Atari游戲和《超級馬里奧兄弟》的特征學習方法的比較。圖中的評估曲線顯示agent純粹通過好奇心訓練，在沒有外部獎勵和關(guān)卡結(jié)束信號的情況下，獲得的平均獎勵分數(shù)（包括標準誤差）。

我們看到，純粹以好奇心驅(qū)動的agent能夠在這些環(huán)境中收集獎勵，而無需在訓練中使用任何外部獎勵。

圖3：左：采用不同批規(guī)模的RF訓練方法的比較，訓練沒有使用外在獎勵。中：Juggling（Roboschool）環(huán)境中的球彈跳次數(shù)。右：多人游戲Pong環(huán)境下的平均關(guān)卡長度

為了確保動態(tài)的穩(wěn)定在線訓練，我們認為所需的嵌入空間應(yīng)該：（1）在維度方面緊湊，（2）能夠保存觀測到的足夠信息，（3）是基于觀測信息的固定函數(shù)。

圖4：《超級馬里奧兄弟》游戲環(huán)境下的泛化實驗。左圖所示為1-1關(guān)到1-2關(guān)的遷移結(jié)果，右圖為1-1關(guān)到1-3關(guān)的遷移結(jié)果。下方為源環(huán)境到目標環(huán)境的映射。所有agent都的訓練過程中都沒有外在獎勵。

圖5：在使用終端外部獎勵+好奇心獎勵進行組合訓練時，Unity環(huán)境下的平均外在獎勵。注意，只通過外部獎勵進行訓練的曲線值始終為零（表現(xiàn)為圖中最底部的直線）

我們的研究表明，通過隨機網(wǎng)絡(luò)對觀察結(jié)果進行編碼是一種簡單有效的技術(shù)，可以用于在許多流行的強化學習基準測試中建立好奇心模型。這可能表明，許多流行的強化學習視頻游戲測試并不像通常認為的那樣，在視覺上有那么高的復(fù)雜度。

有趣的是，雖然隨機特征對于許多流行的強化學習游戲的基準測試來說已經(jīng)足夠了，但是已學習過的特征看起來似乎具備更高的可推廣性（比如推廣至《超級馬里奧兄弟》的新關(guān)卡中）。

上圖給出了所有Atari游戲環(huán)境下的表現(xiàn)結(jié)果。我們發(fā)現(xiàn)，用像素訓練的好奇心模型在任何環(huán)境中都表現(xiàn)不好，并且VAE特征的表現(xiàn)也不比隨機特征及逆動力學特征更好，甚至有時還更差。

此外，在55％的Atari游戲中，逆動態(tài)訓練特征比隨機特征的表現(xiàn)更好。分析表明，對好奇心進行建模的隨機特征是一個簡單而強大的基線標準，并且可能在一半的Atari游戲場景中表現(xiàn)良好。

小結(jié)

（1）我們對各種環(huán)境下的好奇心驅(qū)動模型進行了大規(guī)模的研究，這些場景包括：Atari游戲集、《超級馬里奧兄弟》游戲、Unity中的虛擬3D導航、Roboschool 環(huán)境等。

（2）我們廣泛研究了用于學習基于動力學的好奇心的不同特征空間，包括隨機特征，像素，反向動力學和變分自動編碼器，并評估這些空間在不可視環(huán)境下的可推廣性。

（3）局限性：我們觀察到，如果agent本身就是環(huán)境中隨機性的來源，它可以在未取得任何實際進展的情況下進行自我獎勵。我們在3D導航任務(wù)中憑經(jīng)驗證明了這一局限性，在這類任務(wù)中，agent能夠控制環(huán)境的各個不同部分。

未來方向

我們提出了一種簡單且可擴展的方法，可以在不同的環(huán)境中學習非平凡的行為，而無需任何獎勵函數(shù)或結(jié)束信號。本文的一個令人驚訝的發(fā)現(xiàn)是隨機特征表現(xiàn)不錯，但已學習的特征似乎在可泛化性上更勝一籌。我們認為一旦環(huán)境足夠復(fù)雜，對特征的學習將變得更加重要，不過我們決定將這個問題留給未來。

我們更高的目標是，能夠利用許多未標記的（即沒有事先設(shè)計的獎勵函數(shù)）環(huán)境來改善面向感興趣的任務(wù)的性能。有鑒于此，在具備通用獎勵函數(shù)的環(huán)境中展示出很好的表現(xiàn)只是我們研究的第一步，未來的成果可能包括實現(xiàn)從未標記環(huán)境到標記環(huán)境的遷移。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴