在這篇博文中,伯克利人工智能實驗室的科學家們將展示深度強化學習將如何控制機械臂的靈活動作。另外還會討論如何用低成本的硬件,高效地使用強化學習,以及如何能加速學習速度。以下是論智帶來的編譯。
為什么用機械抓手?
目前市面上大部分機器人都是用簡單的抓手進行控制,對工廠來說已經(jīng)足夠了。但是,對于非結構化的、以人為中心的環(huán)境(例如家庭),能進行多任務的操控器是非常重要的。多手指的機械手是最常見的操控器之一,它能完成多種日常生活中的動作,例如移動物體、開門、打字、繪畫等。
但是,控制靈活的機械手非常困難。其中精密的傳感器和驅動器使得高級機械手價格很高。深度強化學習的出現(xiàn)能在便宜的硬件上實現(xiàn)復雜任務的自動控制,但是很多深度強化學習應用都需要大量模擬數(shù)據(jù),這讓他們在成本和安裝上都很復雜。人類可以快速學習各種動作,無需大量的動作示例。 我們首先會展示深度強化學習是如果通過在現(xiàn)實世界中的訓練而用于學習復雜操控行為的,無需任何模型或模擬器,使用低廉的機器人硬件。之后,我們會展示加入額外的監(jiān)督機制,包括示范和模擬,從而能加速學習的時間。我們在兩個硬件平臺上進行學習:一個是有三根手指的簡易機械手,價格不到2500美元。另一個是高級的Allegro機械手,價格為15000美元。
現(xiàn)實中的無模型強化學習
深度強化學習算法通過試錯法進行學習,從經(jīng)驗中將獎勵函數(shù)最大化。我們將用一個氣門轉動任務當做示范,閥門或者水龍頭必須旋轉180°才能開啟。
獎勵函數(shù)僅僅是目前閥門的方向和目標位置之間的負面距離,機器人手臂必須自己思考如何移動旋轉。深度強化學習的中心問題是如何利用微弱的獎勵信號找到能讓該任務成功的復雜且協(xié)調的行為策略。該策略由一個多層神經(jīng)網(wǎng)絡表示,通常這需要大量實驗,由于數(shù)量太多,領域內(nèi)專業(yè)人士都在討論深度強化學習方法能否用于模擬之外的訓練。然而,這樣會對模型的可用性施加很多限制:在現(xiàn)實環(huán)境中直接學習可以從經(jīng)驗中學到任意一種任務,然而用使用模擬器則需要設計合適的示例,對任務和機器人進行建模,并仔細調整它們的參數(shù),以實現(xiàn)良好結果。首先,我們將證明現(xiàn)有的強化學習算法是可以直接在真是硬件上直接學習這一任務的。
我們用Truncated Natural Policy Gradient來學習這一任務,在真實硬件上需要大約9個小時。
直接的強化學習方法很有吸引力,它無需過多假設,而且能自動掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息,所以很容易在改進后的環(huán)境中重新學習技能,例如更換了目標物體或機械手。
下圖用了不同的材料(海綿),也能使用一樣的方法讓機械手學習旋轉閥門。如果用模擬法,很難精確學習,而直接在現(xiàn)實中訓練可以不需要精確的示范。
另一個任務是在水平平面上翻轉180°的板子,在沒有模擬案例的情況下,用了8小時解決了這一問題。
這些行為都是在不到2500美元的設備上實現(xiàn)的,另外還有一臺定制的臺式機。
用人類示范加速學習
無需模型的強化學習可以很通用,但是假如人類專家在其中加入監(jiān)督,將更有助于學習速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是,人類示范可以從兩方面加速強化學習:
通過行為克隆對策略提供好的初始狀態(tài)
在學習過程中添加輔助學習信號,用輔助獎勵引導研究探索
強化學習中的輔助目標能阻止策略在強化學習過程中偏離示范。用有限的數(shù)據(jù)克隆的純粹行為通常無法訓練成功的策略,因為分布偏差和有限的數(shù)據(jù)支持。強化學習對魯棒性和泛化很重要,利用示范的確可以加速學習過程。下圖是我們在不同任務上做出的驗證:
在現(xiàn)實世界,我們能用帶有多功能傳感器的抓手和算法顯著加快學習速度。下面的示例中,是人類老師直接移動機器人的手指,結果將訓練時間減少到了4個小時以下。
示范將人類的先驗知識用一種自然的方式結合到了算法中,并且加速學習過程。然而,并不是所有任務都能用示范加速,我們還需要尋找其他替代的加速方法。
通過模仿加速學習
某種任務的模擬模型能通過大量的模擬數(shù)據(jù)對顯示數(shù)據(jù)進行增強。對于要表示現(xiàn)實世界復雜性的莫數(shù)據(jù),通常需要對多種模擬參數(shù)進行隨機選擇。此前的研究證明這樣的隨機結果有助于產(chǎn)生穩(wěn)定的策略,可以用于人臉的遷移。我們的實驗也證明了用隨機數(shù)據(jù)從模擬到現(xiàn)實的遷移很有效。
雖然對脆弱的機器人來說,通過隨機化進行遷移是很不錯的選擇,但這種方法會有幾點弊端。首先,由于是隨機的,最終策略會過于保守。另外,參數(shù)的選擇也是產(chǎn)生好結果的重要一點,某一領域中好的結果也許不能遷移到其他領域中,第三,在復雜模型中增加了大量隨機的結果,會使得訓練時間大大增加,也需要更多計算量。最后,可能也是最重要的一點,一個精準的模擬器必須手動搭建,進行每項新任務時都要手動調整,需要很多時間。
用學習過的模型加速學習
此前,我們同樣研究了經(jīng)過學習的動態(tài)模型是如何加速現(xiàn)實中強化學習的,同時無需手動調整模擬器。用這種方法,動態(tài)模型中的局部導數(shù)能近似計算出來,可以對局部進行迭代優(yōu)化策略。這種方法能從現(xiàn)實中獲得多種隨時可用的操控策略。另外,我們可以看到算法還能在軟體機器人抓手上學會控制動作。
然而,這種方法的表現(xiàn)也受到模型質量的影響,未來會朝著基于模型的強化學習的方向研究。
結語
雖然現(xiàn)實環(huán)境中的訓練很普遍,但它仍有幾處挑戰(zhàn):
由于需要進行大量探索行為,我們發(fā)現(xiàn)機械抓手很快就會發(fā)熱,所以需要時間暫停,以免造成損壞。
由于抓手要處理多種任務,我們需要搭建一個自動重啟裝置。未來如果想取消這一裝置,就需要自動學習如何重啟了。
強化學習方法需要提供獎勵,而這一獎勵需要手動設計。最近我們正在研究自動獎勵機制。
但是,讓機器人直接從真實世界學習復雜技巧是創(chuàng)建完全通用的機器人的必經(jīng)之路。和人類學習一樣,機器人也可以通過簡單的試錯獲取技巧。同時加上示范、模擬器和先驗知識,可以大大減少訓練時間。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4771瀏覽量
100712 -
機械臂
+關注
關注
12文章
513瀏覽量
24554 -
強化學習
+關注
關注
4文章
266瀏覽量
11246
原文標題:強化學習應用實例:讓機械手靈活多變的高效通用法
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論