RM新时代专业团队,rm新时代app打不开

在這篇博文中，伯克利人工智能實驗室的科學家們將展示深度強化學習將如何控制機械臂的靈活動作。另外還會討論如何用低成本的硬件，高效地使用強化學習，以及如何能加速學習速度。以下是論智帶來的編譯。

為什么用機械抓手？

目前市面上大部分機器人都是用簡單的抓手進行控制，對工廠來說已經(jīng)足夠了。但是，對于非結構化的、以人為中心的環(huán)境（例如家庭），能進行多任務的操控器是非常重要的。多手指的機械手是最常見的操控器之一，它能完成多種日常生活中的動作，例如移動物體、開門、打字、繪畫等。

但是，控制靈活的機械手非常困難。其中精密的傳感器和驅動器使得高級機械手價格很高。深度強化學習的出現(xiàn)能在便宜的硬件上實現(xiàn)復雜任務的自動控制，但是很多深度強化學習應用都需要大量模擬數(shù)據(jù)，這讓他們在成本和安裝上都很復雜。人類可以快速學習各種動作，無需大量的動作示例。我們首先會展示深度強化學習是如果通過在現(xiàn)實世界中的訓練而用于學習復雜操控行為的，無需任何模型或模擬器，使用低廉的機器人硬件。之后，我們會展示加入額外的監(jiān)督機制，包括示范和模擬，從而能加速學習的時間。我們在兩個硬件平臺上進行學習：一個是有三根手指的簡易機械手，價格不到2500美元。另一個是高級的Allegro機械手，價格為15000美元。

現(xiàn)實中的無模型強化學習

深度強化學習算法通過試錯法進行學習，從經(jīng)驗中將獎勵函數(shù)最大化。我們將用一個氣門轉動任務當做示范，閥門或者水龍頭必須旋轉180°才能開啟。

獎勵函數(shù)僅僅是目前閥門的方向和目標位置之間的負面距離，機器人手臂必須自己思考如何移動旋轉。深度強化學習的中心問題是如何利用微弱的獎勵信號找到能讓該任務成功的復雜且協(xié)調的行為策略。該策略由一個多層神經(jīng)網(wǎng)絡表示，通常這需要大量實驗，由于數(shù)量太多，領域內(nèi)專業(yè)人士都在討論深度強化學習方法能否用于模擬之外的訓練。然而，這樣會對模型的可用性施加很多限制：在現(xiàn)實環(huán)境中直接學習可以從經(jīng)驗中學到任意一種任務，然而用使用模擬器則需要設計合適的示例，對任務和機器人進行建模，并仔細調整它們的參數(shù)，以實現(xiàn)良好結果。首先，我們將證明現(xiàn)有的強化學習算法是可以直接在真是硬件上直接學習這一任務的。

我們用Truncated Natural Policy Gradient來學習這一任務，在真實硬件上需要大約9個小時。

直接的強化學習方法很有吸引力，它無需過多假設，而且能自動掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息，所以很容易在改進后的環(huán)境中重新學習技能，例如更換了目標物體或機械手。

下圖用了不同的材料（海綿），也能使用一樣的方法讓機械手學習旋轉閥門。如果用模擬法，很難精確學習，而直接在現(xiàn)實中訓練可以不需要精確的示范。

另一個任務是在水平平面上翻轉180°的板子，在沒有模擬案例的情況下，用了8小時解決了這一問題。

這些行為都是在不到2500美元的設備上實現(xiàn)的，另外還有一臺定制的臺式機。

用人類示范加速學習

無需模型的強化學習可以很通用，但是假如人類專家在其中加入監(jiān)督，將更有助于學習速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是，人類示范可以從兩方面加速強化學習：

通過行為克隆對策略提供好的初始狀態(tài)

在學習過程中添加輔助學習信號，用輔助獎勵引導研究探索

強化學習中的輔助目標能阻止策略在強化學習過程中偏離示范。用有限的數(shù)據(jù)克隆的純粹行為通常無法訓練成功的策略，因為分布偏差和有限的數(shù)據(jù)支持。強化學習對魯棒性和泛化很重要，利用示范的確可以加速學習過程。下圖是我們在不同任務上做出的驗證：

在現(xiàn)實世界，我們能用帶有多功能傳感器的抓手和算法顯著加快學習速度。下面的示例中，是人類老師直接移動機器人的手指，結果將訓練時間減少到了4個小時以下。

示范將人類的先驗知識用一種自然的方式結合到了算法中，并且加速學習過程。然而，并不是所有任務都能用示范加速，我們還需要尋找其他替代的加速方法。

通過模仿加速學習

某種任務的模擬模型能通過大量的模擬數(shù)據(jù)對顯示數(shù)據(jù)進行增強。對于要表示現(xiàn)實世界復雜性的莫數(shù)據(jù)，通常需要對多種模擬參數(shù)進行隨機選擇。此前的研究證明這樣的隨機結果有助于產(chǎn)生穩(wěn)定的策略，可以用于人臉的遷移。我們的實驗也證明了用隨機數(shù)據(jù)從模擬到現(xiàn)實的遷移很有效。

雖然對脆弱的機器人來說，通過隨機化進行遷移是很不錯的選擇，但這種方法會有幾點弊端。首先，由于是隨機的，最終策略會過于保守。另外，參數(shù)的選擇也是產(chǎn)生好結果的重要一點，某一領域中好的結果也許不能遷移到其他領域中，第三，在復雜模型中增加了大量隨機的結果，會使得訓練時間大大增加，也需要更多計算量。最后，可能也是最重要的一點，一個精準的模擬器必須手動搭建，進行每項新任務時都要手動調整，需要很多時間。

用學習過的模型加速學習

此前，我們同樣研究了經(jīng)過學習的動態(tài)模型是如何加速現(xiàn)實中強化學習的，同時無需手動調整模擬器。用這種方法，動態(tài)模型中的局部導數(shù)能近似計算出來，可以對局部進行迭代優(yōu)化策略。這種方法能從現(xiàn)實中獲得多種隨時可用的操控策略。另外，我們可以看到算法還能在軟體機器人抓手上學會控制動作。

然而，這種方法的表現(xiàn)也受到模型質量的影響，未來會朝著基于模型的強化學習的方向研究。

結語

雖然現(xiàn)實環(huán)境中的訓練很普遍，但它仍有幾處挑戰(zhàn)：

由于需要進行大量探索行為，我們發(fā)現(xiàn)機械抓手很快就會發(fā)熱，所以需要時間暫停，以免造成損壞。

由于抓手要處理多種任務，我們需要搭建一個自動重啟裝置。未來如果想取消這一裝置，就需要自動學習如何重啟了。

強化學習方法需要提供獎勵，而這一獎勵需要手動設計。最近我們正在研究自動獎勵機制。

但是，讓機器人直接從真實世界學習復雜技巧是創(chuàng)建完全通用的機器人的必經(jīng)之路。和人類學習一樣，機器人也可以通過簡單的試錯獲取技巧。同時加上示范、模擬器和先驗知識，可以大大減少訓練時間。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關注

關注
42

文章
4771

瀏覽量
100712
機械臂

機械臂

+關注

關注
12

文章
513

瀏覽量
24554
強化學習

強化學習

+關注

關注
4

文章
266

瀏覽量
11246

原文標題：強化學習應用實例：讓機械手靈活多變的高效通用法

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

什么是深度強化學習?深度強化學習算法應用分析

什么是深度強化學習? 眾所周知，人類擅長解決各種挑戰(zhàn)性的問題，從低級的運動控制(如：步行、跑步、打網(wǎng)球)到高級的認知任務。

發(fā)表于 07-01 10:29 ?1436次閱讀

什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應用分析

深度強化學習實戰(zhàn)

一：深度學習DeepLearning實戰(zhàn)時間地點：1 月 15日— 1 月18 日二：深度強化學習核心技術實戰(zhàn)時間地點： 1 月 27 日— 1 月30 日(第一天報到授課三天；提前

發(fā)表于 01-10 13:42

將深度學習和強化學習相結合的深度強化學習DRL

深度強化學習DRL自提出以來，已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發(fā)的AlphaGo，將深

發(fā)表于 06-29 18:36 ?2.8w次閱讀

薩頓科普了強化學習、深度強化學習，并談到了這項技術的潛力和發(fā)展方向

薩頓在專訪中（再次）科普了強化學習、深度強化學習，并談到了這項技術的潛力，以及接下來的發(fā)展方向：預測學習

發(fā)表于 12-27 09:07 ?1.1w次閱讀

人工智能機器學習之強化學習

強化學習是智能系統(tǒng)從環(huán)境到行為映射的學習，以使獎勵信號（強化信號）函數(shù)值最大，強化學習不同于連接主義學習中的監(jiān)督

發(fā)表于 05-30 06:53 ?1409次閱讀

如何使用深度強化學習進行機械臂視覺抓取控制的優(yōu)化方法概述

針對提高視覺圖像特征與優(yōu)化控制之間契合度的問題，本文提出一種基于深度強化學習的機械臂視覺抓取控制

發(fā)表于 12-19 15:23 ?22次下載

深度強化學習的筆記資料免費下載

本文檔的主要內(nèi)容詳細介紹的是深度強化學習的筆記資料免費下載。

發(fā)表于 03-10 08:00 ?0次下載

基于深度強化學習的路口單交叉信號控制

利用深度強化學習技術實現(xiàn)路口信號控制是智能交通領域的硏究熱點。現(xiàn)有硏究大多利用強化學習來全面刻畫交通狀態(tài)以及設計有效強化學習算法以解決信號配

發(fā)表于 04-23 15:30 ?21次下載

基于深度強化學習仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質量，釆用深度強化學習的方法進行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力

發(fā)表于 05-27 10:32 ?0次下載

基于深度強化學習的無人機控制律設計方法

基于深度強化學習的無人機控制律設計方法

發(fā)表于 06-23 14:59 ?46次下載

《自動化學報》—多Agent深度強化學習綜述

多Agent 深度強化學習綜述來源：《自動化學報》，作者梁星星等摘要?近年來,深度強化學習(Deep reinforcement le

發(fā)表于 01-18 10:08 ?1614次閱讀

ESP32上的深度強化學習

電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強化學習.zip》資料免費下載

發(fā)表于 12-27 10:31 ?0次下載

基于深度強化學習的視覺反饋機械臂抓取系統(tǒng)

機械臂抓取擺放及堆疊物體是智能工廠流水線上常見的工序，可以有效的提升生產(chǎn)效率，本文針對機械臂的抓取擺放、抓取堆疊等常見任務，結合深度

發(fā)表于 06-12 11:25 ?2310次閱讀

模擬矩陣在深度強化學習智能控制系統(tǒng)中的應用

訊維模擬矩陣在深度強化學習智能控制系統(tǒng)中的應用主要是通過構建一個包含多種環(huán)境信息和動作空間的模擬矩陣，來模擬和預測深度

發(fā)表于 09-04 14:26 ?562次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環(huán)境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫，

發(fā)表于 11-05 17:34 ?280次閱讀