RM新时代app下载,RM新时代平台靠谱平台入口-百度知道

前言

一年前我們?cè)接戇^Robot Learning的發(fā)展>>梳理 | 機(jī)器人學(xué)習(xí)(Robot Learning)的發(fā)展，那么經(jīng)過近一年的發(fā)展，Robot Learning也有了很多新的進(jìn)展，特別在Meta Learning上。不過今天我們先來專門探討Robot Learning中的一個(gè)具體應(yīng)用，也就是機(jī)器人抓取Robotic Manipulation/Grasping。為什么專門考慮這個(gè)問題？因?yàn)檫@個(gè)是體現(xiàn)機(jī)器人智能目前最亟待解決的問題之一。

我們可以考慮一下家用機(jī)器人需要具備什么樣的智能？可以說最主要就是要具備兩方面的能力，一個(gè)是移動(dòng)導(dǎo)航能力，另一個(gè)就是機(jī)械臂的抓取能力。所以像下圖這個(gè)Fetch機(jī)器人其實(shí)就滿足了家用機(jī)器人所需的硬件了。我們今天不談移動(dòng)導(dǎo)航的問題，只來談?wù)剻C(jī)器人抓取這個(gè)問題的研究前沿。

對(duì)于機(jī)器人抓取，其實(shí)本身有很多研究的具體問題和方式，比如目前抓取No.1的系統(tǒng)是伯克利的Dex-Net 4.0，有興趣的朋友可以看看這篇報(bào)道：Exclusive: This is the most dexterous robot ever created，但是Dex-Net 并不是一個(gè)端到端的深度學(xué)習(xí)系統(tǒng)，它只是用神經(jīng)網(wǎng)絡(luò)來對(duì)抓取的位置進(jìn)行估計(jì)，然后通過planning的方式來抓取，本質(zhì)上是一個(gè)開環(huán)控制系統(tǒng)。這樣的系統(tǒng)對(duì)于完全靜態(tài)簡單的物體是沒問題，但是如果物體有阻擋，有改變，那這個(gè)系統(tǒng)就比較難處理了。所以，鑒于本專欄的偏好是通用人工智能AGI，我們?cè)谶@里只想關(guān)注一種解決機(jī)器人抓取的方式，那就是：

End-to-End Vision-Based Robotic Manipulation 端到端基于視覺的機(jī)器人抓取

我們希望整個(gè)機(jī)器人抓取過程都是機(jī)器人自己學(xué)到的！這就非常近似于人類的行為！

那么有了這個(gè)主題，我們就來看看這方面的研究都有誰，基本上可以說就集中在兩個(gè)團(tuán)隊(duì)：

1）Google Brain Robotics團(tuán)隊(duì)

2) 伯克利Sergey Levine團(tuán)隊(duì)

除此之外，Deepmind，OpenAI，Stanford的Li Fei-Fei團(tuán)隊(duì)還有CMU的Abhinav Gupta團(tuán)隊(duì)有一些亮眼的研究，但并沒有特別專注在Robotic Manipulation這個(gè)問題上。然后實(shí)際上Google Brain團(tuán)隊(duì)Sergey Levine也在其中，所以接下來我們看到的paper基本上都出自Sergey Levine之手！

Paper List

[1] Sadeghi, Fereshteh, et al."Sim2real view invariant visual servoing by recurrent control."arXiv preprint arXiv:1712.07642(2017).

[2] Riedmiller, Martin, et al."Learning by Playing-Solving Sparse Reward Tasks from Scratch."arXiv preprint arXiv:1802.10567(2018).

[3] Quillen, Deirdre, et al."Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods."arXiv preprint arXiv:1802.10264(2018).

[4] Haarnoja, Tuomas, et al."Composable Deep Reinforcement Learning for Robotic Manipulation."arXiv preprint arXiv:1803.06773(2018).

[5] Fang, Kuan, et al."Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision."arXiv preprint arXiv:1806.09266(2018).

[6] Kalashnikov, Dmitry, et al."QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation."arXiv preprint arXiv:1806.10293(2018).

[7] Matas, Jan, Stephen James, and Andrew J. Davison."Sim-to-Real Reinforcement Learning for Deformable Object Manipulation."arXiv preprint arXiv:1806.07851(2018).

[8] OpenAI"Learning Dexterous In-Hand Manipulation"(2018).

上面這些paper大致是近一年來比較重要的和robotic manipulation直接相關(guān)的paper了，由于本人主要關(guān)注Sergey Levine團(tuán)隊(duì)的成果，可能會(huì)疏忽掉其他工作，如果有知友有好的相關(guān)paper推薦，歡迎在本文下留言，謝謝！

本文不打算具體的分析每一篇paper，而是從整體上對(duì)于目前機(jī)器人抓取的研究進(jìn)展做一個(gè)整體的分析。

機(jī)器人抓取的研究進(jìn)展整體分析

目前機(jī)器人抓取或者整個(gè)機(jī)器人學(xué)習(xí)的研究其實(shí)核心在于三個(gè)方面：

1）算法層面

2）sim-to-real 從仿真到真實(shí)環(huán)境的遷移

3）應(yīng)用層面

首先是算法層面，我們希望DRL算法在機(jī)器人抓取上能夠有更高的效率，更快的學(xué)習(xí)速度，以及處理更困難的學(xué)習(xí)任務(wù)。因此在上面的paper list中，[3] 對(duì)多種DRL off-policy的算法進(jìn)行評(píng)估，[6] 則使用其中一個(gè)算法在真實(shí)場景中做大規(guī)模的實(shí)驗(yàn) [4] 則基于soft q-learning使得機(jī)器人具備更強(qiáng)的exploration能力 [2] 則研究通過auxiliary rewards 來處理復(fù)雜機(jī)器人學(xué)習(xí)任務(wù)中reward過于稀疏的問題。

接下來是仿真環(huán)境到真實(shí)環(huán)境的遷移問題。由于真實(shí)機(jī)器人實(shí)驗(yàn)不方便并且實(shí)驗(yàn)成本很高，使得從仿真遷移到真實(shí)成為一種幾乎必然的選擇（Google那種機(jī)器人農(nóng)場的方法畢竟不是每個(gè)人都能干的），因此很多研究的重點(diǎn)都在于仿真到真實(shí)的遷移，比如[1] 通過多視角來研究sim2real [7] 則在仿真環(huán)境中研究非剛體的物體操作 [3] 提出來一個(gè)面向機(jī)器人抓取的仿真benchmark，對(duì)于機(jī)器人抓取的研究能夠起到很大的促進(jìn)作用。

最后是應(yīng)用層面，大家不僅僅關(guān)注簡單的普通的機(jī)器人抓取問題，也考慮更復(fù)雜的manipulation問題，也因此，有了[8] OpenAI 剛剛出爐的機(jī)器手玩方塊的成果， [5][7]研究更復(fù)雜機(jī)器人抓取問題。

那么對(duì)于這三方面，到底有什么重要的研究進(jìn)展呢？我們先來單獨(dú)分析一下OpenAI這個(gè)最新成果.

3 Learning Dexterous In-Hand Manipulation

這兩天OpenAI剛出來的成果，使用DRL實(shí)現(xiàn)機(jī)械手靈巧操作方塊，雖然這個(gè)工作面向的不是抓取，但是方法論上是完全相同的，這篇文章對(duì)于機(jī)器人抓取問題具有很強(qiáng)的借鑒意義。

1）這篇文章的成果：通過DRL算法PPO完全在仿真環(huán)境中訓(xùn)練機(jī)械手玩方塊，將訓(xùn)練好的模型直接遷移到真實(shí)場景中取得成功，并且整個(gè)訓(xùn)練不帶人類的演示demo，完全根據(jù)reward自學(xué)完成，而最后的實(shí)現(xiàn)效果竟然和人類的行為非常接近，很像人的操作。

2）取得如此成功的原因：（1）高度仿真的系統(tǒng)，和真實(shí)環(huán)境非常接近，reality gap比較小（2）使用仿真環(huán)境隨機(jī)化這個(gè)技巧來大幅度拓展仿真環(huán)境的范圍，使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后能夠適應(yīng)各種場景，當(dāng)然就包括真實(shí)場景了。這種隨機(jī)化包含比如不同的摩擦力，不同的演示，不同的攝像頭角度等等（3）大規(guī)模分布式并行訓(xùn)練，使用了幾百臺(tái)機(jī)器6144個(gè)cpu來運(yùn)行分布式仿真環(huán)境收集數(shù)據(jù)，然后用一臺(tái)8GPU的V100來訓(xùn)練模型，就像標(biāo)題說的，等價(jià)于訓(xùn)練了100年.

3）啟發(fā)：（1）DRL能夠通過學(xué)習(xí)學(xué)到傳統(tǒng)非學(xué)習(xí)算法根本做不到的效果，端到端神經(jīng)網(wǎng)絡(luò)化必須是機(jī)器人的未來?。?）仿真環(huán)境超級(jí)重要，隨著技術(shù)的發(fā)展，仿真肯定可以做的越來越好，這就意味的未來的機(jī)器人必然會(huì)是在仿真中進(jìn)行訓(xùn)練的，成本低，速度快，何樂而不為。（3）大規(guī)模的計(jì)算能夠直接彌補(bǔ)DRL sample inefficiency的問題，反正只要有足夠的設(shè)備，一天訓(xùn)他原來要1年的東西，數(shù)據(jù)堆上去，就能做出來。

進(jìn)一步分析

上一小節(jié)我們簡單的分析了一下OpenAI這個(gè)很酷的工作，但是我們能得到的結(jié)論就是：這更多的是工程上的勝利，而非算法上的勝利。算法依然是PPO，并沒有實(shí)質(zhì)性的變化。

同樣的，之前Google在機(jī)器人抓取的重要進(jìn)展[6]QT-Opt 將端到端機(jī)器人抓取的效果提升了一大截，但是我們具體分析它里面的算法就會(huì)發(fā)現(xiàn)算法上只是Q-Learning的一個(gè)變種，相比于DDPG，不使用Actor Network，而通過進(jìn)化算法CEM來獲取actor，能夠使訓(xùn)練更穩(wěn)定，并且方便于做大規(guī)模分布式訓(xùn)練。

對(duì)于[6]和[8]，其實(shí)我們都發(fā)現(xiàn)大規(guī)模分布式學(xué)習(xí)對(duì)于性能提升的重要性，這當(dāng)然也完全符合深度學(xué)習(xí)的情況，只要有數(shù)據(jù)和高性能計(jì)算，就能把性能堆出來。由于深度增強(qiáng)學(xué)習(xí)存在比監(jiān)督學(xué)習(xí)大的多的sample inefficiency問題，所以實(shí)際上深度增強(qiáng)學(xué)習(xí)要能work，需要的數(shù)據(jù)量會(huì)比監(jiān)督學(xué)習(xí)如imagenet還要大的多。也因此，我們看到AlphaGo，OpenAI的機(jī)器手，OpenAI的Dota，都動(dòng)用了巨量的計(jì)算資源。一個(gè)小小的機(jī)器手，卻使用了6144個(gè)CPU和8個(gè)V100 GPU來訓(xùn)練，這也是非常空前的事情。

下一步呢？

有兩點(diǎn)是非常容易預(yù)測的：

1）未來必然會(huì)出來更多更好的仿真環(huán)境。這一年來的研究可以說就是比較明確的肯定仿真直接遷移到真實(shí)環(huán)境的可行性，那么就沒有理由更進(jìn)一步的去開發(fā)更真實(shí)的仿真環(huán)境。

2）更快更強(qiáng)的分布式學(xué)習(xí)系統(tǒng)。這個(gè)就更不必說了，這是推動(dòng)機(jī)器人學(xué)習(xí)進(jìn)展的燃料。

有了上面這兩點(diǎn)，即使保持現(xiàn)有的算法不變，我相信都可以訓(xùn)練出比現(xiàn)在更強(qiáng)或者更復(fù)雜的機(jī)器人學(xué)習(xí)成果，端到端基于視覺的機(jī)器人抓取直接推到99%以上的準(zhǔn)確率是完全可能的，這就趨于商用了。

那么算法層面又該如何發(fā)展呢？

我們需要更復(fù)雜任務(wù)Task的牽引。比如我們需要雙機(jī)械臂的協(xié)作抓取，這就涉及到multi-agent robot learning。比如我們需要機(jī)器人能夠完成一個(gè)更長的任務(wù)系列，這需要Hierarchical Reinforcement Learning的研究。比如我們需要機(jī)器人能夠同時(shí)完成多個(gè)任務(wù)，那這就需要multi task learning。比如我們希望機(jī)器人的generalization能夠更強(qiáng)，能夠處理沒看過的物體，那么這就需要Meta Learning的研究，那么這塊現(xiàn)在特別火了。比如我們需要機(jī)器人能夠快速的學(xué)習(xí)新任務(wù)，這就需要Continual Learning，Meta Learning，如果是要求通過模仿學(xué)習(xí)來實(shí)現(xiàn)，那就需要imitation learning。

這里我推薦大家可以閱讀第一屆CoRL整理出來的問題，從這里我們反而會(huì)覺得現(xiàn)在的Robot Learning真的是剛剛開始，現(xiàn)在研究的問題也太過于簡單了。

https://docs.google.com/document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_w/edit

現(xiàn)在到了2018年才有了一個(gè)機(jī)器人抓取的benchmark，未來相信會(huì)有更多的benchmark出現(xiàn)來推動(dòng)這個(gè)領(lǐng)域的發(fā)展。

最后小結(jié)

本文沒有詳細(xì)的分析每一篇paper的具體idea，而是比較寬泛的分析機(jī)器人抓取及機(jī)器人學(xué)習(xí)的整體研究進(jìn)展?？偟膩碚f，對(duì)于機(jī)器人抓取這個(gè)具體問題，從工業(yè)應(yīng)用上看將可以很快看到落地，要在仿真系統(tǒng)研發(fā)上推，在大規(guī)模分布式學(xué)習(xí)上推，核心確實(shí)在于工程實(shí)現(xiàn)上。而對(duì)于學(xué)術(shù)研究，最關(guān)鍵的是去定義新的task，新的benchmark，從而在新task的基礎(chǔ)上去推動(dòng)算法層面和應(yīng)用層面的發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
211

文章
28379

瀏覽量
206912
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238242
Robot

Robot

+關(guān)注

關(guān)注
0

文章
34

瀏覽量
11034

原文標(biāo)題：機(jī)器人抓取的前沿到哪了？

文章出處：【微信號(hào)：thejiangmen，微信公眾號(hào)：將門創(chuàng)投】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

開源項(xiàng)目！用ESP32做一個(gè)可愛的無用機(jī)器人

簡介作者在完成碩士論文答辯后，利用空閑時(shí)間制作了一個(gè)他一直想做的機(jī)器人——可愛無用機(jī)器人。無用機(jī)

發(fā)表于 09-03 09:34

機(jī)器人DIY——最簡單的PVC-Robot A型

帶動(dòng)整個(gè)機(jī)器人身體發(fā)生震動(dòng)，在機(jī)器人的重量較輕，且支撐不是很平穩(wěn)的時(shí)候，機(jī)器人就會(huì)發(fā)生位置的移動(dòng)?！　∵@里所謂震動(dòng)器，其實(shí)就是我們手機(jī)中實(shí)現(xiàn)

發(fā)表于 01-08 14:35

發(fā)現(xiàn)一個(gè)好機(jī)器人，《機(jī)器人的中秋祝?！?b class='flag-5'>中的機(jī)器人有眼部投影功能哦

`發(fā)現(xiàn)了一個(gè)好機(jī)器人，《機(jī)器人的中秋祝福》中的機(jī)器人有眼部投影功能哦，雙手還挺靈活的，好像是國內(nèi)

發(fā)表于 09-13 14:40

10分鐘，DIY一臺(tái)樹莓派版TH Robot WiFi視頻小車機(jī)器人

12V鋰電池組，作為小車的動(dòng)力來源：重頭戲來了，TH Robot機(jī)器人底盤，霸氣的履帶式不銹鋼戰(zhàn)車，是小R科技擁有外觀和實(shí)用新型專利的一款高端底盤：接下來就是開始DIY，首先取出

發(fā)表于 04-08 22:11

基于深度學(xué)習(xí)技術(shù)的智能機(jī)器人

——工業(yè)機(jī)器人的智能化程度要求也越來越高，采用深度學(xué)習(xí)技術(shù)為工業(yè)機(jī)器人賦能是目前各大廠商的統(tǒng)一認(rèn)知。本文結(jié)合實(shí)際案例，簡要說明一下智能機(jī)器人

發(fā)表于 05-31 09:36

機(jī)器人基礎(chǔ)書籍

列舉部分學(xué)習(xí)過程中接觸的部分書籍，部分有中文版，部分有更新版本。1.機(jī)器人基礎(chǔ)書籍適合入門的書籍：機(jī)器人學(xué)機(jī)器人建模規(guī)劃與控制機(jī)器人學(xué)、

發(fā)表于 05-22 06:53

軟體機(jī)器人學(xué)習(xí)問題探討

以軟體機(jī)器人為背景和主題，深入講解：(1) 軟體機(jī)器人的關(guān)節(jié)設(shè)計(jì)方法；(2) 有限元分析技巧；(3) 力學(xué)模型的建立方法； (4) 基于MATLAB與視覺識(shí)別技術(shù)的軟體手柔性抓取控制與實(shí)驗(yàn)等內(nèi)容

發(fā)表于 08-12 15:09

【MYD-CZU3EG開發(fā)板試用申請(qǐng)】基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站

作開發(fā)基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站，因抓取物品為亂序堆疊的毛坯零件，且零件不唯一，所以需要一

發(fā)表于 09-18 14:18

【瑞芯微RK1808計(jì)算棒試用申請(qǐng)】基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站

正合作開發(fā)基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站，因抓取物品為亂序堆疊的毛坯零件，且零件不唯一，所以需要一

發(fā)表于 09-18 19:24

機(jī)器人簡介

一.機(jī)器人簡介：機(jī)器人（Robot）是自動(dòng)執(zhí)行工作的機(jī)器裝置。它既可以接受人類指揮，又可以運(yùn)行預(yù)先編排的程序，也可以根據(jù)以人工智能技術(shù)制定的

發(fā)表于 09-07 06:05

機(jī)器人是什么？

機(jī)器人是什么？你可能會(huì)對(duì)這個(gè)問題本身感到困惑。.有意思。.但是在實(shí)際的機(jī)器人技術(shù)中，這是一個(gè)廣闊的領(lǐng)域。

發(fā)表于 03-31 10:31

機(jī)器人抓取技術(shù)原理分析

最近兩天參觀了華為的自動(dòng)化工廠，了解到機(jī)器人抓取在工業(yè)中的應(yīng)用以及未來的前景，備受鼓舞。作為一個(gè)搞機(jī)器人

發(fā)表于 09-20 09:21 ?3次下載

新算法助力機(jī)器人更輕松地抓取物體

如果機(jī)器人要拿起一個(gè)物體并將其放進(jìn)一個(gè)容器里。首先，機(jī)器人需要觀察物體，在6D空間中決定

發(fā)表于 03-02 09:25 ?803次閱讀

淺談機(jī)器人視覺抓取的目的

機(jī)器人視覺抓取的目的是使用一個(gè)機(jī)械手模型(包括二指或多指夾爪，吸盤等)，以RGB或RGBD相機(jī)采集的場景圖像為輸入計(jì)算出一

發(fā)表于 03-30 10:19 ?720次閱讀

基于視覺的機(jī)器人抓取系統(tǒng)設(shè)計(jì)

抓取綜合方法是機(jī)器人抓取問題的核心，本文從抓取檢測、視覺伺服和動(dòng)態(tài)抓取等角度進(jìn)行討論，提出了多種抓取

發(fā)表于 08-19 17:19 ?1820次閱讀

RM新时代网站-首页

搜索歷史

探討Robot Learning中的一個(gè)具體應(yīng)用，也就是機(jī)器人抓取Robotic

評(píng)論

開源項(xiàng)目！用ESP32做一個(gè)可愛的無用機(jī)器人

機(jī)器人DIY——最簡單的PVC-Robot A型

發(fā)現(xiàn)一個(gè)好機(jī)器人，《機(jī)器人的中秋祝?！?b class='flag-5'>中的機(jī)器人有眼部投影功能哦

10分鐘，DIY一臺(tái)樹莓派版TH Robot WiFi視頻小車機(jī)器人

基于深度學(xué)習(xí)技術(shù)的智能機(jī)器人

機(jī)器人基礎(chǔ)書籍

軟體機(jī)器人學(xué)習(xí)問題探討

【MYD-CZU3EG開發(fā)板試用申請(qǐng)】基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站

【瑞芯微RK1808計(jì)算棒試用申請(qǐng)】基于機(jī)器視覺的工業(yè)機(jī)器人抓取工作站

機(jī)器人簡介

機(jī)器人是什么？

機(jī)器人抓取技術(shù)原理分析

新算法助力機(jī)器人更輕松地抓取物體

淺談機(jī)器人視覺抓取的目的

基于視覺的機(jī)器人抓取系統(tǒng)設(shè)計(jì)