新时代rm平台入口,RM新时代官方

這在真實(shí)環(huán)境中成功讓機(jī)械臂從頭開始學(xué)習(xí)拾放物體。SAC-X 是基于從頭開始學(xué)習(xí)復(fù)雜的任務(wù)這種想法，即一個(gè)智能體首先應(yīng)該學(xué)習(xí)并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調(diào)能力和平衡能力，為智能體提供與簡(jiǎn)單技能相對(duì)應(yīng)的內(nèi)在目標(biāo)（具有輔助作用），這會(huì)增加它理解和執(zhí)行更復(fù)雜任務(wù)的可能性。

研究者認(rèn)為，SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域。

不管你讓小孩還是大人整理物品，他們很大可能都不會(huì)乖乖聽你的話，如果想要讓 AI 智能體進(jìn)行整理收拾，那就更難了。如果想成功，需要掌握如下幾個(gè)核心視覺(jué)運(yùn)動(dòng)技能：接近物體，抓住并舉起它，打開盒子，把物體放進(jìn)去。而更復(fù)雜的是，執(zhí)行這些技能時(shí)，必須按照正確的順序。

對(duì)于一些控制類的任務(wù)，比如整理桌面或堆疊物體，智能體需要在協(xié)調(diào)它的模擬手臂和手指的九個(gè)關(guān)節(jié)時(shí)，做到三個(gè) W，即如何（how），何時(shí)（when）以及在哪里（where），以便正確地移動(dòng)，最終完成任務(wù)。

在任何給定的時(shí)間內(nèi)，需要明確各種可能的運(yùn)動(dòng)組合的數(shù)量，以及執(zhí)行一長(zhǎng)串正確動(dòng)作，這些需求引申出一個(gè)嚴(yán)肅的問(wèn)題，這成為強(qiáng)化學(xué)習(xí)中一個(gè)特別有趣的研究領(lǐng)域。

諸如獎(jiǎng)賞塑形（reward shaping）、學(xué)徒學(xué)習(xí)（Apprenticeship learning）或從演示中學(xué)習(xí)（Learning from Demonstration）等技術(shù)可以幫助解決這個(gè)問(wèn)題。然而，這些方法依賴于大量與任務(wù)相關(guān)的知識(shí)，而從零開始，通過(guò)最少的預(yù)先知識(shí)學(xué)習(xí)復(fù)雜的控制問(wèn)題仍然是一個(gè)眾所周知的挑戰(zhàn)。

我們最近的論文提出了一種新的學(xué)習(xí)范式，叫做「調(diào)度輔助控制」（Scheduled Auxiliary Control (SAC-X)），我們?cè)噲D通過(guò)這種學(xué)習(xí)范式來(lái)克服這個(gè)問(wèn)題。

SAC-X 是基于從頭開始學(xué)習(xí)復(fù)雜的任務(wù)這種想法，即一個(gè)智能體首先應(yīng)該學(xué)習(xí)并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調(diào)能力和平衡能力，為智能體提供與簡(jiǎn)單技能相對(duì)應(yīng)的內(nèi)在目標(biāo)（具有輔助作用），這會(huì)增加它理解和執(zhí)行更復(fù)雜任務(wù)的可能性。

我們?cè)趲讉€(gè)模擬和真實(shí)的機(jī)器人任務(wù)中演示了 SAC-X 法，包括不同物體的堆疊，將物體放到盒子里。我們定義的輔助任務(wù)遵循一般原則：鼓勵(lì)智能體探索其感應(yīng)空間。

例如，激活手指上的觸覺(jué)傳感器，感知手腕的力度，利用本體感應(yīng)器將關(guān)節(jié)角度調(diào)到最大，在視覺(jué)傳感器范圍內(nèi)強(qiáng)制性移動(dòng)物體。對(duì)于每個(gè)任務(wù)，如果實(shí)現(xiàn)目標(biāo)，會(huì)提供相應(yīng)的簡(jiǎn)單獎(jiǎng)勵(lì)。沒(méi)實(shí)現(xiàn)目標(biāo)的話，獎(jiǎng)勵(lì)為零。

智能體首先學(xué)習(xí)激活手指上的觸覺(jué)傳感器，然后移動(dòng)物體

模擬智能體最終掌握復(fù)雜的堆疊任務(wù)

智能體接下來(lái)可以自行決定其當(dāng)前的「意圖」，例如下一步做什么?？赡軙?huì)是一個(gè)輔助任務(wù)或者是外部定義的目標(biāo)任務(wù)。至關(guān)重要的是，對(duì)于目前還沒(méi)有使用基于回放的離策略學(xué)習(xí)方法的任務(wù)，該代理可以從獎(jiǎng)勵(lì)信號(hào)中發(fā)現(xiàn)和學(xué)習(xí)。例如，當(dāng)拾取或移動(dòng)一個(gè)物體時(shí)，智能體可能會(huì)偶然地將物體堆疊起來(lái)，觀察到「堆疊獎(jiǎng)勵(lì)」。一系列簡(jiǎn)單的任務(wù)會(huì)讓智能體觀察到罕見的外部獎(jiǎng)勵(lì)，所以讓智能體具有安排意圖的能力至關(guān)重要。

基于收集到的所有的間接知識(shí)，智能體會(huì)建立一個(gè)個(gè)性化的學(xué)習(xí)課程。在如此大的領(lǐng)域中，通過(guò)這種方法來(lái)利用知識(shí)非常高效，在只有很少的外部獎(jiǎng)勵(lì)信號(hào)的情況下尤其有用。

通過(guò)調(diào)度模塊，智能體會(huì)決定接下來(lái)的意圖。利用元學(xué)習(xí)算法，調(diào)度器會(huì)在訓(xùn)練過(guò)程中得到改進(jìn)，該算法試圖最大限度地提高主任務(wù)的進(jìn)程，進(jìn)而顯著提高數(shù)據(jù)效率。

在探索完許多內(nèi)部輔助任務(wù)之后，智能體學(xué)會(huì)了如何堆疊和整理物品

評(píng)估表明，SAC-X 能夠從零開始完成我們?cè)O(shè)置的所有任務(wù)，這些任務(wù)都是在相同的輔助任務(wù)集下完成的。令人興奮的是，利用 SAC-X，我們實(shí)驗(yàn)室的機(jī)器人手臂能夠成功地從零開始學(xué)習(xí)拾取和擺放。在過(guò)去這極具挑戰(zhàn)性，因?yàn)樵诂F(xiàn)實(shí)世界中讓機(jī)器人學(xué)習(xí)需要高效的數(shù)據(jù)，所以流行的方法是預(yù)訓(xùn)練模擬智能體，然后再將這種能力轉(zhuǎn)移到真正的機(jī)器人手臂中。

針對(duì)真實(shí)的機(jī)器人手臂， SAC-X 能學(xué)習(xí)如何舉起和移動(dòng)綠色的立方體，在此之前它從來(lái)沒(méi)有接觸過(guò)這類任務(wù)

我們認(rèn)為 SAC-X 是通向從零學(xué)習(xí)控制任務(wù)的重要一步，只需定義好整體目標(biāo)。SAC-X 允許任意定義輔助任務(wù)，這些任務(wù)可以基于一般的看法（如有意激活傳感器），最終會(huì)涵蓋研究人員認(rèn)為重要的任務(wù)。從這方面來(lái)說(shuō)，SAC-X 是一種通用的強(qiáng)化學(xué)習(xí)方法，可以廣泛應(yīng)用于控制和機(jī)器人領(lǐng)域之外的一般稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

未來(lái)智能實(shí)驗(yàn)室是人工智能學(xué)家與科學(xué)院相關(guān)機(jī)構(gòu)聯(lián)合成立的人工智能，互聯(lián)網(wǎng)和腦科學(xué)交叉研究機(jī)構(gòu)。

未來(lái)智能實(shí)驗(yàn)室的主要工作包括：建立AI智能系統(tǒng)智商評(píng)測(cè)體系，開展世界人工智能智商評(píng)測(cè)；開展互聯(lián)網(wǎng)（城市）云腦研究計(jì)劃，構(gòu)建互聯(lián)網(wǎng)（城市）云腦技術(shù)和企業(yè)圖譜，為提升企業(yè)，行業(yè)與城市的智能水平服務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4607

瀏覽量
92826
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238243

原文標(biāo)題：DeepMind提出強(qiáng)化學(xué)習(xí)新算法，教智能體從零學(xué)控制

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題，從低級(jí)的運(yùn)動(dòng)控制(如：步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。

發(fā)表于 07-01 10:29 ?1435次閱讀

什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>應(yīng)用分析

未來(lái)的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

的游戲可以提高戰(zhàn)略思維能力。通過(guò)學(xué)習(xí)如何玩這些復(fù)雜的游戲，機(jī)器將獲得思考和采取戰(zhàn)略行動(dòng)的能力。DeepMind的通用學(xué)習(xí)算法讓機(jī)器可以通過(guò)游戲化學(xué)習(xí)

發(fā)表于 08-26 12:04

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

測(cè)試)三、主講內(nèi)容1:課程一、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能體深度

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái)，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深度

發(fā)表于 06-29 18:36 ?2.8w次閱讀

強(qiáng)化學(xué)習(xí)新方法，機(jī)器人究竟是怎么學(xué)習(xí)新動(dòng)作的呢？

用強(qiáng)化學(xué)習(xí)方法教機(jī)器人（模擬器里的智能體），能學(xué)會(huì)的動(dòng)作花樣繁多，細(xì)致到拿東西、豪放到奔跑都能搞定，還可以給機(jī)器人設(shè)置一個(gè)明確的目的。但是，總難免上演一些羞恥或驚喜play。

發(fā)表于 04-13 11:00 ?9774次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接

發(fā)表于 05-30 06:53 ?1409次閱讀

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強(qiáng)化學(xué)習(xí)的框架中，智能體通過(guò)與環(huán)境互動(dòng)，來(lái)學(xué)習(xí)采取何種動(dòng)作

發(fā)表于 07-15 10:56 ?1.8w次閱讀

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)

發(fā)表于 11-02 16:18 ?2.2w次閱讀

如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

強(qiáng)化學(xué)習(xí)（RL）能通過(guò)獎(jiǎng)勵(lì)或懲罰使智能體實(shí)現(xiàn)目標(biāo)，并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。

發(fā)表于 12-24 09:29 ?3232次閱讀

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet)，這是一個(gè)純粹基于模型的智能體，能從圖像輸入中學(xué)習(xí)世界模型，完成多項(xiàng)規(guī)劃任務(wù)，數(shù)據(jù)效率平均提升50倍，

發(fā)表于 02-17 09:30 ?3331次閱讀

DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

RLax（發(fā)音為“ relax”）是建立在JAX之上的庫(kù)，它公開了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道：深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者：DeepRL ...

發(fā)表于 12-10 18:43 ?730次閱讀

基于深度強(qiáng)化學(xué)習(xí)的路口單交叉信號(hào)控制

利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)路口信號(hào)控制是智能交通領(lǐng)域的硏究熱點(diǎn)?，F(xiàn)有硏究大多利用強(qiáng)化學(xué)習(xí)來(lái)全面刻畫交通狀態(tài)以及設(shè)計(jì)有效強(qiáng)化學(xué)習(xí)

發(fā)表于 04-23 15:30 ?21次下載

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

發(fā)表于 06-23 10:42 ?36次下載

基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法案例

摘要：基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法在檢測(cè)過(guò)程中通常采用預(yù)定義搜索行為，其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一，導(dǎo)致目標(biāo)檢測(cè)精確度較低。為此，在基于深度強(qiáng)化學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)算法基礎(chǔ)上，

發(fā)表于 07-19 14:35 ?0次下載

語(yǔ)言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

的發(fā)展，從最早的 AlphaGo、AlphaZero 到后來(lái)的多模態(tài)、多任務(wù)、多具身 AI 智能體 Gato，智能體的訓(xùn)練方法和能力都在不斷

發(fā)表于 07-24 16:55 ?527次閱讀