新时代app官方版下载,新时代平台

波士頓動(dòng)力人形機(jī)器人的后空翻技能亮相時(shí)，驚艷了全球群眾。

這么復(fù)雜的動(dòng)作，不用說(shuō)現(xiàn)實(shí)世界中的機(jī)器人，就算是在模擬器里，學(xué)起來(lái)也非常的難。

現(xiàn)在，加州大學(xué)伯克利分校和英屬哥倫比亞大學(xué)最新研究的一種新方法，能教生活在模擬器中的機(jī)器人通過(guò)模仿人類，學(xué)會(huì)武打、跑酷、雜技等復(fù)雜技能。

后空翻回旋踢什么的，輕輕松松搞定~

（下文還會(huì)提到很多次“機(jī)器人”，基本都是生活在模擬器里的這種）

讓機(jī)器人、動(dòng)畫和游戲角色能靈活流暢地運(yùn)動(dòng)，是計(jì)算機(jī)圖形學(xué)、強(qiáng)化學(xué)習(xí)、機(jī)器人等等領(lǐng)域的研究者都在追求的目標(biāo)。

不同方法各有所長(zhǎng)，當(dāng)然也各有所短。

用強(qiáng)化學(xué)習(xí)方法教機(jī)器人（模擬器里的智能體），能學(xué)會(huì)的動(dòng)作花樣繁多，細(xì)致到拿東西、豪放到奔跑都能搞定，還可以給機(jī)器人設(shè)置一個(gè)明確的目的。但是，總難免上演一些羞恥或驚喜play。

而動(dòng)作捕捉技術(shù)，能讓機(jī)器人做出和真人一模一樣，自然流暢毫無(wú)違和感的動(dòng)作。但是，活學(xué)活用是不能指望的，每個(gè)動(dòng)作、每個(gè)形態(tài)的機(jī)器人，都是需要單獨(dú)訓(xùn)練的。

伯克利的科學(xué)家們?nèi)∵@兩個(gè)領(lǐng)域所長(zhǎng)，創(chuàng)造了一種新方法DeepMimic。這種方法既有深度學(xué)習(xí)模型的通用性，可以覆蓋更多的動(dòng)作類型和機(jī)器人形態(tài)，動(dòng)作的自然流暢程度也可以媲美動(dòng)作捕捉。

用這種新方法，機(jī)器人究竟是怎么學(xué)習(xí)新動(dòng)作的呢？

簡(jiǎn)單來(lái)說(shuō)是通過(guò)看動(dòng)作片段來(lái)學(xué)習(xí)，人類的動(dòng)作捕捉數(shù)據(jù)就是個(gè)很好的學(xué)習(xí)資料。給機(jī)器人展示一個(gè)動(dòng)作樣本，比如說(shuō)下圖這個(gè)側(cè)空翻，右側(cè)就是供機(jī)器人學(xué)習(xí)的示范樣本。

參與這項(xiàng)研究的科學(xué)家們將示范動(dòng)作分解成一個(gè)q^0,q^1,…,q^T的序列，q^T表示的是在機(jī)器人在t時(shí)間步的目標(biāo)動(dòng)作。而這個(gè)機(jī)器人學(xué)習(xí)的目標(biāo)，就是要盡可能消滅t時(shí)間步的實(shí)際動(dòng)作qT和目標(biāo)動(dòng)作q^T的差距。

機(jī)器人勤勞地不停練習(xí)練習(xí)練習(xí)，直到自己的動(dòng)作不再羞恥，靈活性和仿真度能夠媲美演示視頻，像上圖左側(cè)那樣。

指導(dǎo)這個(gè)練習(xí)過(guò)程的，是這樣一個(gè)獎(jiǎng)勵(lì)函數(shù)：

除了空翻，用這種方法教出來(lái)的機(jī)器人還能學(xué)到中西舞蹈、南拳北腿、跑步打把勢(shì)甚至鯉魚打挺：

對(duì)著完美的動(dòng)作捕捉樣本，再copy一遍，有什么意思？這項(xiàng)研究當(dāng)然不止于模仿。DeepMimic能讓機(jī)器人通過(guò)模仿學(xué)會(huì)動(dòng)作之后，再活學(xué)活用起來(lái)。

比如當(dāng)一個(gè)機(jī)器人學(xué)會(huì)了投球，就可以去執(zhí)行一個(gè)演示樣本中沒(méi)有的任務(wù)。我們可以在模擬器中，指定一個(gè)目標(biāo)讓它來(lái)投：

訓(xùn)練的機(jī)器人，也可以長(zhǎng)得和演示樣本不太一樣。比如說(shuō)還是用前邊的后空翻樣本，可以訓(xùn)練一個(gè)模擬波士頓動(dòng)力Altas的機(jī)器人：

甚至不是人形的機(jī)器人，也可以用人形樣本來(lái)訓(xùn)練。比如說(shuō)這頭霸王龍，就是跟人形樣本學(xué)習(xí)的走路。在論文的主頁(yè)上，他們還展示了更多的例子，甚至還有獅子和龍~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
211

文章
28379

瀏覽量
206914
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121111

原文標(biāo)題：強(qiáng)化學(xué)習(xí)新方法，讓后空翻回旋踢再也難不倒機(jī)器人 | 伯克利論文

文章出處：【微信號(hào)：tjrobot，微信公眾號(hào)：天津機(jī)器人】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

圖解：IGBT究竟是什么？

圖解：IGBT究竟是什么？ IGBT究竟是什么？

發(fā)表于 08-10 08:01

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

網(wǎng)絡(luò)GAN5、遷移學(xué)習(xí)TL報(bào)名聯(lián)系方式聯(lián)系人：李連杰（老師）手機(jī)：*** QQ： 1503177939深度學(xué)習(xí)之家QQ群群號(hào)：372448770（加群備注：李連杰老師）強(qiáng)化學(xué)習(xí)課程QQ

發(fā)表于 01-10 13:42

一次性模仿學(xué)習(xí)新算法讓AI現(xiàn)在可以快速學(xué)習(xí)新的任務(wù)

該方法基于所謂的一次性模仿學(xué)習(xí)，這是一種OpenAI開發(fā)的技術(shù)，允許軟件引導(dǎo)機(jī)器人僅使用一個(gè)示例來(lái)模擬身體動(dòng)作。 AI現(xiàn)在可以通過(guò)模仿快速學(xué)習(xí)新

發(fā)表于 09-22 14:25 ?0次下載

基于LCS和LS-SVM的多機(jī)器人強(qiáng)化學(xué)習(xí)

本文提出了一種LCS和LS-SVM相結(jié)合的多機(jī)器人強(qiáng)化學(xué)習(xí)方法，LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為L(zhǎng)CS的初始規(guī)則集。LCS通過(guò)與環(huán)境的交互，能更快發(fā)現(xiàn)指導(dǎo)多機(jī)器人

發(fā)表于 01-09 14:43 ?0次下載

跟人一樣聰明的機(jī)器人，觀察一次就可以模仿人類的動(dòng)作

該機(jī)器人由加州大學(xué)伯克利分校的工程師開發(fā)，通過(guò)觀察視頻中的人員執(zhí)行動(dòng)作，可以快速學(xué)習(xí)新動(dòng)作。

發(fā)表于 07-06 15:55 ?3002次閱讀

讓機(jī)器人通過(guò)一段只有一個(gè)人的視頻來(lái)模仿學(xué)習(xí)

人類和動(dòng)物在學(xué)習(xí)新行為時(shí)，大部分只需要觀察一次就能學(xué)會(huì)，然而想讓機(jī)器人學(xué)習(xí)就沒(méi)那么容易了。隨著計(jì)算機(jī)視覺(jué)的發(fā)展，目前的技術(shù)能讓機(jī)器人依靠人體姿勢(shì)檢測(cè)系統(tǒng)，模仿人類的動(dòng)作進(jìn)行

發(fā)表于 02-07 14:25 ?6177次閱讀

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域

發(fā)表于 03-19 14:45 ?1898次閱讀

強(qiáng)化學(xué)習(xí)究竟是什么？它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系？

Q-learning和SARSA是兩種最常見的不理解環(huán)境強(qiáng)化學(xué)習(xí)算法，這兩者的探索原理不同，但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法，智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值

發(fā)表于 04-15 10:32 ?1.4w次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督

發(fā)表于 05-30 06:53 ?1409次閱讀

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet)，這是一個(gè)純粹基于模型的智能體，能從圖像輸入中學(xué)習(xí)世界模型，完成多項(xiàng)規(guī)劃任務(wù)，數(shù)據(jù)效率平均提升50倍，強(qiáng)化學(xué)習(xí)又一突破。

發(fā)表于 02-17 09:30 ?3332次閱讀

如何訓(xùn)練機(jī)器人學(xué)習(xí)新技能

10月27日消息，據(jù)外媒報(bào)道，約翰斯霍普金斯大學(xué)博士生安德魯洪特（Andrew Hundt）近日發(fā)布一篇新論文，指出應(yīng)通過(guò)正強(qiáng)化法訓(xùn)練機(jī)器人學(xué)習(xí)新技能。

發(fā)表于 10-28 10:16 ?2405次閱讀

一文詳談機(jī)器學(xué)習(xí)的強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集，它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前，相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。

發(fā)表于 11-06 15:33 ?1747次閱讀

當(dāng)機(jī)器人遇見強(qiáng)化學(xué)習(xí)，會(huì)碰出怎樣的火花？

當(dāng)機(jī)器人遇見強(qiáng)化學(xué)習(xí)，會(huì)碰出怎樣的火花？一名叫 Cassie 的機(jī)器人，給出了生動(dòng)演繹。最近，24 歲的中國(guó)南昌小伙李鐘毓和其所在團(tuán)隊(duì)，用強(qiáng)化學(xué)習(xí)教 Cassie 走路，目前它已

發(fā)表于 04-13 09:35 ?2439次閱讀

串口究竟是什么呢？

串口通訊是我們?cè)陔娏﹄娮釉O(shè)計(jì)中使用頻率比較高的一種通訊協(xié)議，那串口究竟是什么呢？

發(fā)表于 04-12 09:40 ?2w次閱讀

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）是一種機(jī)器學(xué)習(xí)方法，它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策，以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源

發(fā)表于 11-05 17:34 ?280次閱讀