RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強(qiáng)化學(xué)習(xí)新方法,機(jī)器人究竟是怎么學(xué)習(xí)新動(dòng)作的呢?

天津機(jī)器人 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-13 11:00 ? 次閱讀

波士頓動(dòng)力人形機(jī)器人的后空翻技能亮相時(shí),驚艷了全球群眾。

這么復(fù)雜的動(dòng)作,不用說(shuō)現(xiàn)實(shí)世界中的機(jī)器人,就算是在模擬器里,學(xué)起來(lái)也非常的難。

現(xiàn)在,加州大學(xué)伯克利分校和英屬哥倫比亞大學(xué)最新研究的一種新方法,能教生活在模擬器中的機(jī)器人通過(guò)模仿人類,學(xué)會(huì)武打、跑酷、雜技等復(fù)雜技能。

后空翻回旋踢什么的,輕輕松松搞定~

(下文還會(huì)提到很多次“機(jī)器人”,基本都是生活在模擬器里的這種)

讓機(jī)器人、動(dòng)畫和游戲角色能靈活流暢地運(yùn)動(dòng),是計(jì)算機(jī)圖形學(xué)、強(qiáng)化學(xué)習(xí)、機(jī)器人等等領(lǐng)域的研究者都在追求的目標(biāo)。

不同方法各有所長(zhǎng),當(dāng)然也各有所短。

用強(qiáng)化學(xué)習(xí)方法教機(jī)器人(模擬器里的智能體),能學(xué)會(huì)的動(dòng)作花樣繁多,細(xì)致到拿東西、豪放到奔跑都能搞定,還可以給機(jī)器人設(shè)置一個(gè)明確的目的。但是,總難免上演一些羞恥或驚喜play。

而動(dòng)作捕捉技術(shù),能讓機(jī)器人做出和真人一模一樣,自然流暢毫無(wú)違和感的動(dòng)作。但是,活學(xué)活用是不能指望的,每個(gè)動(dòng)作、每個(gè)形態(tài)的機(jī)器人,都是需要單獨(dú)訓(xùn)練的。

伯克利的科學(xué)家們?nèi)∵@兩個(gè)領(lǐng)域所長(zhǎng),創(chuàng)造了一種新方法DeepMimic。這種方法既有深度學(xué)習(xí)模型的通用性,可以覆蓋更多的動(dòng)作類型和機(jī)器人形態(tài),動(dòng)作的自然流暢程度也可以媲美動(dòng)作捕捉。

用這種新方法,機(jī)器人究竟是怎么學(xué)習(xí)新動(dòng)作的呢?

簡(jiǎn)單來(lái)說(shuō)是通過(guò)看動(dòng)作片段來(lái)學(xué)習(xí),人類的動(dòng)作捕捉數(shù)據(jù)就是個(gè)很好的學(xué)習(xí)資料。給機(jī)器人展示一個(gè)動(dòng)作樣本,比如說(shuō)下圖這個(gè)側(cè)空翻,右側(cè)就是供機(jī)器人學(xué)習(xí)的示范樣本。

參與這項(xiàng)研究的科學(xué)家們將示范動(dòng)作分解成一個(gè)q^0,q^1,…,q^T的序列,q^T表示的是在機(jī)器人在t時(shí)間步的目標(biāo)動(dòng)作。而這個(gè)機(jī)器人學(xué)習(xí)的目標(biāo),就是要盡可能消滅t時(shí)間步的實(shí)際動(dòng)作qT和目標(biāo)動(dòng)作q^T的差距。

機(jī)器人勤勞地不停練習(xí)練習(xí)練習(xí),直到自己的動(dòng)作不再羞恥,靈活性和仿真度能夠媲美演示視頻,像上圖左側(cè)那樣。

指導(dǎo)這個(gè)練習(xí)過(guò)程的,是這樣一個(gè)獎(jiǎng)勵(lì)函數(shù):

除了空翻,用這種方法教出來(lái)的機(jī)器人還能學(xué)到中西舞蹈、南拳北腿、跑步打把勢(shì)甚至鯉魚打挺:

對(duì)著完美的動(dòng)作捕捉樣本,再copy一遍,有什么意思?這項(xiàng)研究當(dāng)然不止于模仿。DeepMimic能讓機(jī)器人通過(guò)模仿學(xué)會(huì)動(dòng)作之后,再活學(xué)活用起來(lái)。

比如當(dāng)一個(gè)機(jī)器人學(xué)會(huì)了投球,就可以去執(zhí)行一個(gè)演示樣本中沒(méi)有的任務(wù)。我們可以在模擬器中,指定一個(gè)目標(biāo)讓它來(lái)投:

訓(xùn)練的機(jī)器人,也可以長(zhǎng)得和演示樣本不太一樣。比如說(shuō)還是用前邊的后空翻樣本,可以訓(xùn)練一個(gè)模擬波士頓動(dòng)力Altas的機(jī)器人:

甚至不是人形的機(jī)器人,也可以用人形樣本來(lái)訓(xùn)練。比如說(shuō)這頭霸王龍,就是跟人形樣本學(xué)習(xí)的走路。在論文的主頁(yè)上,他們還展示了更多的例子,甚至還有獅子和龍~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28379

    瀏覽量

    206914
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5500

    瀏覽量

    121111

原文標(biāo)題:強(qiáng)化學(xué)習(xí)新方法,讓后空翻回旋踢再也難不倒機(jī)器人 | 伯克利論文

文章出處:【微信號(hào):tjrobot,微信公眾號(hào):天津機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發(fā)表于 08-10 08:01

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    網(wǎng)絡(luò)GAN5、遷移學(xué)習(xí)TL報(bào)名聯(lián)系方式聯(lián)系:李連杰(老師)手機(jī):*** QQ: 1503177939深度學(xué)習(xí)之家QQ群群號(hào):372448770(加群備注:李連杰老師)強(qiáng)化學(xué)習(xí)課程QQ
    發(fā)表于 01-10 13:42

    一次性模仿學(xué)習(xí)新算法讓AI現(xiàn)在可以快速學(xué)習(xí)新的任務(wù)

    方法基于所謂的一次性模仿學(xué)習(xí),這是一種OpenAI開發(fā)的技術(shù),允許軟件引導(dǎo)機(jī)器人僅使用一個(gè)示例來(lái)模擬身體動(dòng)作。 AI現(xiàn)在可以通過(guò)模仿快速學(xué)習(xí)新
    發(fā)表于 09-22 14:25 ?0次下載

    基于LCS和LS-SVM的多機(jī)器人強(qiáng)化學(xué)習(xí)

    本文提出了一種LCS和LS-SVM相結(jié)合的多機(jī)器人強(qiáng)化學(xué)習(xí)方法,LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為L(zhǎng)CS的初始規(guī)則集。LCS通過(guò)與環(huán)境的交互,能更快發(fā)現(xiàn)指導(dǎo)多機(jī)器人
    發(fā)表于 01-09 14:43 ?0次下載

    跟人一樣聰明的機(jī)器人,觀察一次就可以模仿人類的動(dòng)作

    機(jī)器人由加州大學(xué)伯克利分校的工程師開發(fā),通過(guò)觀察視頻中的人員執(zhí)行動(dòng)作,可以快速學(xué)習(xí)新動(dòng)作。
    發(fā)表于 07-06 15:55 ?3002次閱讀

    機(jī)器人通過(guò)一段只有一個(gè)的視頻來(lái)模仿學(xué)習(xí)

    人類和動(dòng)物在學(xué)習(xí)新行為時(shí),大部分只需要觀察一次就能學(xué)會(huì),然而想讓機(jī)器人學(xué)習(xí)就沒(méi)那么容易了。隨著計(jì)算機(jī)視覺(jué)的發(fā)展,目前的技術(shù)能讓機(jī)器人依靠人體姿勢(shì)檢測(cè)系統(tǒng),模仿人類的動(dòng)作進(jìn)行
    的頭像 發(fā)表于 02-07 14:25 ?6177次閱讀
    讓<b class='flag-5'>機(jī)器人</b>通過(guò)一段只有一個(gè)<b class='flag-5'>人</b>的視頻來(lái)模仿<b class='flag-5'>學(xué)習(xí)</b>

    【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式,自主機(jī)器人可學(xué)會(huì)任何任務(wù)

    SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法,未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域
    的頭像 發(fā)表于 03-19 14:45 ?1898次閱讀

    強(qiáng)化學(xué)習(xí)究竟是什么?它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系?

    Q-learning和SARSA是兩種最常見的不理解環(huán)境強(qiáng)化學(xué)習(xí)算法,這兩者的探索原理不同,但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法,智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值
    的頭像 發(fā)表于 04-15 10:32 ?1.4w次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1409次閱讀

    谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

    Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet),這是一個(gè)純粹基于模型的智能體,能從圖像輸入中學(xué)習(xí)世界模型,完成多項(xiàng)規(guī)劃任務(wù),數(shù)據(jù)效率平均提升50倍,強(qiáng)化學(xué)習(xí)又一突破。
    的頭像 發(fā)表于 02-17 09:30 ?3332次閱讀
    谷歌、DeepMind重磅推出PlaNet <b class='flag-5'>強(qiáng)化學(xué)習(xí)新</b>突破

    如何訓(xùn)練機(jī)器人學(xué)習(xí)新技能

    10月27日消息,據(jù)外媒報(bào)道,約翰斯霍普金斯大學(xué)博士生安德魯洪特(Andrew Hundt) 近日發(fā)布一篇新論文,指出應(yīng)通過(guò)正強(qiáng)化法訓(xùn)練機(jī)器人學(xué)習(xí)新技能。
    的頭像 發(fā)表于 10-28 10:16 ?2405次閱讀

    一文詳談機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1747次閱讀

    當(dāng)機(jī)器人遇見強(qiáng)化學(xué)習(xí),會(huì)碰出怎樣的火花?

    當(dāng)機(jī)器人遇見強(qiáng)化學(xué)習(xí),會(huì)碰出怎樣的火花? 一名叫 Cassie 的機(jī)器人,給出了生動(dòng)演繹。 最近,24 歲的中國(guó)南昌小伙李鐘毓和其所在團(tuán)隊(duì),用強(qiáng)化學(xué)習(xí)教 Cassie 走路 ,目前它已
    的頭像 發(fā)表于 04-13 09:35 ?2439次閱讀
    當(dāng)<b class='flag-5'>機(jī)器人</b>遇見<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>,會(huì)碰出怎樣的火花?

    串口究竟是什么?

    串口通訊是我們?cè)陔娏﹄娮釉O(shè)計(jì)中使用頻率比較高的一種通訊協(xié)議,那串口究竟是什么?
    的頭像 發(fā)表于 04-12 09:40 ?2w次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源
    的頭像 發(fā)表于 11-05 17:34 ?280次閱讀
    RM新时代网站-首页