波士頓動(dòng)力人形機(jī)器人的后空翻技能亮相時(shí),驚艷了全球群眾。
這么復(fù)雜的動(dòng)作,不用說(shuō)現(xiàn)實(shí)世界中的機(jī)器人,就算是在模擬器里,學(xué)起來(lái)也非常的難。
現(xiàn)在,加州大學(xué)伯克利分校和英屬哥倫比亞大學(xué)最新研究的一種新方法,能教生活在模擬器中的機(jī)器人通過(guò)模仿人類,學(xué)會(huì)武打、跑酷、雜技等復(fù)雜技能。
后空翻回旋踢什么的,輕輕松松搞定~
(下文還會(huì)提到很多次“機(jī)器人”,基本都是生活在模擬器里的這種)
讓機(jī)器人、動(dòng)畫和游戲角色能靈活流暢地運(yùn)動(dòng),是計(jì)算機(jī)圖形學(xué)、強(qiáng)化學(xué)習(xí)、機(jī)器人等等領(lǐng)域的研究者都在追求的目標(biāo)。
不同方法各有所長(zhǎng),當(dāng)然也各有所短。
用強(qiáng)化學(xué)習(xí)方法教機(jī)器人(模擬器里的智能體),能學(xué)會(huì)的動(dòng)作花樣繁多,細(xì)致到拿東西、豪放到奔跑都能搞定,還可以給機(jī)器人設(shè)置一個(gè)明確的目的。但是,總難免上演一些羞恥或驚喜play。
而動(dòng)作捕捉技術(shù),能讓機(jī)器人做出和真人一模一樣,自然流暢毫無(wú)違和感的動(dòng)作。但是,活學(xué)活用是不能指望的,每個(gè)動(dòng)作、每個(gè)形態(tài)的機(jī)器人,都是需要單獨(dú)訓(xùn)練的。
伯克利的科學(xué)家們?nèi)∵@兩個(gè)領(lǐng)域所長(zhǎng),創(chuàng)造了一種新方法DeepMimic。這種方法既有深度學(xué)習(xí)模型的通用性,可以覆蓋更多的動(dòng)作類型和機(jī)器人形態(tài),動(dòng)作的自然流暢程度也可以媲美動(dòng)作捕捉。
用這種新方法,機(jī)器人究竟是怎么學(xué)習(xí)新動(dòng)作的呢?
簡(jiǎn)單來(lái)說(shuō)是通過(guò)看動(dòng)作片段來(lái)學(xué)習(xí),人類的動(dòng)作捕捉數(shù)據(jù)就是個(gè)很好的學(xué)習(xí)資料。給機(jī)器人展示一個(gè)動(dòng)作樣本,比如說(shuō)下圖這個(gè)側(cè)空翻,右側(cè)就是供機(jī)器人學(xué)習(xí)的示范樣本。
參與這項(xiàng)研究的科學(xué)家們將示范動(dòng)作分解成一個(gè)q^0,q^1,…,q^T的序列,q^T表示的是在機(jī)器人在t時(shí)間步的目標(biāo)動(dòng)作。而這個(gè)機(jī)器人學(xué)習(xí)的目標(biāo),就是要盡可能消滅t時(shí)間步的實(shí)際動(dòng)作qT和目標(biāo)動(dòng)作q^T的差距。
機(jī)器人勤勞地不停練習(xí)練習(xí)練習(xí),直到自己的動(dòng)作不再羞恥,靈活性和仿真度能夠媲美演示視頻,像上圖左側(cè)那樣。
指導(dǎo)這個(gè)練習(xí)過(guò)程的,是這樣一個(gè)獎(jiǎng)勵(lì)函數(shù):
除了空翻,用這種方法教出來(lái)的機(jī)器人還能學(xué)到中西舞蹈、南拳北腿、跑步打把勢(shì)甚至鯉魚打挺:
對(duì)著完美的動(dòng)作捕捉樣本,再copy一遍,有什么意思?這項(xiàng)研究當(dāng)然不止于模仿。DeepMimic能讓機(jī)器人通過(guò)模仿學(xué)會(huì)動(dòng)作之后,再活學(xué)活用起來(lái)。
比如當(dāng)一個(gè)機(jī)器人學(xué)會(huì)了投球,就可以去執(zhí)行一個(gè)演示樣本中沒(méi)有的任務(wù)。我們可以在模擬器中,指定一個(gè)目標(biāo)讓它來(lái)投:
訓(xùn)練的機(jī)器人,也可以長(zhǎng)得和演示樣本不太一樣。比如說(shuō)還是用前邊的后空翻樣本,可以訓(xùn)練一個(gè)模擬波士頓動(dòng)力Altas的機(jī)器人:
甚至不是人形的機(jī)器人,也可以用人形樣本來(lái)訓(xùn)練。比如說(shuō)這頭霸王龍,就是跟人形樣本學(xué)習(xí)的走路。在論文的主頁(yè)上,他們還展示了更多的例子,甚至還有獅子和龍~
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28379瀏覽量
206914 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121111
原文標(biāo)題:強(qiáng)化學(xué)習(xí)新方法,讓后空翻回旋踢再也難不倒機(jī)器人 | 伯克利論文
文章出處:【微信號(hào):tjrobot,微信公眾號(hào):天津機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論