來源:Datawhale,作者:鄭程睿
最近,具身智能的概念很火。
不論是這幾天稚暉君開源人形機器人全套圖紙+代碼,引發(fā)圈內(nèi)熱議。
還是各類具身智能產(chǎn)品,如李飛飛的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字節(jié)跳動的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任務和場景中展示了強大的能力,并有潛力帶來革命性的變革。
那什么是具身智能呢?它又有什么用?
一文帶你了解。
本文拆分為上下兩篇,明天會更新下篇,聚焦人機交互、發(fā)展討論。
本文部分參考中國信息通信研究院和北京人形機器人創(chuàng)新有限公司的《具身智能發(fā)展報告》
具身智能基本概念
具身智能,即“具身+智能”,是將機器學習算法適配至物理實體,從而與物理世界交互的人工智能范式。以 ChatGPT 為代表的“軟件智能體”(或稱“離身智能體”)使用大模型通過網(wǎng)頁端、手機 APP 與用戶進行交互,能夠接受語音、文字、圖片、視頻的多種模態(tài)的用戶指令,從而實現(xiàn)感知環(huán)境、規(guī)劃、記憶以及工具調(diào)用,執(zhí)行復雜的任務。在這些基礎(chǔ)之上,具身智能體則將大模型嵌入到物理實體上,通過機器配備的傳感器與人類交流,強調(diào)智能體與物理環(huán)境之間的交互。
通俗一點講,就是要給人工智能這個聰明的“頭腦”裝上一副“身體”。這個“身體”可以是一部手機,可以是一臺自動駕駛汽車。
而人形機器人則是集各類核心尖端技術(shù)于一體的載體,是具身智能的代表產(chǎn)品。
具身智能的三要素:本體、智能、環(huán)境
具身智能的三要素:“本體”,即硬件載體;“智能”,即大模型、語音、圖像、控制、導航等算法;“環(huán)境”,即本體所交互的物理世界。本體、智能、環(huán)境的高度耦合才是高級智能的基礎(chǔ)。
不同環(huán)境下的會有不同形態(tài)的硬件本體以適應環(huán)境。比如室內(nèi)平地更適用輪式機器人,崎嶇不平的地面更適用四足機器人(機器狗)。在具身智能體與環(huán)境的交互中,智能算法可以通過本體的傳感器以感知環(huán)境,做出決策以操控本體執(zhí)行動作任務,從而影響環(huán)境。在智能算法與環(huán)境的交互中還可以通過“交互學習”和擬人化思維去學習和適應環(huán)境,從而實現(xiàn)智能的增長。
具身智能的四個模塊:感知-決策-行動-反饋
一個具身智能體的行動可以分為“感知-決策-行動-反饋”四個步驟,分別由四個模塊完成,并形成一個閉環(huán)。
感知模塊
感知模塊負責收集和處理信息,通過多種傳感器感知和理解環(huán)境。在機器人上,常見的傳感器有:
可見光相機:負責收集彩色圖像。
紅外相機:負責收集熱成像、溫度測量、夜視和透視。紅外相機能夠檢測物體發(fā)出的熱輻射,即使在完全黑暗的環(huán)境中也能生成圖像。這種能力使得紅外相機適用于夜視和熱成像。紅外相機可以測量物體表面的溫度,廣泛應用于設備過熱檢測、能源審計和醫(yī)學成像等領(lǐng)域。某些紅外相機能夠穿透煙霧、霧氣和其他遮擋物,適用于應急救援和安全監(jiān)控。
深度相機:負責測量圖像中每個點與相機之間的距離,獲取場景的三維坐標信息。
激光雷達(LiDAR):負責測量目標物體的距離和速度。通過發(fā)射激光脈沖并接收反射回來的光來計算與物體的距離,生成高精度的三維點云數(shù)據(jù),廣泛應用于自動駕駛和機器人導航。
超聲波傳感器:負責避障。通過發(fā)射超聲波脈沖并接收這些脈沖的反射來確定機器人與障礙物之間的距離,判斷障礙物是否存在。
壓力傳感器:負責測量機器人手或腳部的壓力,用于行走和抓取力的控制以及避障。
麥克風:負責收音。
此外,根據(jù)不同應用場景,還可以使用一些特定的傳感器實現(xiàn)特定功能。例如,電子鼻可以檢測氣體,應用于防爆和環(huán)境監(jiān)測場景;濕度傳感器可以應用于農(nóng)業(yè)機器人和室內(nèi)環(huán)境控制。環(huán)境理解在通過傳感器獲取環(huán)境信息后,機器人需要通過算法理解環(huán)境。在一些空間和場景相對穩(wěn)定可控的環(huán)境中,算法并不需要強泛化能力,因此只需要針對特定場景的模型。例如,可以使用YOLO進行目標檢測,使用SLAM實現(xiàn)導航和定位。而對于多變和陌生的場景,算法需要強泛化能力,因此需要使用多模態(tài)大模型,將聲音、圖像、視頻、定位等多種環(huán)境信息融合并進行判斷。后續(xù)章節(jié)將詳細討論這一點。
決策模塊(大模型)
決策模塊是整個具身智能系統(tǒng)的核心,它負責接收來自感知模塊的環(huán)境信息,進行任務規(guī)劃和推理分析,以指導行動模塊生成動作。在早期的技術(shù)發(fā)展中,決策模塊主要依賴于人工編程的規(guī)則判斷和專用任務的算法設計。然而,這些定制化的算法很難應對動態(tài)變化的環(huán)境和未知情況。基于近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)和Q-learning算法的強化學習方法在具身智能自主導航、避障和多目標收集等任務中展現(xiàn)出更好的決策靈活性。然而,這些方法在復雜環(huán)境的適應能力、決策準確度和效率方面仍存在局限。
大模型的涌現(xiàn),極大地增強了具身智能體的智能程度,大幅提高了環(huán)境感知、語音交互和任務決策的能力。相較于“軟件智能體”的AIGC(AI-generated Content),即由大模型生成文字、圖片等內(nèi)容,調(diào)用的工具是函數(shù);具身智能體的大模型是AIGA(AI-generated Actions),即由大模型生成動作,調(diào)用的工具是機械臂、相機等身體部件。在多模態(tài)的視覺語言模型(Vision Language Model, VLM)的基礎(chǔ)上,具身智能的大模型的發(fā)展方向是視覺語言動作模型(Vision Language Action Model, VLA)和視覺語言導航模型(Vision Language Navigation Model, VLN)。
VLA:輸入是語言、圖像或視頻流,輸出是語言和動作。在一個統(tǒng)一的框架內(nèi)融合了互聯(lián)網(wǎng)、物理世界以及運動信息,從而實現(xiàn)了從自然語言指令到可執(zhí)行動作指令的直接轉(zhuǎn)換。
VLN:輸入是語言、圖像或視頻流,輸出是語言和移動軌跡。針對導航任務中的語言描述、視覺觀測對象以及運動軌跡等多個階段的任務需求,VLN用于統(tǒng)一的指令輸入框架,使得大模型可以直接生成運動方向、目標物體位置等操作信息。
近年來,諸如VoxPoser、RT-2和Palme等初期的VLA模型,以及NaviLLM這樣的VLN模型已展示出令人期待的能力。在面向未來的發(fā)展中,多模態(tài)大模型與世界模型(World Model)的結(jié)合可以實現(xiàn)感知預測,即模擬環(huán)境中的動態(tài)變化。3D-VLA在此基礎(chǔ)上進一步整合了三維世界模型的模態(tài),能夠預演環(huán)境動態(tài)變化及其對行動結(jié)果的影響。隨著多模態(tài)處理技術(shù)的發(fā)展,具身智能系統(tǒng)將能夠融合語言、視覺、聽覺、觸覺等多種感官信息,從而更自動化地理解指令并增強任務泛化能力。也許在具身智能大模型發(fā)展的最終階段,一個具備感知-決策-執(zhí)行的端到端大模型將孕育而生。它如同融合了人類的大腦和小腦,將原本不同模塊的功能融合至一個統(tǒng)一的框架下,能夠直接推理語言回復、精細動作、自主導航、工具使用以及與人協(xié)同合作,從而實現(xiàn)低延時和強泛化。
行動模塊
行動模塊是具身智能系統(tǒng)中的“執(zhí)行單元”,負責接收來自決策模塊的指令,并執(zhí)行具體的動作。行動模塊的主要任務包括使用導航定位算法實現(xiàn)移動,以及使用控制算法操縱機械臂等身體元件實現(xiàn)物體操作。例如,導航任務需要智能體通過移動來尋找目標位置,而物體操作和交互則涉及對環(huán)境中物體的抓取、移動和釋放等動作。在行動模塊中,實現(xiàn)精細的動作控制是一個重要的挑戰(zhàn)。行動模塊如何響應決策模塊的指令并生成動作,具體實現(xiàn)可以分為以下三種方式:
決策模塊(大模型)調(diào)用預編動作算法:
導航定位算法通過在事先建好的地圖和點位上實現(xiàn)移動。
機械臂等身體元件通過預編好的控制算法執(zhí)行特定動作。
這種方式的優(yōu)點在于動作的可控性強。在與真實物理世界交互的過程中,動作生成的容錯率低,由模型推理的動作一旦出錯可能會造成巨大損失。這種方式的缺點在于算法開發(fā)量大,且泛化能力弱,難以將動作遷移至新環(huán)境中。
決策模塊(大模型)與動作算法協(xié)同工作:使用視覺語言模型(VL)讀取行動模塊的實時視頻流,從而指導導航與控制算法生成動作。例如:
在執(zhí)行導航任務時,將Rviz顯示的地圖視頻流與相機捕捉的實時視頻流輸入至VL中,結(jié)合用戶語言指令,指導導航系統(tǒng)移動。
在執(zhí)行物體操作任務時,將機械臂上的相機的實時視頻流輸入至VL中,結(jié)合用戶語言指令,指導控制算法操作機械臂完成精準抓取等任務。
這種方式使得機器人能夠在與環(huán)境的交互中不斷輸入新的環(huán)境信息,以不斷優(yōu)化決策和行動,增強行動的泛化性。然而,這種方式對數(shù)據(jù)吞吐量和算力是一個挑戰(zhàn)。
決策模塊(大模型)與行動模塊的融合:如上所述,未來的發(fā)展方向?qū)⑹鞘褂肰LA(Vision Language Action Model)和VLN(Vision Language Navigation Model)這樣的端到端具身智能大模型直接推理動作。這種模型將互聯(lián)網(wǎng)知識、物理世界概念與運動信息融合到統(tǒng)一框架中,能夠直接依據(jù)自然語言描述生成可執(zhí)行的動作指令,傳入執(zhí)行器中。這種方式將決策、行動甚至是感知逐漸融合,使行動模塊的能力和靈活性進一步提高,從而使具身智能系統(tǒng)在各種應用場景中發(fā)揮更大的作用。
以上三種方式從上到下,隨著技術(shù)的不斷進步,將決策、行動甚至是感知逐漸融合,使行動模塊的能力和靈活性不斷提高,從而使具身智能系統(tǒng)在各種應用場景中發(fā)揮更大的作用。
反饋模塊
反饋模塊通過多層交互不斷接收來自環(huán)境的反饋經(jīng)驗并進行調(diào)整和優(yōu)化。具體來說,反饋模塊分別反饋上述的感知、決策、行動模塊。以提高對環(huán)境的適應性和智能化水平。
1. 反饋感知模塊:反饋模塊通過提供持續(xù)的反饋,增強了感知模塊對實時環(huán)境數(shù)據(jù)的敏感度。這包括但不限于圖像、聲音、壓力和觸感等多模態(tài)數(shù)據(jù),使得感知模塊能夠更加精準地捕捉和響應環(huán)境變化。
反饋模塊將感知模塊先前捕獲的環(huán)境信息視為“經(jīng)驗”或“記憶”,并將這些信息作為“提醒”重新輸入到感知模塊中。例如,在人機對話的場景中,如果感知模塊識別到一個新用戶,即一個尚未建立用戶習慣檔案的個體,或者是一個已經(jīng)存在于記憶中的老用戶,即一個已經(jīng)擁有熟悉操作流程的用戶,反饋模塊會將這些識別信息反饋給感知模塊。這一過程模擬了人類在遇到陌生人或熟人時的自然反應,從而使得感知模塊能夠根據(jù)用戶的不同身份和歷史交互數(shù)據(jù),調(diào)整其感知和響應策略,以提供更加個性化和適應性的服務。
2. 反饋決策模塊:反饋模塊通過提供持續(xù)的任務完成度、用戶指令的反饋。決策模塊利用這些反饋進行自我優(yōu)化,調(diào)整其算法的參數(shù)。通過這種閉環(huán)反饋機制,決策模塊能夠不斷學習和適應,提高對環(huán)境的適應性和智能化水平。
例如,在自動駕駛的決策規(guī)劃控制技術(shù)中,反饋模塊的作用是對感知到的周邊物體的預測軌跡的基礎(chǔ)上,結(jié)合無人車的路由意圖和當前位置,對車輛做出最合理的決策和控制。
3. 反饋行動模塊:反饋模塊通過感知模塊獲取環(huán)境變化信息,并將這些信息反饋給決策模塊。決策模塊根據(jù)反饋信息靈活調(diào)整動作,確保執(zhí)行器在多變的環(huán)境中能夠調(diào)整運動軌跡、力量輸出和動作順序。例如,機器人的超聲避障功能能夠在遇到突然出現(xiàn)的障礙物或前方行人時立即停止運動,避免碰撞。導航系統(tǒng)在規(guī)劃自由路徑時,遇到突發(fā)的障礙物和人群時能夠立即重新規(guī)劃路徑并繞行。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238209 -
人形機器人
+關(guān)注
關(guān)注
2文章
443瀏覽量
16549 -
具身智能
+關(guān)注
關(guān)注
0文章
42瀏覽量
40
原文標題:一篇具身智能的最新全面綜述?。ㄉ希?/p>
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論