“AR/VR/XR×元宇宙”時代的到來
虛擬現(xiàn)實技術(shù)VR通過逼真的、具有三維視、觸、嗅、聽等多感官體驗的虛擬世界,營造出如身臨其境的虛擬世界。
增強現(xiàn)實技術(shù)AR將文字、圖像、三維模型、音視頻等數(shù)字信息,通過顯示終端融入到現(xiàn)實世界,對現(xiàn)實世界信息不斷加以完善和增強。
混合現(xiàn)實技術(shù)XR融合了VR和AR技術(shù)與場景,通過更為多元的場景建構(gòu),搭建起現(xiàn)實世界、虛擬世界以及用戶之間實時、動態(tài)、可持續(xù)的交互與反饋,為用戶創(chuàng)建出更為多元化的情景內(nèi)容和空間體驗。
從AR、VR到MR,構(gòu)建虛擬世界與現(xiàn)實世界融合的各項技術(shù)以“XR”被統(tǒng)稱為擴展現(xiàn)實技術(shù),并以沉浸式的交互模式、大膽的創(chuàng)新正在逐步改變著世界存在的形式?!笆奈濉币?guī)劃已明確將虛擬現(xiàn)實和增強現(xiàn)實列為數(shù)字經(jīng)濟重點產(chǎn)業(yè)之一。
而元宇宙概念的提出徹底撕開了現(xiàn)實與虛擬世界間的面紗?!霸钪妗奔闪藬U展現(xiàn)實、腦機接口、區(qū)塊鏈、云計算、數(shù)字孿生、人工智能等多種技術(shù),不再以技術(shù)為出發(fā)點,而是打破虛擬與現(xiàn)實的空間界限,以多元空間建構(gòu)為基礎(chǔ),創(chuàng)新場景應(yīng)用與交互,探索人類社會新的空間關(guān)系,并逐漸改變著人們對空間的認知。
當(dāng)下,基于“AR/VR/XR”融合的多元場景,正越來越多的應(yīng)用在人類工業(yè)生產(chǎn)、教育、醫(yī)療、娛樂、運營服務(wù)等領(lǐng)域。比如基于復(fù)雜工業(yè)設(shè)備的虛擬操控訓(xùn)練、課堂教學(xué)的沉浸式體驗、醫(yī)療手術(shù)中的遠程輔助、更具沉浸感的體驗游戲、對歷史場景的還原、服裝購買過程中的衣物試穿等場景。未來,或許這些場景也將成為大元宇宙空間的重要內(nèi)容。而社交元宇宙、企業(yè)元宇宙等概念的提出,也只是元宇宙創(chuàng)新的一種形式,更多的可能正在探索的路上。“AR/VR/XR×元宇宙”時代已經(jīng)到來。
感知識別或?qū)⒊蔀樵钪婵臻g時代人機交互主要入口與載體
在打破虛擬與現(xiàn)實世界界限的元宇宙空間里,手勢、語音交互、腦機接口是最為直接的交互方式,或?qū)⒊蔀橄乱淮?a href="http://hljzzgx.com/v/" target="_blank">智能網(wǎng)絡(luò)時代新的人機交互入口和載體。
在擴展現(xiàn)實技術(shù)營造的多元空間場景中,屏顯設(shè)備建立起人與虛擬世界的視覺聯(lián)系;座椅、腳踏設(shè)備等建立起與人的身體與虛擬世界的運動感知;味道、水汽等物理環(huán)境創(chuàng)設(shè)輔助人在虛擬空間的嗅覺感知和環(huán)境觸覺感知;手勢識別、語音識別、腦機接口等交互模式建立起人與虛擬世界的持續(xù)交互操控。
手勢識別技術(shù)因其技術(shù)的成熟性,交互功能多樣性,成為當(dāng)下擴展現(xiàn)實感知交互發(fā)展的重要內(nèi)容與設(shè)備。手勢識別為身處元宇宙空間的人們提供了即時、高效、立體、多元和可持續(xù)的感觀交互體驗。手勢識別技術(shù)在擴展現(xiàn)實場景操控與交互過程中發(fā)揮越來越重要的作用。
手勢識別在沉浸式體驗中不可或缺
人手本身屬于人的操控器官,當(dāng)人置身于虛擬世界中時,手眼協(xié)調(diào)是最自然的操控方式,且無需額外增加操控硬件?;谑謩葑R別技術(shù)以及輔助增強手感知和反饋的可穿戴設(shè)備,手勢識別可以幫助使用者建立起人手與虛擬世界場景間更為自然、真實的操控體驗,比如在虛擬世界中拿起一杯水、變形一個物體、打開一扇門等等。
通過手勢識別,可以更為直接的建立起手的動作感知與人腦間的自然連接,更為直接的聯(lián)動人的視覺、觸覺、聽覺等感知體驗,使人在虛擬情境中的感官體驗變得更加立體、多元和真實,形成現(xiàn)實世界與虛擬世界間關(guān)聯(lián)性更強的、更具沉浸感和交互性的體驗效果,進而,可以創(chuàng)作出更加豐富、細膩、具有想象力的內(nèi)容情境。
手勢識別擴展現(xiàn)實情景交互場景
目前,手勢識別技術(shù)存在裸手手勢識別、觸覺手柄、觸覺手套、肌電手環(huán)等多種實現(xiàn)路徑。其中,裸手手勢識別通過基于攝像頭的多點視覺識別技術(shù)分析和識別手的位置和姿態(tài),搭載頭顯設(shè)備的裸手手勢識別應(yīng)用已經(jīng)落地,并向更高精度發(fā)展;觸覺手柄在操控手柄原有的定位與操控功能之外,通過震動、抓握等簡單的交互方式增加觸覺反饋;觸覺手套通過搭載密集的執(zhí)行器反饋點,在手勢識別的準(zhǔn)確性、流暢性、靈活度以及細微觸覺感知等方面獨具優(yōu)勢。
同時,在追蹤定位方面,搭配攝像頭+慣性測量單元的inside-out方案因能夠?qū)崿F(xiàn)三類平移、三類旋轉(zhuǎn)的六自由度操作以及微動作、主體移動等功能,在消費級VR一體機上被廣泛應(yīng)用。
具有高感知的手勢識別技術(shù)正逐漸走向成熟,推動手勢識別應(yīng)用的不斷落地,為擴展現(xiàn)實情景內(nèi)容交互的發(fā)展提供更多可能。
手勢識別芯片技術(shù)逐漸走向成熟
在VR、AR、MR等擴展現(xiàn)實情景下,感知交互突破了二維屏幕的限制。裸手手勢識別技術(shù)需要傳感器、芯片和算法的協(xié)同工作。在傳感器方面,需要識別精度更高、響應(yīng)速度更快、覆蓋范圍更廣,以及價格耕地和體積更小的傳感器;在算法上,需要不斷改進算法模型,提供更高精度的數(shù)據(jù)集;在芯片算力上,需要能夠支撐更為復(fù)雜運算的芯片技術(shù)能力。
多角度成像手勢識別芯片成為主流
手勢識別最關(guān)鍵的技術(shù)是對手勢動作的跟蹤以及通過算法分析出手部的位置和姿態(tài)。根據(jù)硬件實現(xiàn)方式不同,手勢識別芯片方案主要有三種:
一種是基于結(jié)構(gòu)光原理,通過激光折射以及相應(yīng)算法計算出物體的位置和深度信息,進而復(fù)原整個三維空間,代表產(chǎn)品是微軟 KINECT一代,在深度計算和識別距離實現(xiàn)難度較大;一種是基于光飛時間原理,加載一個發(fā)光原件,通過CMOS傳感器捕捉計算光子飛行時間推算物體的深度信息,代表產(chǎn)品是intel帶手勢識別功能的三維攝像頭;一種是基于多角度成像原理,運用兩個或多個攝像頭同時采集圖像,對比不同攝像頭同一時刻獲得的圖像差別計算深度信息,形成三維圖像,業(yè)內(nèi)Leap Motion、MakeSens等公司使用的都是一個或多個普通攝像頭組成的手勢識別技術(shù)方案。
與深度攝像頭方案相比,一個或多個普通攝像頭實現(xiàn)的手勢識別,在綜合了實現(xiàn)成本、技術(shù)難度以及識別精度等要求下,未來或可成為頭顯設(shè)備主流的手勢識別控制模式。
高感知手勢識別的必要條件
基于多角度成像算法的手勢識別系統(tǒng),通過背景摳除、運動檢測和閾值、輪廓提取等實現(xiàn)手部識別以及區(qū)分左右手;通過對單手的21個或26個關(guān)鍵點的動態(tài)、實時識別與追蹤,確定手在圖像中的位置以及識別手勢所代表的信息;運用不同攝像頭同一時刻獲得的圖像差別計算圖像深度信息;進而,通過手勢信息所代表的操作命令實現(xiàn)對界面內(nèi)容的瞄準(zhǔn)、選擇和操控等操作。
為實現(xiàn)高感知手勢識別,需要高質(zhì)量的手勢模型可以預(yù)測出更多的3D關(guān)節(jié)點;需要足夠高精度的數(shù)據(jù)訓(xùn)練高質(zhì)量的手勢模型;需要基于深度學(xué)習(xí)的推理運算,則可以處理手的復(fù)雜動作,同時抵抗不同環(huán)境要素的干擾。因而,在高感知的實現(xiàn)過程中,需要更高效率的算力解決復(fù)雜問題,對芯片功耗、時延和成本也有著更高的要求。
與SLAM攝像頭的兼容特性
在inside-out追蹤成為主流的情況下,近兩年,同步定位與建圖SLAM技術(shù)在擴展現(xiàn)實場景上的應(yīng)用不斷增多。PC端VR頭顯、移動端VR一體機,AR眼鏡等設(shè)備幾乎全部加入了SLAM定位功能。SLAM攝像頭大多采用魚眼或是廣角灰度攝像頭,與RGB攝像頭相比,SLAM攝像頭在手勢識別精度上表現(xiàn)更高,且具有良好的兼容性性。
因而,增加SLAM功能的VR、AR設(shè)備在采用手勢識別時,可以直接采用SLAM灰度攝像頭進行手勢識別,不再需要增加額外硬件配件,不但其識別精度可以保證,兼容效果良好,也不會增加攝像頭的硬件成本,同時也無需考慮設(shè)備功耗負擔(dān)。以MakeSens的產(chǎn)品為例,在同時運行SLAM定位追蹤和手勢識別的情況下,即使完全使用CPU的模式下,所占用的CPU資源也能夠控制在30%以內(nèi),大部分的CPU運算都能夠留給軟件運行實現(xiàn)。MakeSens基于“感算共融”智能芯片架構(gòu),以模擬信息轉(zhuǎn)換技術(shù)解決能量效率瓶頸,其超低功耗智能AI芯片與傳統(tǒng)芯片相比,能耗可以降低三個數(shù)量級。
關(guān)于MakeSens
MakeSens手勢識別芯片上的創(chuàng)新與精進
5月12日,在由中國半導(dǎo)體行業(yè)協(xié)會IC設(shè)計分會(ICCAD)、芯原股份、松山湖管委會主辦的“AR/VR/XR×元宇宙”的“2023松山湖中國IC創(chuàng)新高峰論壇”上,國產(chǎn)智能感知芯片廠商MakeSens(MakeSens)智能科技(北京)有限公司總經(jīng)理和大家交流了傳數(shù)字芯片處理高功耗形成的原因并闡明了MakeSens在模擬計算架構(gòu)下是如何實現(xiàn)芯片低能耗的;同時,也發(fā)布了公司自主研發(fā)的,集成了多核NPU低功耗感算一體的智能芯片。
鄒天琦指出: 在摩爾定律運算邏輯下,傳統(tǒng)的數(shù)字計算架構(gòu)下,90%的功耗都損耗在了數(shù)據(jù)在存儲和計算單元間的搬移過程中,并沒有用在數(shù)據(jù)處理過程中,且因數(shù)據(jù)搬移帶來了更高的延時,同時,依賴于制程提升的邏輯芯片性能也帶來工藝成本和散熱的問題。
而在傳統(tǒng)的感知計算鏈路下,傳感器采集的數(shù)據(jù)需要經(jīng)過ADS模數(shù)轉(zhuǎn)換器對模擬信號進行數(shù)字信號轉(zhuǎn)換,再通過DSP數(shù)字信號處理器進行處理,CPU/GPU/FPGA計算芯片進行計算。計算鏈路較長帶來計算效率低、功耗大等問題。
相比之下,模擬計算架構(gòu)通過近傳感計算芯片直接對傳感器采集的數(shù)據(jù)進行計算,將部分DSP芯片需要承擔(dān)的任務(wù)進行前置處理,精簡處理器信息后,再將處理后的數(shù)據(jù)通過ADC模數(shù)轉(zhuǎn)換器傳遞給CPU/GPU/FPGA等計算芯片。主芯片計算的是剔除不必要信息的精簡數(shù)據(jù),減少了數(shù)據(jù)遷移量和數(shù)據(jù)處理量,進而提升了計算效率,也降低了整個計算鏈路的功耗。同時鄒天琦還代表MakeSens發(fā)布了公司首款面向面向手勢交互應(yīng)用的低功耗感算一體智能芯片MKS2206。
該芯片集成多核自研NPU,該芯片支持包括圖像、語音等多種感知模態(tài)。在AR/VR場景應(yīng)用中,該芯片功能支持雙手檢測、跟蹤與左右手識別;支持雙手21關(guān)鍵點和3D坐標(biāo)檢測;支持多種典型手勢、自定義手勢。可以很好的滿足AR/VR場景應(yīng)用需求;可以實現(xiàn)畫面抖動、低視頻分辨率、低照度及多目標(biāo)類別等情況下穩(wěn)定的手勢檢測和跟蹤功能。
在運算性能上,該芯片定位誤差小于10mm;實時處理幀率大于60fps;可實現(xiàn)小于50ms延遲的連續(xù)無卡頓交互;檢出成功率大于98%。在傳感器性能上,支持MIPI-CSI接口;典型配置為640x480單色,雙路分辨率最高支持1280x800;典型功耗< 200mW。同時,MakeSens還提供了完整的軟件棧,易于與AP集成。
據(jù)了解,該芯片基于40nm工藝,將會在今年二季度小規(guī)模量產(chǎn),2023年三季度客戶導(dǎo)入,2024年二季度規(guī)模出貨。此外,MakeSens還計劃在2024年推出基于22nm工藝的新一代MK3xxx系列芯片,主要面向SLAM 6DoF定位、手勢交互、眼動追蹤動等場景應(yīng)用。
MakeSens公司背景介紹
MakeSens公司源起于清華大學(xué)電子系集成智能感知(iVip)實驗室,2015首創(chuàng)提出“感算共融”的智能芯片架構(gòu),利用模擬計算的高能效特性優(yōu)勢,極大降低了持續(xù)智能視覺感知計算下的能耗問題。MakeSens擁有一支經(jīng)驗豐富的模擬計算研發(fā)團隊,核心人員擁有平均10年以上的行業(yè)從業(yè)經(jīng)驗,18次流片經(jīng)驗,并且與數(shù)家頂尖的公司在持續(xù)研發(fā)合作。
MakeSens推出的低功耗智能視覺感知平臺的核心部件,采用自主創(chuàng)新架構(gòu)設(shè)計,該芯片能夠在復(fù)雜的識別任務(wù)中以低功耗、高精度、高性能和高穩(wěn)定性脫穎而出,因此有望在AR/VR/MR以及智能座艙等復(fù)雜人機感知和交互場景中廣泛部署。通過集成輕量級識別交互算法,顯著降低系統(tǒng)功耗,提升整體性能,并達到同行業(yè)領(lǐng)先水平。
MakeSens的目標(biāo)是在2024-2025年面向大客戶的完整解決方案,并實現(xiàn)億元以上營收。希望在2026-2028年完成平臺服務(wù)、生態(tài)搭建,建立以自研芯片為核心的全時域智能感知服務(wù)平臺,并實現(xiàn)IPO。
編輯:黃飛
?
評論
查看更多