RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta研究:基于頭顯攝像頭進行姿態(tài)估計的方法和優(yōu)缺點

傳感器技術 ? 來源:傳感器技術 ? 2023-05-31 14:49 ? 次閱讀

通過頭顯攝像頭進行自我姿態(tài)追蹤

目前大多數(shù)基于VR一體機的Avatar系統(tǒng)都沒有下半身,一個重要的原因是,盡管設備能夠通過內向外追蹤實現(xiàn)頭部和雙手的動捕,而這又使得估計手臂和胸部的位置相對容易,但系統(tǒng)難以判斷你的腿、腳或臀部位置,所以今天的Avatar一直都是缺失下半截。

如果有關注映維網(wǎng)的論文分享,你應該會注意到Meta一直有在進行相關研究,尤其是通過機器學習/深度學習/人工智能等技術來實現(xiàn)基于純頭顯攝像頭的全身動捕解決方案。

在早前發(fā)布的論文《SelfPose: 3D Egocentric Pose Estimation From a Headset Mounted Camera》中,Meta聯(lián)合倫敦大學學院,布倫瑞克工業(yè)大學,馬克斯·普朗克智能系統(tǒng)和卡內基梅隆大學等機構探索了基于頭顯攝像頭來進行自我姿態(tài)估計的方法。

AR/VR體驗需要由用戶姿態(tài)的顯式表征所驅動。特別地,其需要從設備的角度估計用戶的姿態(tài),這隱含地對應于以自我為中心的角度,亦即與用戶3D頭部和身體姿態(tài)相應對的“Egopose/自我姿態(tài)”。自我姿態(tài)驅動著在AR和VR中構建自然體驗所需的必要輸入。

自我姿態(tài)估計是一項具有挑戰(zhàn)性的任務?,F(xiàn)有的方法通常分為兩類:基于非光學傳感器的方法和基于攝像頭的方法。基于傳感器的方法依賴于磁性和慣性屬性,并給出了自我姿態(tài)的穩(wěn)健估計。然而,它們需要特殊設計且難以設置的設備,并且具有限定用戶一般性移動的侵入性。

基于攝像頭的方法則侵入性較小,可以在不同的環(huán)境中工作。其中一類方法依靠自上而下的朝內式攝像頭來獲得用戶的最佳視圖,而另一類方法則使用窄視場前向攝像頭(用戶不可見)。只要能夠清楚地“看到”身體部位,前一種設置可以產(chǎn)生可靠的結果,但朝內式攝像頭需要向前延伸,以避免鼻子和臉頰被遮擋。當用戶離開視場時,姿態(tài)估計將完全失敗。后一種設置的優(yōu)點是在看不到用戶的情況下估計自我姿態(tài),但它難以解析模糊的身體姿態(tài),尤其是手臂姿態(tài)。

圖1說明了本篇論文所希望解決的問題:目標是從以自我為中心的攝像頭角度推斷2D和3D姿勢信息,如關節(jié)位置和旋轉,這是將運動從原始用戶轉移到通用Avatar或收集用戶姿勢信息的必需項。

f0914798-ff5e-11ed-90ce-dac502259ad0.jpg

圖1

團隊的配置中使用的單目攝像頭安裝在頭顯邊緣(如圖1a所示),距離平均尺寸的鼻子大約2厘米,朝下。圖2進一步顯示了攝像頭在不同身體配置下看到的圖像。最上面一行顯示了從以自中心的角度來看,什么身體部位會變得自遮擋。從亮紅色到深綠色的連續(xù)漸變編碼相應著色區(qū)域的像素分辨率的增加。

f09cd824-ff5e-11ed-90ce-dac502259ad0.jpg

圖2

上圖顯示了同一角色的不同姿勢的可視化。最上方是從外部攝像頭視點渲染的姿勢。白色代表遮擋,遮擋是從以自中心角度看不到的身體部位。最下方是從以自為中心攝像頭視點渲染的姿勢。顏色梯度表示身體每個區(qū)域的圖像像素密度:綠色表示像素密度較高,而紅色表示像素密度較低。

圖表說明了自中心人體姿勢估計所面臨的挑戰(zhàn):嚴重的自遮擋、極端的透視效果和較低的下半身像素密度。

有數(shù)個挑戰(zhàn)導致了這個問題的困難:

(1)由于魚眼透鏡和攝像頭靠近面部,會出現(xiàn)強烈的透視失真。這導致圖像具有強烈的徑向失真,并且上半身和下半身之間的圖像分辨率存在巨大差異,如圖2底部一行所示。因此,從正面或360度偏航視圖進行2D身體姿態(tài)估計的最先進方法在這類圖像上會失敗

(2) 在許多情況下,身體會發(fā)生自遮擋,尤其是在下半身,這需要對關節(jié)位置具有很強的空間意識;

(3) 自為中心三維身體姿態(tài)估計是計算機視覺中一個相對未探索的問題,因此公眾可訪問的標記數(shù)據(jù)集很少;

(4) 正如傳統(tǒng)的3D身體姿態(tài)估計所示,當在三維中l(wèi)ift二維關節(jié)位置時,存在自然模糊性。

這種不同尋常的自中心視覺表現(xiàn)需要一種全新的方法和全新的訓練語料庫,而本篇論文正是主要針對這兩個問題。他們提出的全新神經(jīng)網(wǎng)絡架構編碼了由不同分辨率、極端視角效應和自遮擋引起的上下身體關節(jié)之間的不確定性差異。

團隊使用真實的3D注釋對合成基準和真實世界基準進行了定量和定性評估,并表明所述方法的性能比以前的Mo2Cap2高出25%以上。消融研究表明,引入新型multi-branch解碼器來重建2D輸入熱圖和旋轉是3D姿態(tài)估計的顯著改進的原因。

架構

團隊提出了用于3D姿態(tài)估計的深度學習架構。這是一種由兩個主要模塊組成的兩步方法:i)第一個模塊檢測圖像空間中身體關節(jié)位置的2D熱圖;ii)第二個模塊將從前面模塊生成的2D熱圖預測作為輸入,并使用新穎的multi-branch自動編碼器架構回歸身體關節(jié)的3D坐標,并根據(jù)骨骼層次的局部關節(jié)旋轉和重建的熱圖預測。

f0aa9e3c-ff5e-11ed-90ce-dac502259ad0.jpg

這種管道方法最重要的優(yōu)點之一是,可以根據(jù)可用的訓練數(shù)據(jù)獨立訓練2D和3D模塊。例如,如果具有3D注釋的足夠大的圖像語料庫不可用,則可以使用3D mocap數(shù)據(jù)及其投影熱圖來獨立地訓練3D lifting模塊。一旦對這兩個模塊進行了預訓練,整個架構就可以端到端地進行微調,因為它完全可微分。

multi-branch自動編碼器模塊同時提供了具有姿勢的多個表示的能力,例如關節(jié)位置和局部旋轉等。所述架構的另一個優(yōu)點是,第二和第三branch只在訓練時需要,并且可以在測試時刪除,從而保證更好的性能和更快的執(zhí)行。

二維姿勢檢測

給定RGB圖像I∈R368×368×3作為輸入,2D姿勢檢測器推斷2D姿勢,表示為一組熱圖HM∈R47×47×15,每個身體關節(jié)一個。對于這項任務,團隊已經(jīng)試驗了不同的標準架構,包括ResNet 50和U-Net。

他們使用歸一化輸入圖像對模型進行訓練。其中,圖像是通過減去平均值并除以標準差獲得。然后,他們使用ground truth熱圖與預測熱圖之間差異的均方誤差作為損失:

f0b71d74-ff5e-11ed-90ce-dac502259ad0.png

二維到三維映射

3D姿態(tài)模塊將第一模塊計算的15個熱圖作為輸入,并輸出最終的3D姿態(tài)P∈R16×3作為一組關節(jié)位置。請注意,輸出3D關節(jié)的數(shù)量為16,因為包括頭部(盡管頭部在視場之外,但它可以在3D中回歸)。

團隊的方法從輸入熱圖預測3D姿勢,而不僅僅是2D位置。主要優(yōu)點是熱圖攜帶了與2D姿態(tài)估計的不確定性相關的重要信息。

所提出的架構的主要新穎性是,確保熱圖表示中表達的不確定性信息不會丟失,它在姿態(tài)嵌入中得到了保留。當編碼器將一組熱圖作為輸入并將其編碼到嵌入z

中時,解碼器有多個branch。首先從z

回歸3D姿勢;2nd估計局部關節(jié)旋轉(相對于父節(jié)點);以及3rd重構輸入熱圖。所述branch的目的是迫使latent向量對估計的2D熱圖的概率密度函數(shù)進行編碼。

自動編碼器的整體損失函數(shù)表示為:

f0c66e46-ff5e-11ed-90ce-dac502259ad0.png

研究人員測試了不同的局部聯(lián)合旋轉表示,而由于訓練過程中旋轉的穩(wěn)定性,他們最終選擇了四元數(shù)表示,從而產(chǎn)生更穩(wěn)健的模型。旋轉branch同時有助于生成更好的結果,在逐幀估計的姿勢上,連續(xù)幀上的過渡更平滑。

使用估計旋轉的角色動畫

由multi-branch自動編碼器架構生成的姿態(tài)嵌入估計包含姿態(tài)的相關基本信息,這使得能夠基于特定應用程序更改/添加表示。具體而言,旋轉branch的引入改善了整體重建誤差,如表2所示,并且它是可用于角色動畫的姿勢定義。

f0ce8996-ff5e-11ed-90ce-dac502259ad0.jpg

根據(jù)骨架層次,由旋轉branch估計的關節(jié)旋轉表示為每個關節(jié)相對于父節(jié)點的局部旋轉。與原始動畫相比,顯示受驅動角色的示例幀如圖6所示。請注意,即使對于Avatar的四肢落在攝像頭視場之外的姿勢,模型都能夠可靠地估計正確的旋轉。另外,盡管逐幀計算估計,但連續(xù)幀中的姿態(tài)之間存在時間一致性。

f0dc4b94-ff5e-11ed-90ce-dac502259ad0.jpg

f0e37068-ff5e-11ed-90ce-dac502259ad0.jpg

圖7則顯示了從輸入圖像估計的關節(jié)角度預測。具體來說,關節(jié)角度與ground truth一致。旋轉是平滑的,網(wǎng)絡在預測中引入了有限的“抖動”偽影。

熱圖估計:架構消融

到目前為止,團隊在所有實驗中都使用了已建立的ResNet 50架構。為了研究熱圖估計網(wǎng)絡的效果,他們對不同的架構和初始化策略進行了實驗。

結果表明,預訓練有幫助。與隨機初始化的54.7相比,使用預訓練的ResNet 50的完整管道將MPJPE誤差優(yōu)化至51.1 mm,見表4。

f0ec1b28-ff5e-11ed-90ce-dac502259ad0.jpg

盡管有研究表明,預訓練通常是不必要的,但團隊指出,預訓練確實可以在兩個方面有所幫助。首先,預訓練有助于加快收斂速度。其次,對于小型數(shù)據(jù)集,預訓練有助于提高準確性。盡管他們的合成數(shù)據(jù)集很大,但與MPII等大型真實世界數(shù)據(jù)集相比,它在場景和主題方面的可變性較小。

在下一步中,研究人員使用U-Net進行2D姿態(tài)估計實驗。使用U-Net架構可以提高管道的性能,并將MPJPE誤差顯著優(yōu)化至41.0mm。

基于Resnet 50的估計器在沒有事先細化的情況下失敗。他們假設,改進的性能和在真實圖像上觀察到的行為證明了U-Net更好的泛化特性。為了支持假設,團隊進行了一個額外的實驗。將高斯白噪點添加到合成數(shù)據(jù)集的測試圖像中,并使用不同的2D姿態(tài)估計網(wǎng)絡來測量管道的性能。

圖8繪制了不同噪點水平下的MPJPE誤差。值得注意的是,基于U-Net的管道的誤差增加緩慢,而基于Resnet 50的管道在小噪點水平下已經(jīng)產(chǎn)生了大的誤差。這種行為支持了假設,即U-Net架構具有更好的泛化特性。

f0f5f6b6-ff5e-11ed-90ce-dac502259ad0.jpg

liftIng網(wǎng)絡:參數(shù)消融

為了驗證multi-branch三維姿態(tài)lifting網(wǎng)絡的架構設計選擇,團隊對兩個主要參數(shù)進行了消融研究。

首先,找到嵌入z

的最佳大小,它對3D姿勢、關節(jié)旋轉和2D姿勢的不確定性進行編碼。表6列出了所有三種不同熱圖估計網(wǎng)絡使用不同尺寸的z

的MPJPE誤差。無論熱圖估計網(wǎng)絡的選擇如何,z^∈R50都能產(chǎn)生最好的結果。較小的嵌入會產(chǎn)生明顯更高的誤差,而較大的嵌入只會稍微影響結果。

f1001164-ff5e-11ed-90ce-dac502259ad0.jpg

自中心的真實數(shù)據(jù)集評估

f1069e08-ff5e-11ed-90ce-dac502259ad0.jpg

與Mo2Cap2的比較。團隊將方法的結果與直接競爭對手Mo2Cap2進行了比較,包括室內和室外序列。為了進行公平的比較,僅根據(jù)他們提供的合成訓練數(shù)據(jù)來訓練模型。表8報告了兩種方法的MPJPE錯誤。

f10b5b64-ff5e-11ed-90ce-dac502259ad0.jpg

可以看出,團隊的方法在室內和室外場景中都大大優(yōu)于Mo2Cap2。在這里,使用在ImageNet上預先訓練的U-Net模型的方法產(chǎn)生了最好的結果。但在室內,在更受控制的環(huán)境中,兩種架構變體幾乎不相上下。

團隊架構的一個重要優(yōu)勢是,模型可以同時在3D和2D數(shù)據(jù)集的混合上進行訓練:如果圖像樣本只有2D注釋,但沒有3D ground truth標簽,則樣本依然可以使用,只有熱圖會導致?lián)p失。

他們評估了在兩種場景中添加帶有2D但沒有3D標簽的額外圖像的效果:自中心和前置攝像頭。在自為中心的情況下,他們創(chuàng)建了xR-EgoPose測試集的兩個子集。第一個子集包含具有3D和2D標簽的所有可用圖像樣本的50%。

f11490f8-ff5e-11ed-90ce-dac502259ad0.jpg

第二個包含100%的帶有2D標簽的圖像樣本,但只有50%的3D標簽。實際上,第二子集包含的圖像數(shù)量是僅具有2D注釋的圖像數(shù)量的兩倍。表10a比較了子集之間的結果??梢钥闯觯罱K的3D姿態(tài)估計受益于額外的2D注釋。在Human3.6M數(shù)據(jù)集上可以看到等效的行為。表10b顯示了當使用來自COCO和MPII的附加2D注釋時重建誤差的改善。

總的來說,團隊提出了一種從安裝在頭顯的單眼攝像頭估計3D身體姿勢的解決方案。給定單個圖像,所述方法完全可微網(wǎng)絡估計熱圖,并使用它們作為中間表示,使用新的multi-branch自動編碼器回歸3D姿態(tài)。

這種新的架構設計是在具有挑戰(zhàn)性的數(shù)據(jù)集中進行精確重建的基礎。與競爭對手的數(shù)據(jù)集相比,準確率提高了24%以上,實驗證明可以推廣到更通用的3D人體姿態(tài)估計,即具有最先進性能的前置攝像頭任務。

最后,他們介紹了xR-EgoPose數(shù)據(jù)集,這是一個新的大規(guī)模照片逼真的合成數(shù)據(jù)集,對訓練至關重要。團隊表示,增加額外的攝像頭以覆蓋更多的視場,并實現(xiàn)多視圖傳感是未來研究的重點。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 攝像頭
    +關注

    關注

    59

    文章

    4836

    瀏覽量

    95599
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48807
  • 數(shù)據(jù)集

    關注

    4

    文章

    1208

    瀏覽量

    24689

原文標題:Meta研究:基于頭顯攝像頭進行姿態(tài)估計的方法和優(yōu)缺點

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    監(jiān)控攝像頭的選型方法

    ;   6)另外,選好了監(jiān)控攝像頭,安裝更時謹慎。嚴格按照產(chǎn)品說明書進行正確操作,如工作溫度、電源電壓等。絕大多數(shù)監(jiān)控攝像頭生產(chǎn)廠家的溫度指標是-10~+50℃,如
    發(fā)表于 02-05 16:23

    攝像頭常見故障

    ,它不能支持 USB 接口,就必須把它更新到 Win 98 。在 BIOS SETUP 中必須讓 USB 裝置有效。若這些方法無效,可嘗試聯(lián)接 USB 攝像頭至第二個 USB 接口。當然,也可能是裝錯
    發(fā)表于 03-16 09:51

    攝像頭的,問問

    最近做個題目,要用到攝像頭尋找物體,或者用光電傳感器;但光電傳感器白天估計比較難識別,攝像頭以前也沒用過。單片機是MSP430.請高手們給點建議。。。多謝了
    發(fā)表于 11-13 10:11

    LabVIEW獲取網(wǎng)絡攝像頭方法

    可以參考上述方法;如果攝像頭的數(shù)據(jù)流是RTSP,可以參考如下程序,比如小米攝像頭就是采用的RTSP,不過由于小米固件更新,所以需要刷機,詳情參考如下鏈接:[url=]http
    發(fā)表于 04-14 23:36

    如何利用攝像頭將處于攝像頭正下方的物體進行拍照

    有一個難題,攝像頭處于視頻模式,當物體進入到攝像頭的視野內后,再進行圖片的保存;物體緩慢的進入過程中,不保存。在以上方法中,不能采用紅外等傳感器,如何利用圖像處理的
    發(fā)表于 06-13 11:19

    GPS信號受攝像頭干擾問題怎么解決?

    和電阻進行數(shù)值上的更換,未得到改善。初步考慮:1、可能是電路板上攝像頭的時鐘線輻射出來的干擾,與攝像頭器件無關;求助:1、怎么解決時鐘線輻射干擾?有什么好的方法?2、還有什么其他未考慮
    發(fā)表于 11-27 22:09

    回收蘋果攝像頭 收購蘋果攝像頭

    回收蘋果攝像頭 收購蘋果攝像頭回收蘋果攝像頭,大量收購蘋果攝像頭!?。?帝歐電子 趙先生 TEL:135-3012-2202 QQ:879821252 帝歐電子專業(yè)電子收購,現(xiàn)急購
    發(fā)表于 12-29 18:14

    回收攝像頭ic 收購攝像頭ic

    回收攝像頭ic 收購攝像頭ic 攝像頭ic實力回收 ||優(yōu)勢高價回收攝像頭ic @@@ 趙先生 135-3012-2202同步微信 QQ:8798-21252)帝歐電子 實力回收 工廠
    發(fā)表于 01-08 17:26

    回收手機攝像頭 收購手機攝像頭

    `回收手機攝像頭,大量收購手機攝像頭!??! 帝歐電子 趙先生 TEL:135-3012-2202 QQ:879821252 帝歐電子專業(yè)電子收購,現(xiàn)急購攝像頭,大量回收攝像頭!手機
    發(fā)表于 07-05 11:01

    回收手機攝像頭,收購攝像頭芯片

    `帝歐電子趙生135-3012-2202,QQ:8798-21252長期高價回收手機攝像頭,回收攝像頭芯片。 攝像頭廣泛運用于我們的生活之中,大街上隨處可見的安防監(jiān)控,人手至少一臺的手機平板,汽車
    發(fā)表于 07-14 17:53

    不使用攝像頭怎么檢測人的姿態(tài)或者手勢?

    不使用攝像頭怎么檢測人的姿態(tài)或者手勢 距離大概1米到2米之間
    發(fā)表于 11-06 07:00

    微軟將立體攝像頭集成至VR系統(tǒng)中以開發(fā)AR

    微軟在2016年開始將立體攝像頭集成至VR系統(tǒng)中以開發(fā)AR,允許用戶能夠通過攝像頭的饋送看到現(xiàn)實世界。通過視頻合成可以創(chuàng)建低成本的AR系統(tǒng)。
    發(fā)表于 11-06 10:42 ?757次閱讀

    前置升降式攝像頭是好還是壞,它有哪些優(yōu)缺點

    隨著手機全面屏的發(fā)展,前置升降式攝像頭也逐漸成為了全面屏流派中的一員,那么這樣的前置升降式攝像頭都有哪些優(yōu)缺點呢?
    的頭像 發(fā)表于 03-09 17:06 ?1.8w次閱讀

    車載攝像頭總線(C2B)—經(jīng)濟高效的攝像頭連接

    汽車攝像頭連接的增加伴隨著應用成本的大幅增加,但支持汽車實現(xiàn)新的安全和舒適性功能。據(jù)最新的市場研究估計,隨著市場響應消費者需求并遵循監(jiān)管要求,到2024年,每輛汽車平均會配備4個攝像頭
    的頭像 發(fā)表于 06-13 14:33 ?1796次閱讀
    車載<b class='flag-5'>攝像頭</b>總線(C2B)—經(jīng)濟高效的<b class='flag-5'>攝像頭</b>連接

    激光雷達、單目攝像頭、雙目攝像頭原理和優(yōu)缺點

    激光雷達、單目攝像頭、雙目攝像頭原理和優(yōu)缺點 激光雷達是目前定位選擇的主流傳感器,帶自主導航的室內掃地機的商用產(chǎn)品,一般都會配備激光雷達。在自動駕駛領域,高精地圖的采集及定位應用, 使用的是多線激光雷達方案。 二維碼方案,機器人
    的頭像 發(fā)表于 03-26 15:58 ?1.5w次閱讀
    激光雷達、單目<b class='flag-5'>攝像頭</b>、雙目<b class='flag-5'>攝像頭</b>原理和<b class='flag-5'>優(yōu)缺點</b>
    RM新时代网站-首页