今天介紹一下深度圖像的獲取方法主要有哪些,以及這些方法會(huì)導(dǎo)致深度圖像中存在什么樣的問題。
在計(jì)算機(jī)視覺系統(tǒng)中,三維場(chǎng)景信息為圖像分割、目標(biāo)檢測(cè)、物體跟蹤等各類計(jì)算機(jī)視覺應(yīng)用提供了更多的可能性,而深度圖像(Depth map)作為一種普遍的三維場(chǎng)景信息表達(dá)方式得到了廣泛的應(yīng)用。深度圖像的每個(gè)像素點(diǎn)的灰度值可用于表征場(chǎng)景中某一點(diǎn)距離攝像機(jī)的遠(yuǎn)近。
獲取深度圖像的方法可以分為兩類:被動(dòng)測(cè)距傳感和主動(dòng)深度傳感。
In short:深度圖像的像素值反映場(chǎng)景中物體到相機(jī)的距離,獲取深度圖像的方法=被動(dòng)測(cè)距傳感+主動(dòng)深度傳感。
被動(dòng)測(cè)距傳感
被動(dòng)測(cè)距傳感中最常用的方法是雙目立體視覺[1,2],該方法通過兩個(gè)相隔一定距離的攝像機(jī)同時(shí)獲取同一場(chǎng)景的兩幅圖像,通過立體匹配算法找到兩幅圖像中對(duì)應(yīng)的像素點(diǎn),隨后根據(jù)三角原理計(jì)算出時(shí)差信息,而視差信息通過轉(zhuǎn)換可用于表征場(chǎng)景中物體的深度信息?;诹Ⅲw匹配算法,還可通過拍攝同一場(chǎng)景下不同角度的一組圖像來獲得該場(chǎng)景的深度圖像。除此之外,場(chǎng)景深度信息還可以通過對(duì)圖像的光度特征[3]、明暗特征[4]等特征進(jìn)行分析間接估算得到。
上圖展示了Middlebury Stereo Dataset中Tsukuba場(chǎng)景的彩色圖像、視差實(shí)際值與用Graph cuts算法得到的立體匹配誤差估計(jì)結(jié)果,該視差圖像可以用于表征場(chǎng)景中物體的三維信息。
可以看到,通過立體匹配算法得到的視差圖雖然可以得到場(chǎng)景的大致三維信息,但是部分像素點(diǎn)的時(shí)差存在較大誤差。雙目立體視覺獲得視差圖像的方法受限于基線長(zhǎng)度以及左右圖像間像素點(diǎn)的匹配精確度,其所獲得的視差圖像的范圍與精度存在一定的限制。
In short, 常用于深度圖像增強(qiáng)領(lǐng)域的測(cè)試數(shù)據(jù)集Middlebury Stereo Dataset屬于被動(dòng)測(cè)距傳感;被動(dòng)測(cè)距傳感=兩個(gè)相隔一定距離的相機(jī)獲得兩幅圖像+立體匹配+三角原理計(jì)算視差(disparity)
主動(dòng)測(cè)距傳感
主動(dòng)測(cè)距傳感相比較于被動(dòng)測(cè)距傳感最明顯的特征是:設(shè)備本身需要發(fā)射能量來完成深度信息的采集。這也就保證了深度圖像的獲取獨(dú)立于彩色圖像的獲取。近年來,主動(dòng)深度傳感在市面上的應(yīng)用愈加豐富。主動(dòng)深度傳感的方法主要包括了TOF(Time of Flight)、結(jié)構(gòu)光、激光掃描等。
TOF相機(jī)
TOF相機(jī)獲取深度圖像的原理是:通過對(duì)目標(biāo)場(chǎng)景發(fā)射連續(xù)的近紅外脈沖,然后用傳感器接收由物體反射回的光脈沖。通過比較發(fā)射光脈沖與經(jīng)過物體反射的光脈沖的相位差,可以推算得到光脈沖之間的傳輸延遲進(jìn)而得到物體相對(duì)于發(fā)射器的距離,最終得到一幅深度圖像。
TOF相機(jī)所獲得的深度圖像有以下的缺陷: 1. 深度圖像的分辨率遠(yuǎn)不及彩色圖像的分辨率 2. 深度圖像的深度值受到顯著的噪聲干擾 3. 深度圖像在物體的邊緣處的深度值易出現(xiàn)誤差,而這通常是由于一個(gè)像素點(diǎn)所對(duì)應(yīng)的場(chǎng)景涵蓋了不同的物體表面所引起的。 除此之外,TOF相機(jī)的通常價(jià)格不菲。
結(jié)構(gòu)光與Kinect
結(jié)構(gòu)光是具有特定模式的光,其具有例如點(diǎn)、線、面等模式圖案。
基于結(jié)構(gòu)光的深度圖像獲取原理是:將結(jié)構(gòu)光投射至場(chǎng)景,并由圖像傳感器捕獲相應(yīng)的帶有結(jié)構(gòu)光的圖案。
由于結(jié)構(gòu)光的模式圖案會(huì)因?yàn)槲矬w的形狀發(fā)生變形,因此通過模式圖像在捕捉得到的圖像中的位置以及形變程度利用三角原理計(jì)算即可得到場(chǎng)景中各點(diǎn)的深度信息。
結(jié)構(gòu)光測(cè)量技術(shù)提供了高精度并且快速的三維信息,其在汽車、游戲、醫(yī)療等領(lǐng)域均已經(jīng)得到了廣泛的應(yīng)用。
基于結(jié)構(gòu)光的思想,微軟公司推出了一款低價(jià)優(yōu)質(zhì)的結(jié)合彩色圖像與深度圖像的體感設(shè)備Kinect,該設(shè)備被應(yīng)用于如人機(jī)交互(Xbox系列游戲機(jī))、三維場(chǎng)景重建、機(jī)器視覺等諸多領(lǐng)域。 微軟公司的Kinect有三個(gè)鏡頭,除了獲取RGB彩色圖像的攝像機(jī)之外,左右兩邊的鏡頭分別是紅外線發(fā)射器和紅外線CMOS攝像機(jī),這兩個(gè)鏡頭共同構(gòu)成了Kinect的深度傳感裝置,其投影和接收區(qū)域相互重疊,如下圖所示。
Kinect采用了一種名為光編碼(Light Coding)的技術(shù),不同于傳統(tǒng)的結(jié)構(gòu)光方法投射一幅二維模式圖案的方法,Kinect的光編碼的紅外線發(fā)射機(jī)發(fā)射的是一個(gè)具有三維縱深的“立體編碼”。光編碼的光源被稱為激光散斑,其形成原理是激光照射到粗糙物體或穿透毛玻璃后得到了隨機(jī)的衍射斑點(diǎn)。激光散斑具有高度的三維空間隨機(jī)性。當(dāng)完成一次光源標(biāo)定后,整個(gè)空間的散斑圖案都被記錄,因此,當(dāng)物體放進(jìn)該空間后,只需得知物體表面的散斑圖案,就可以知道該物體所處的位置,進(jìn)而獲取該場(chǎng)景的深度圖像。紅外攝像機(jī)捕獲的紅外散斑圖像如下圖所示,其中左側(cè)的圖片展現(xiàn)了右側(cè)圖片中框中的細(xì)節(jié)。
Kinect低廉的價(jià)格與實(shí)時(shí)高分辨率的深度圖像捕捉特性使得其在消費(fèi)電子領(lǐng)域得到了迅猛發(fā)展,然而Kinect的有效測(cè)距范圍僅為800毫米到4000毫米,對(duì)處在測(cè)距范圍之外的物體,Kinect并不能保證準(zhǔn)確深度值的獲取。Kinect捕獲的深度圖像存在深度缺失的區(qū)域,其體現(xiàn)為深度值為零,該區(qū)域意味著Kinect無法獲得該區(qū)域的深度值。而除此之外,其深度圖像還存在著深度圖像邊緣與彩色圖像邊緣不對(duì)應(yīng)、深度噪聲等問題。Kinect所捕獲的彩色圖像與深度圖像如下圖所示。
Kinect所捕獲的深度圖像產(chǎn)生深度缺失區(qū)域的原因多種多樣。除了受限于測(cè)距范圍,一個(gè)重要的原因是目標(biāo)空間中的一個(gè)物體遮擋了其背后區(qū)域。這種情況導(dǎo)致了紅外發(fā)射器所投射的圖案無法照射到背后區(qū)域上,而背后區(qū)域卻有可能被處在另一個(gè)視角的紅外攝像機(jī)捕捉到,然而該區(qū)域并不存在散斑圖案,該區(qū)域的深度信息也就無法被獲得?!綩ops,原來遮擋是這樣導(dǎo)致了深度值缺失,作者果然厲害,兩句話讓人茅塞頓開!】物體表面的材質(zhì)同樣會(huì)影響Kinect深度圖像的獲取。當(dāng)材質(zhì)為光滑的平面時(shí),紅外投射散斑光束在物體表面產(chǎn)生鏡面反射,紅外攝像機(jī)無法捕捉該物體反射的紅外光,因此也就無法捕獲到該表面的深度;當(dāng)材質(zhì)為吸光材料時(shí),紅外投射散斑被該表面所吸收而不存在反射光,紅外攝像機(jī)同樣無法捕捉到該表面的深度信息?!静馁|(zhì)對(duì)深度缺失的影響,分析到位】除此之外,Kinect所捕獲的深度圖像存在的與彩色圖像邊緣不一致的問題主要是由彩色攝像機(jī)與紅外攝像機(jī)的光學(xué)畸變引起的。
激光雷達(dá)
激光雷達(dá)測(cè)距技術(shù)通過激光掃描的方式得到場(chǎng)景的三維信息。其基本原理是按照一定時(shí)間間隔向空間發(fā)射激光,并記錄各個(gè)掃描點(diǎn)的信號(hào)從激光雷達(dá)到被測(cè)場(chǎng)景中的物體,隨后又經(jīng)過物體反射回到激光雷達(dá)的相隔時(shí)間,據(jù)此推算出物體表面與激光雷達(dá)之間的距離。
激光雷達(dá)由于其測(cè)距范圍廣、測(cè)量精度高的特性被廣泛地用于室外三維空間感知的人工智能系統(tǒng)中,例如自主車的避障導(dǎo)航、三維場(chǎng)景重建等應(yīng)用中。下圖展示的是激光雷達(dá)Velodyne HDL-64E在自主車中的應(yīng)用,該激光雷達(dá)能夠獲取360°水平方向上的全景三維信息,其每秒能夠輸出超過130萬個(gè)掃描點(diǎn)的數(shù)據(jù)。全向激光雷達(dá)曾在美國(guó)舉辦的DARPA挑戰(zhàn)賽中被許多隊(duì)伍所采用,其也成為了自主行駛車輛的標(biāo)準(zhǔn)配置。
然而,激光雷達(dá)所捕獲的三維信息體現(xiàn)在彩色圖像坐標(biāo)系下是不均勻并且稀疏的。由于單位周期內(nèi),激光掃描的點(diǎn)數(shù)是有限的,當(dāng)把激光雷達(dá)捕獲的三維點(diǎn)投射到彩色圖像坐標(biāo)系下得到深度圖像時(shí),其深度圖像的深度值以離散的點(diǎn)的形式呈現(xiàn),深度圖像中許多區(qū)域的深度值是未知的。這也就意味著彩色圖像中的某些像素點(diǎn)并沒有對(duì)應(yīng)的深度信息。
總結(jié) 用一個(gè)圖來總結(jié)下內(nèi)容吧。
責(zé)任編輯:彭菁
-
相機(jī)
+關(guān)注
關(guān)注
4文章
1350瀏覽量
53581 -
三維場(chǎng)景
+關(guān)注
關(guān)注
0文章
4瀏覽量
1956 -
深度圖像
+關(guān)注
關(guān)注
0文章
19瀏覽量
3506
原文標(biāo)題:深度圖像的獲取原理
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論