作者:王旭, 劉瓊, 彭宗舉, 侯軍輝, 元輝, 趙鐵松, 秦熠, 吳科君, 劉文予, 楊鈾
00??引言
6自由度(six degrees of freedom,6DoF)視頻具體表現(xiàn)為在觀看視頻過(guò)程中,用戶站在原地時(shí)頭部與視頻內(nèi)容之間的3個(gè)自由度的交互和用戶位姿發(fā)生移動(dòng)時(shí)與內(nèi)容之間的另外3個(gè)自由度的交互(Boyce等,2021)。
6DoF視頻有多視點(diǎn)視頻、多視點(diǎn)+深度視頻、光場(chǎng)視頻、焦棧圖像和點(diǎn)云序列等多種數(shù)據(jù)表示方式(Wien等,2019)。用戶可以通過(guò)體感、視線、手勢(shì)、觸控和按鍵等交互方式來(lái)選取任意方向和位置的觀看視角。視頻系統(tǒng)在獲得用戶交互參數(shù)后,通過(guò)虛擬視點(diǎn)繪制技術(shù)完成視角平滑切換,在沉浸式體驗(yàn)上更加出色。6DoF視頻體現(xiàn)了用戶與視頻內(nèi)容的高度交互性,全面打破了人們被動(dòng)接受視頻內(nèi)容的傳統(tǒng)模式,能夠?qū)崿F(xiàn)千人千面的視覺(jué)體驗(yàn),是當(dāng)前多媒體通信、計(jì)算機(jī)視覺(jué)、人機(jī)交互和計(jì)算顯示等多個(gè)學(xué)科領(lǐng)域的交叉與前沿。
一方面,6DoF視頻通過(guò)計(jì)算重構(gòu)的方式向用戶提供包括視角、光照、焦距和視場(chǎng)范圍等多個(gè)視聽維度的交互與變化,使千里之外的用戶有身臨其境之感,這與元宇宙所具有的感知、計(jì)算、重構(gòu)、協(xié)同和交互等技術(shù)特征高度重合。因此,6DoF視頻所涵蓋的技術(shù)體系可用做實(shí)現(xiàn)元宇宙的替代技術(shù)框架。另一方面,6DoF視頻從采集、處理、編碼、傳輸、顯示、交互和計(jì)算等方面改變了數(shù)字媒體端到端全鏈條的生產(chǎn)制作模式,給內(nèi)容提供商、運(yùn)營(yíng)商、設(shè)備商和用戶帶來(lái)巨大的改變,因此也受到國(guó)防訓(xùn)練、數(shù)字媒體和數(shù)字教育的高度關(guān)注。
本文將圍繞6DoF視頻內(nèi)容的生產(chǎn)、分發(fā)與呈現(xiàn)中存在的關(guān)鍵問(wèn)題(如圖1所示),從內(nèi)容采集與預(yù)處理、編碼壓縮與傳輸優(yōu)化以及交互與呈現(xiàn)等方面闡述國(guó)內(nèi)外研究進(jìn)展,并圍繞該領(lǐng)域當(dāng)下挑戰(zhàn)及未來(lái)趨勢(shì)開展討論。
圖1??6DoF視頻系統(tǒng)中的關(guān)鍵問(wèn)題
01??6DoF內(nèi)容采集與預(yù)處理
6DoF視頻以3維場(chǎng)景為觀察對(duì)象,以3維時(shí)空分布的點(diǎn)云、圖像等為數(shù)據(jù)表達(dá),可用模型
刻畫,包含空間、角度、光譜和時(shí)間等。如何獲取3維場(chǎng)景的視覺(jué)信息是6DoF視頻采集與生成需要實(shí)現(xiàn)的任務(wù)與目標(biāo)。相機(jī)一直以來(lái)作為獲取視覺(jué)信息的主要工具,將分布在3維時(shí)空中的光降維到2維時(shí)空上形成圖像或視頻?;谙鄼C(jī)的視覺(jué)獲取無(wú)法得到深度,因此如何通過(guò)相機(jī)來(lái)實(shí)現(xiàn)3維場(chǎng)景的視覺(jué)信息獲取,長(zhǎng)期以來(lái)是一個(gè)挑戰(zhàn)性的難題。從技術(shù)演進(jìn)的角度,3維場(chǎng)景的視覺(jué)信息獲取可分為多視點(diǎn)聯(lián)合采集、多視點(diǎn)與深度聯(lián)合采集這兩個(gè)方向和階段。
1.1 多視點(diǎn)聯(lián)合采集
雖然單相機(jī)的視覺(jué)獲取只能得到平面圖像,但是仿照人眼的雙目視覺(jué)系統(tǒng),只要能夠利用2個(gè)及以上的相機(jī)進(jìn)行多視點(diǎn)同步采集,就能夠在得到的多視點(diǎn)圖像基礎(chǔ)上進(jìn)行立體匹配,從而得到深度的信息(Marr和Poggio,1976)。為此,科研人員以6DoF視頻為目標(biāo),研制出了不同類型的多視點(diǎn)視頻采集系統(tǒng)。如圖2所示,以影視內(nèi)容制作為目標(biāo),工程技術(shù)人員于1999年首次搭建了由上百臺(tái)相機(jī)共同構(gòu)成的多視點(diǎn)聯(lián)合采集系統(tǒng)。該系統(tǒng)在幾何排布上具有線性環(huán)繞的特點(diǎn),并形成了著名的“子彈時(shí)間”影視效果(Stankiewicz等,2018)。觀眾可通過(guò)這種方式在屏幕上直接得到立體的觀感。通過(guò)該多視點(diǎn)聯(lián)合采集系統(tǒng)所形成的交互式媒體內(nèi)容具有非常震撼的視覺(jué)效果,但同時(shí)也有明顯的缺陷,如不能拍動(dòng)態(tài)的視頻、幾何排布復(fù)雜不利于后期視覺(jué)計(jì)算以及成本高昂難以商業(yè)推廣等。因此,降低相機(jī)數(shù)量,簡(jiǎn)化幾何排布方式,研發(fā)多相機(jī)標(biāo)定方法成為多視點(diǎn)聯(lián)合采集面臨的關(guān)鍵需求。
為了解決上述問(wèn)題,研究者提出了幾種典型的幾何排布模式,如圖3所示。圖3(a)所示的平行模式以直線分布、光軸平行的方式進(jìn)行排布,視點(diǎn)之間的圖像原則上不存在垂直偏移,在交互過(guò)程中體現(xiàn)為水平移動(dòng)。稀疏的(間距20 cm及以上)平行模式是MPEG(motion picture expert group)中典型的多視點(diǎn)視頻數(shù)據(jù)表達(dá)形式(Merkle等,2007),而稠密的平行模式則可較為方便地構(gòu)成光線空間(ray space)(Tanimoto,2012),從而實(shí)現(xiàn)平移之外的縱向交互。圖3(b)所示的發(fā)散模式是所有相機(jī)的光軸后延線共圓心,從形式上不局限于水平共心,也可以是球面發(fā)散的共心方式。這種模式可較方便地形成全景視頻用于3自由度交互,并在許多商業(yè)應(yīng)用中取得了成功。圖3(c)所示的匯聚模式在排布模式上是平行模式的簡(jiǎn)單變化,在直線分布的基礎(chǔ)上將光軸匯聚到一個(gè)點(diǎn)上,視點(diǎn)之間的圖像原則上不存在垂直偏移,在交互過(guò)程中體現(xiàn)為具有弧度的水平移動(dòng)。然而,在實(shí)際操作中匯聚模式有許多問(wèn)題,如匯聚點(diǎn)的確定、相機(jī)間的幾何標(biāo)定問(wèn)題等,導(dǎo)致大部分的匯聚模式最后退化到圖2的模式,即交互只在真實(shí)相機(jī)之間做切換,較少通過(guò)視覺(jué)計(jì)算的方式去繪制虛擬視點(diǎn)。
圖3(d)所示的圍繞模式不局限于平面,也可以進(jìn)一步拓展成半球體、圓球體的布置形式。與匯聚模式類似,同樣面臨著匯聚點(diǎn)確定、相機(jī)間幾何標(biāo)定的難題,而且難度更大,因?yàn)槊恳粋€(gè)相機(jī)一定會(huì)有另外一個(gè)相機(jī)與之完全相對(duì),無(wú)法通過(guò)構(gòu)建兩個(gè)視點(diǎn)之間公共特征點(diǎn)的匹配關(guān)系以完成幾何標(biāo)定所需的有關(guān)參數(shù)。華中科技大學(xué)團(tuán)隊(duì)突破了這一限制,通過(guò)視點(diǎn)傳遞的方式克服了環(huán)繞相機(jī)陣列(Abedi等,2018)以及球面相機(jī)陣列(An等,2020)的幾何標(biāo)定問(wèn)題,為后續(xù)720°交互奠定了基礎(chǔ)。圖3(e)所示的平面模式在幾何分布上是平行模式的簡(jiǎn)單擴(kuò)充,但是在實(shí)際應(yīng)用中產(chǎn)生了許多變型,并逐步演化成光場(chǎng)采集系統(tǒng),催生了許多交互式媒體之外的新型應(yīng)用(Levoy和Hanrahan,1996)和億像素采集系統(tǒng)(Brady等,2012)。
圖3??幾種典型的多視點(diǎn)視頻采集系統(tǒng)的幾何排布方式
1.2 多視點(diǎn)與深度聯(lián)合采集
典型的多視點(diǎn)聯(lián)合采集需通過(guò)后期計(jì)算的方式得到深度,如果能夠直接得到深度信息,則可以大幅提升采集效率。然而,直接獲得場(chǎng)景的深度信息并不是一件容易的事情,進(jìn)而在獲取深度信息的基礎(chǔ)之上是否能夠多視點(diǎn)獲取,又是另外一個(gè)難題。 直接獲取場(chǎng)景深度信息的方式大體分為被動(dòng)式和主動(dòng)式兩個(gè)技術(shù)方向。被動(dòng)式探測(cè)以雙目立體匹配為代表(Zhang,2012)。主動(dòng)式探測(cè)方法以結(jié)構(gòu)光技術(shù)為代表,并根據(jù)光源的不同又分為點(diǎn)掃描(Franca等,2005)、線掃描(Scharstein和Szeliski,2002)和面結(jié)構(gòu)光(Van der Jeught和Dirckx,2016)。點(diǎn)掃描和面掃描中激光器發(fā)出點(diǎn)狀或條狀光束,進(jìn)而通過(guò)旋轉(zhuǎn)或平移,實(shí)現(xiàn)完整的3維測(cè)量。面結(jié)構(gòu)光方法投射2維編碼圖案,無(wú)需移動(dòng)投影設(shè)備即可重建目標(biāo)表面,具有更高的效率(蘇顯渝 等,2014)。此外,面結(jié)構(gòu)光中投影圖案通常與編碼技術(shù)進(jìn)行結(jié)合,提取塊級(jí)/像素級(jí)/亞像素級(jí)的碼字用于視差匹配,以獲得更高的精度和效率。面結(jié)構(gòu)光的編碼通常包括空域編碼、時(shí)域編碼和相位編碼,通過(guò)多個(gè)編碼對(duì)場(chǎng)景進(jìn)行多次掃描來(lái)獲得目標(biāo)場(chǎng)景的深度。上述模式都是通過(guò)掃描的方式才能得到場(chǎng)景的深度信息,因此不適宜動(dòng)態(tài)場(chǎng)景的深度獲取。
采用點(diǎn)—面結(jié)合技術(shù)的Kinect深度傳感器克服了這個(gè)難題(Lilienblum和Al-Hamadi,2015),雖然深度圖的質(zhì)量、圖像分辨率、時(shí)間分辨率和探測(cè)距離等基本參數(shù)還有很大的提升空間,但是該設(shè)備的出現(xiàn)首次將場(chǎng)景的深度感知從靜態(tài)提升至了動(dòng)態(tài),給產(chǎn)業(yè)界和學(xué)術(shù)界同時(shí)帶來(lái)一輪新的研究熱潮。后來(lái)出現(xiàn)了基于光調(diào)制的ToF(time of flight)技術(shù)及相關(guān)設(shè)備,包括ToF相機(jī)和激光雷達(dá)(laser radar,LiDAR)等,大幅度提升了探測(cè)距離,但是在深度圖質(zhì)量、圖像分辨率和時(shí)間分辨率等參數(shù)上也都與Kinect一樣面臨相同的問(wèn)題。 將多個(gè)深度傳感器與多個(gè)彩色相機(jī)相互配合對(duì)場(chǎng)景進(jìn)行視覺(jué)采集,則形成了多視點(diǎn)與深度聯(lián)合采集方案。在這些方案中,幾何排布上可以借鑒多視點(diǎn)聯(lián)合采集方案。多視點(diǎn)與深度聯(lián)合采集的關(guān)鍵難點(diǎn)在于多深度采集中所出現(xiàn)的視點(diǎn)間干擾、彩色視頻與深度視頻時(shí)間分辨率不匹配以及空間分辨率差距過(guò)大等問(wèn)題。多深度相機(jī)之間的干擾來(lái)自其成像原理本身,如不同視角的Kinect會(huì)使用相似甚至相同的點(diǎn)—面結(jié)構(gòu)光,不同視角的ToF相機(jī)對(duì)同一波長(zhǎng)的光進(jìn)行相同的調(diào)制,這些都會(huì)導(dǎo)致解碼失敗。為了解決這個(gè)問(wèn)題,華中科技大學(xué)團(tuán)隊(duì)從機(jī)理層面進(jìn)行了探索,針對(duì)多種原理的深度傳感器分別設(shè)計(jì)了包括M-序列等方法在內(nèi)的多深度相機(jī)聯(lián)合采集方案,較好地解決了上述難題(Yan等,2014;Li等,2015;Xiang等,2015)。此外,還進(jìn)一步針對(duì)深度視頻與彩色視頻時(shí)間分辨率不匹配的問(wèn)題,以及由此導(dǎo)致的深度圖運(yùn)動(dòng)模糊問(wèn)題,提出了時(shí)域上采樣法(Yang等,2012)和時(shí)域校正法(Yang等,2015c;?Gao等, 2015)等多種方法,為運(yùn)動(dòng)場(chǎng)景的立體感知提供了豐富的工具集。
1.3 深度圖與點(diǎn)云預(yù)處理
如前所述,動(dòng)態(tài)場(chǎng)景的深度圖或點(diǎn)云數(shù)據(jù)往往具有空間分辨率低、時(shí)間分辨率低、畫面噪聲多等問(wèn)題。為了保證下游任務(wù)的精度,需要進(jìn)行預(yù)處理。從處理技術(shù)上來(lái)分,主要包括深度圖預(yù)處理和點(diǎn)云數(shù)據(jù)預(yù)處理兩個(gè)類型。
1.3.1 深度圖預(yù)處理
深度信息不直接用于人眼觀測(cè),而是作為輔助信息幫助參考視點(diǎn)圖像映射到正確的虛擬視點(diǎn)上。深度圖像上的失真會(huì)傳播至虛擬視點(diǎn)圖像,造成主客觀質(zhì)量的下降。因此,在虛擬視點(diǎn)內(nèi)容生成前,需通過(guò)深度預(yù)處理技術(shù)盡可能獲得最接近場(chǎng)景實(shí)際距離的深度圖像。Ibrahim等人(2020a)較詳細(xì)地對(duì)深度圖預(yù)處理技術(shù)工作進(jìn)行了系統(tǒng)性的梳理??傮w而言,深度圖、點(diǎn)云的去噪與圖像去噪技術(shù)是同步發(fā)展的,但同時(shí)也有自身的一些特點(diǎn)。典型的圖像濾波器,如多邊濾波器(Choudhury和Tumblin,2005)、流型濾波器(Gastal和Oliveiray,2012)和非區(qū)域均值(Buades等,2005)等都可以直接作用于深度圖的去噪,但這些濾波器都只能解決以像素為單位的深度圖噪聲。一旦噪聲區(qū)域過(guò)大,如Kinect深度傳感器的噪聲多以成片區(qū)域深度值缺失為特點(diǎn),則傳統(tǒng)的濾波器都會(huì)失效(Xie等,2015)。
為了解決這個(gè)問(wèn)題,Kopf等人(2007)提出了聯(lián)合雙邊濾波方法。該方法是對(duì)雙邊濾波的改進(jìn),引入了參考圖像為指導(dǎo),能夠較好地處理大面積深度值缺失的難題,但同時(shí)也引入了彩色圖中的邊緣和紋理信息,給去噪后的深度圖帶來(lái)了偽紋理。Liu等人(2017)利用對(duì)齊彩色圖像特征來(lái)引導(dǎo)深度圖像修復(fù),通過(guò)彩色信息引導(dǎo)權(quán)重并結(jié)合雙邊插值方法來(lái)進(jìn)行深度圖空洞修復(fù)。Wang等人(2015)提出一種面向Kinect深度圖像恢復(fù)的三邊約束稀疏表示方法,在懲罰項(xiàng)上考慮了參考?jí)K與目標(biāo)塊間的強(qiáng)度相似度和空間距離的約束,在數(shù)據(jù)保真度項(xiàng)下考慮了目標(biāo)塊質(zhì)心像素的位置約束,通過(guò)對(duì)紋理圖像的特征學(xué)習(xí),預(yù)測(cè)出深度圖像空洞恢復(fù)的最優(yōu)解。為了有效克服偽紋理的問(wèn)題,Ibrahim等人(2020b)引入條件隨機(jī)場(chǎng)方法以抑制在彩色圖引導(dǎo)過(guò)程中的紋理干擾問(wèn)題。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人們也開始探索單一深度圖(張洪彬 等,2016)、彩色與深度圖聯(lián)合(Zhu等,2017)的濾波方案,總體上遵循了彩色圖濾波的基本架構(gòu),包括特征提取、圖像重建等模塊。基于深度學(xué)習(xí)框架的深度圖濾波雖然能夠取得較好的去噪效果,但是目前仍面臨物體邊緣濾波模糊的難題。 多視點(diǎn)聯(lián)合濾波也是一個(gè)值得關(guān)注的課題。如果將每一個(gè)視點(diǎn)的深度圖單獨(dú)處理,勢(shì)必會(huì)導(dǎo)致視點(diǎn)間深度不穩(wěn)定的問(wèn)題,為此需要將多個(gè)視點(diǎn)聯(lián)合在一起考慮。華中科技大學(xué)團(tuán)隊(duì)He等人(2020b)提出了跨視點(diǎn)跨模態(tài)的聯(lián)合濾波框架,建立了視點(diǎn)之間的映射模型與關(guān)聯(lián)方式,能夠較好地克服多種類型的噪聲在不同視點(diǎn)間的蔓延。針對(duì)平面相機(jī)陣列,Mieloch等人(2021)考慮到紋理信息的使用會(huì)在深度修正中引入誤差,僅用多個(gè)視點(diǎn)的深度信息對(duì)所選視點(diǎn)的信息進(jìn)行交叉驗(yàn)證,通過(guò)多次迭代,增強(qiáng)了多個(gè)深度圖像的視點(diǎn)間一致性,且可以自由設(shè)置需要修正的視點(diǎn)位置和數(shù)目。
1.3.2 點(diǎn)云預(yù)處理
深度相機(jī)和激光雷達(dá)傳感器產(chǎn)生的原始點(diǎn)云通常是稀疏、不均勻和充滿噪聲的,需要進(jìn)行去噪或補(bǔ)全?,F(xiàn)有的點(diǎn)云補(bǔ)全的方法大致分為基于幾何或?qū)R的方法和基于表示學(xué)習(xí)的方法兩類。 基于幾何或?qū)R的方法包括基于幾何的方法和基于對(duì)齊的方法?;趲缀蔚姆椒ㄍㄟ^(guò)先前的幾何假設(shè),直接從觀察到的形狀部分預(yù)測(cè)不可見的形狀部分(Hu等,2019)。更具體地,一些方法通過(guò)生成平滑插值來(lái)局部填充表面孔。例如拉普拉斯平滑(Nealen等,2006)和泊松表面重建(Kazhdan和Hoppe,2013),這些方法直接從觀察區(qū)域推斷缺失數(shù)據(jù)并顯示出令人印象深刻的結(jié)果,但是需要為特定類型的模型預(yù)定義幾何規(guī)則,并且僅適用于不完整程度較小的模型?;趯?duì)齊的方法在形狀數(shù)據(jù)庫(kù)中檢索與目標(biāo)對(duì)象相似的相同模型,然后將輸入與模型對(duì)齊,隨后對(duì)缺失區(qū)域進(jìn)行補(bǔ)全。
目標(biāo)對(duì)象包括整個(gè)模型(Pauly等,2005)或其中的一部分(Kim等,2013)。除此以外,還有一些方法使用變形后的合成模型(Rock等,2015)或非3D幾何圖元,例如平面(Yin等,2014)和二次曲面(Chauve等,2010)代替數(shù)據(jù)庫(kù)中的3D形狀。這些方法在3D模型的類型上具有較強(qiáng)的泛化性,但在推理優(yōu)化和數(shù)據(jù)庫(kù)構(gòu)建過(guò)程中成本高,且對(duì)噪聲敏感。 基于表示學(xué)習(xí)的方法是一種點(diǎn)云補(bǔ)全的方法。Dai等人(2017)提出了基于3D體素的編碼器—解碼器架構(gòu)3D-EPN(3D-encoder-predictor)。盡管基于3D體素化的表示學(xué)習(xí)方法可以直接擴(kuò)展使用定義在2D規(guī)則網(wǎng)格上的神經(jīng)層或算子,但精細(xì)對(duì)象的重建需要消耗大量顯存和算力。隨著基于點(diǎn)表示學(xué)習(xí)的PointNet(Qi等,2017a)和PointNet++(Qi等,2017b)等模型的出現(xiàn),人們提出了TopNet(Tchapmi等,2019)、PCN(point cloud net)(Yuan等,2018)和SA-Net(shuffle attention net)(Wen等,2020a)等基于點(diǎn)編碼器—解碼器框架的點(diǎn)云修復(fù)模型。該類模型首先通過(guò)編碼器從不完整的點(diǎn)云中提取全局特征,再利用解碼器根據(jù)提取的特征推斷完整的點(diǎn)云。
現(xiàn)有基于表示學(xué)習(xí)的點(diǎn)云補(bǔ)全任務(wù)的相關(guān)研究主要分為兩類。1)基于先進(jìn)的深度學(xué)習(xí)框架。為了提高點(diǎn)云生成的完整形狀的真實(shí)性和一致性,人們提出了基于對(duì)抗生成網(wǎng)絡(luò)的RL-GAN-Net(reinforcement learning generative adversarial network)(Sarmad等,2019)、基于變分自動(dòng)編碼器的VRCNet(variational relational point completion network)(Pan等,2021)和基于注意力機(jī)制的PoinTr(Yu等,2021)、SnowflakeNet(Xiang等,2021)、PCTMA-Net(point cloud transformer with morphing atlas-based point generation network)(Lin等,2021)、MSTr(Liu等,2022)等模型,這些模型能更好地挖掘3D形狀的全局和局部幾何結(jié)構(gòu),從而更有利于補(bǔ)全點(diǎn)云中的不完整部分。2)基于任務(wù)特性的算子。為了保留更多的精細(xì)特征信息,SoftPool++(Wang等,2022a)設(shè)計(jì)了softpool算子替代PointNet中的最大池化算子。Wu等人(2021)提出基于密度感知的倒角距離,以改善原有損失函數(shù)對(duì)點(diǎn)云局部密度不敏感或精細(xì)結(jié)構(gòu)保護(hù)不足等缺陷。 考慮實(shí)際應(yīng)用需求,漸進(jìn)式點(diǎn)云補(bǔ)全任務(wù)也開始得到關(guān)注,人們提出了CRN(cascaded refinement network)(Wang等,2022b)、PF-Net(point fractal network)(Huang等,2020b)、PMP-Net++(point cloud completion by transformer-enhanced multi-step point moving paths)(Wen等,2023)等模型,以實(shí)現(xiàn)3D點(diǎn)云的漸進(jìn)細(xì)化??傮w而言,基于學(xué)習(xí)的點(diǎn)云補(bǔ)全方法在性能提升上效果顯著,但在模型泛化上仍有很大的提升空間。如何結(jié)合幾何先驗(yàn)以提升模型的泛化性是一個(gè)潛在的研究方向。
02??6DoF視頻壓縮與傳輸
6DoF視頻有多視點(diǎn)視頻、多視點(diǎn)+深度視頻、光場(chǎng)圖像、焦棧圖像和點(diǎn)云序列等多種數(shù)據(jù)表示方式,本節(jié)根據(jù)各種數(shù)據(jù)表示方式的特點(diǎn),對(duì)6DoF視頻壓縮與傳輸?shù)难芯窟M(jìn)展展開介紹。
2.1 多視點(diǎn)視頻編碼
自從1988年CCITT(Consultative Committee International for Telegraph and Telephone)制定了視頻編碼標(biāo)準(zhǔn)H.261后,視頻編碼技術(shù)的應(yīng)用越來(lái)越廣泛,并涌現(xiàn)出大量的視頻編碼標(biāo)準(zhǔn),包括H.264/AVC(Wiegand等,2003)、H.265/HEVC(high efficiency video coding)(Ohm等,2012)和H.266/VVC(versatile video coding)(Bross等,2021)。最簡(jiǎn)單的多視點(diǎn)視頻編碼MVC(multi-view video coding)方案是獨(dú)立地對(duì)各個(gè)視點(diǎn)進(jìn)行編碼,但是這樣不能充分去除視點(diǎn)間冗余,于是產(chǎn)生了時(shí)域—視點(diǎn)域結(jié)合的編碼壓縮方案研究。 1)多視點(diǎn)視頻擴(kuò)展國(guó)際編碼標(biāo)準(zhǔn)。MPEG-2標(biāo)準(zhǔn)中已采用了多視點(diǎn)視頻配置來(lái)編碼立體或者多視點(diǎn)視頻信號(hào)。由于壓縮標(biāo)準(zhǔn)的局限性、顯示技術(shù)和硬件處理能力的限制,MPEG-2的多視點(diǎn)擴(kuò)展沒(méi)有得到實(shí)際應(yīng)用。2005年,MPEG組織在H.264/AVC的基礎(chǔ)上提出了MVC擴(kuò)展標(biāo)準(zhǔn)(Vetro等,2011),并形成了聯(lián)合多媒體模型(joint multiview model,JMVM)。該模型集成了視點(diǎn)間亮度補(bǔ)償、自適應(yīng)參考幀濾波、MotionSkip模式以及視點(diǎn)合成預(yù)測(cè)等基于宏塊的編碼工具。類似于H.264/AVC的MVC,JCT-3V在H.265/HEVC的基礎(chǔ)上提出了擴(kuò)展編碼標(biāo)準(zhǔn)MV-HEVC(multi-view HEVC)(Tech等,2016)。我國(guó)從1996年開始參加MPEG專家組的工作,不斷有提案被接受,在視頻壓縮的技術(shù)成果逐漸具備了國(guó)際競(jìng)爭(zhēng)力。2002年6月,我國(guó)成立了數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組AVS(audio-video standard),目標(biāo)是制定一個(gè)擁有自主知識(shí)產(chǎn)權(quán)的音視頻編碼標(biāo)準(zhǔn)。至今,其版本已經(jīng)發(fā)展到AVS3?;趪?guó)際編碼標(biāo)準(zhǔn),國(guó)內(nèi)學(xué)者在MVC快速算法、率失真控制和基于深度學(xué)習(xí)的多視點(diǎn)編碼等方面進(jìn)行了深入研究,取得了極大的進(jìn)展。 除了高效的壓縮編碼標(biāo)準(zhǔn)之外,精心設(shè)計(jì)的預(yù)測(cè)編碼結(jié)構(gòu)能充分利用多視點(diǎn)視頻信號(hào)中的時(shí)空相關(guān)性和視點(diǎn)間的相關(guān)性。目前,MVC中廣泛采用的分層B幀編碼結(jié)構(gòu)(hierarchical B pictures,HBP)結(jié)合運(yùn)動(dòng)估計(jì)和視差估計(jì),獲得了較高的壓縮效率和優(yōu)秀的率失真性能。
2)面向編碼的多視點(diǎn)視頻預(yù)處理。
利用多視點(diǎn)視頻擴(kuò)展編碼標(biāo)準(zhǔn)壓縮多視點(diǎn)視頻信號(hào)時(shí),能在編碼標(biāo)準(zhǔn)框架下同時(shí)消除時(shí)空冗余和視點(diǎn)間冗余。然而,多視點(diǎn)視頻信號(hào)往往存在幾何偏差和顏色偏差,影響了編碼壓縮效率。因此,多視點(diǎn)視頻信號(hào)的預(yù)處理也能提升壓縮性能。Doutre和Nasiopoulos(2009)對(duì)多視點(diǎn)視頻信號(hào)進(jìn)行顏色校正,提升了視點(diǎn)之間顏色一致性和MVC的視點(diǎn)間預(yù)測(cè)性能。Fezza等人(2014)提出了基于視點(diǎn)間對(duì)應(yīng)區(qū)域直方圖匹配方法的多視點(diǎn)顏色校正算法,以提升壓縮性能。福州大學(xué)團(tuán)隊(duì)Niu等人(2020)針對(duì)多視點(diǎn)視頻信號(hào)中存在的全局、局部和時(shí)間顏色差異,提出了由粗到細(xì)的多階段顏色校正算法。
3)多視點(diǎn)視頻快速編碼。
由于各種編碼標(biāo)準(zhǔn)集成了多種復(fù)雜技術(shù),且多視點(diǎn)視頻巨大的數(shù)據(jù)量也會(huì)帶來(lái)巨大的時(shí)間開銷。因此,多視點(diǎn)彩色視頻編碼的計(jì)算復(fù)雜度問(wèn)題長(zhǎng)期以來(lái)都是難題。針對(duì)各種編碼標(biāo)準(zhǔn)和多視點(diǎn)擴(kuò)展編碼標(biāo)準(zhǔn),學(xué)者們廣泛地開展了快速編碼算法研究。典型的手段包括減少搜索點(diǎn)數(shù)(Cernigliaro等,2009)、利用MVC的編碼模式的時(shí)空相關(guān)性和視點(diǎn)相關(guān)性減少當(dāng)前編碼宏塊的搜索數(shù)量(Zeng等,2011)以及基于像素級(jí)與圖像組級(jí)的并行搜索算法(Jiang和Nooshabadi,2016)等。 國(guó)內(nèi)學(xué)者也提出了若干快速編碼算法。Li等人(2008)通過(guò)減小搜索范圍和參考幀數(shù)目來(lái)提高M(jìn)VC速度。在MVC快速宏塊模式選擇方面,Shen等人(2010)利用相鄰視點(diǎn)的宏塊模式輔助當(dāng)前視點(diǎn)的宏塊模式選擇,提高編碼速度。Ding等人(2008)通過(guò)共享視點(diǎn)間編碼信息(例如率失真代價(jià)、編碼模式和運(yùn)動(dòng)矢量)來(lái)降低MVC的運(yùn)動(dòng)估計(jì)的計(jì)算復(fù)雜度。MVC中,大量宏塊的最優(yōu)模式為DIRECT/SKIP模式。根據(jù)此特性,Zhang等人(2013b)提出了Direct模式的提前判斷方法,從而避免所有宏塊模式的搜索過(guò)程。Yeh等人(2014)利用已編碼視點(diǎn)的最大和最小率失真代價(jià)形成閾值條件,用于提前終止當(dāng)前編碼視點(diǎn)的每個(gè)宏塊編碼模式選擇過(guò)程。Pan等人(2015)提出了一種Direct模式的快速模式?jīng)Q策算法,并利用MVC特性,設(shè)計(jì)了運(yùn)動(dòng)和視差估計(jì)的提前終止算法。Li等人(2016b)利用宏塊模式的一致性和率失真代價(jià)的相關(guān)性,提出了Direct模式的判定方法。
4)MVC的碼率控制。
碼率控制旨在提高網(wǎng)絡(luò)帶寬利用率和視頻重建質(zhì)量。與單視點(diǎn)視頻編碼的碼率控制不同,MVC的碼率控制需要考慮視點(diǎn)級(jí)的碼率分配。Vizzotto等人(2013)在幀級(jí)和宏塊級(jí)實(shí)現(xiàn)了一種分層MVC比特控制方法,該方法充分利用了當(dāng)前幀和以編碼相鄰幀比特分布的相關(guān)性。Yuan等人(2015)提出了視點(diǎn)間編碼依賴關(guān)系模型,認(rèn)為視點(diǎn)間的依賴關(guān)系主要由編碼器的跳躍(SKIP)模式導(dǎo)致,并據(jù)此提出了理論上最優(yōu)的多視點(diǎn)視頻碼率分配與控制算法。
5)基于深度學(xué)習(xí)的MVC。
Lei等人(2022)提出了基于視差感知參考幀生成網(wǎng)絡(luò)(disparity-aware reference frame generation network,DAG-Net)生成深度虛擬參考幀。該網(wǎng)絡(luò)包含多級(jí)感受野模塊、視差感知對(duì)齊模塊和融合重建模塊,能轉(zhuǎn)換不同視點(diǎn)之間的視差關(guān)系,生成更可靠的參考幀。這些參考幀插入到3D-HEVC的參考幀列表中,能提升MVC的編碼效率。Peng等人(2022)提出了基于多域相關(guān)學(xué)習(xí)和劃分約束網(wǎng)絡(luò)的深度環(huán)路濾波方法。其中,多域相關(guān)學(xué)習(xí)模塊充分利用多視點(diǎn)的時(shí)間和視點(diǎn)相關(guān)性來(lái)恢復(fù)失真視頻的高頻信息,分割約束重建模塊通過(guò)設(shè)計(jì)分割損失減少壓縮偽影。
2.2 多視點(diǎn)+深度視頻編碼
多視點(diǎn)彩色加深度(multiview video plus depth, MVD)是一種典型的場(chǎng)景表示方式,MVD信號(hào)包括多視點(diǎn)視頻信號(hào)和對(duì)應(yīng)的深度視頻信號(hào)。多視點(diǎn)視頻信號(hào)是利用相機(jī)陣列對(duì)在同一場(chǎng)景從不同位置采集得到,而對(duì)應(yīng)深度視頻可采用深度相機(jī)獲取或者利用軟件估計(jì)得到。與傳統(tǒng)的視頻信號(hào)相比,MVD的數(shù)據(jù)量隨著相機(jī)數(shù)目的增加而成倍增加。
1)多視點(diǎn)+深度視頻國(guó)際編碼標(biāo)準(zhǔn)。
為了編碼MVD信號(hào),JCT-3V基于HEVC提出了3D-HEVC的擴(kuò)展編碼標(biāo)準(zhǔn)(Tech等,2016),該標(biāo)準(zhǔn)能充分利用深度視頻的特性和視點(diǎn)之間的相關(guān)性,提升MVD信號(hào)的編碼性能。針對(duì)沉浸式視頻的最新編碼壓縮標(biāo)準(zhǔn)為ISO/IEC MIV(MPEG immersive video),該標(biāo)準(zhǔn)定義了比特流格式和解碼過(guò)程。沉浸式視頻參考軟件TMIV(test model for immersive video)包括編碼器、解碼器和渲染器等,并提供了測(cè)試用例、測(cè)試條件、質(zhì)量評(píng)估方法和實(shí)驗(yàn)性能結(jié)果等。在TMIV中,多個(gè)紋理和幾何視圖使用傳統(tǒng)的2D視頻編解碼器編碼為補(bǔ)丁的圖集,同時(shí)優(yōu)化比特率、像素率和質(zhì)量。
2)多視點(diǎn)+深度視頻快速編碼。
在基于H.265/HEVC及多視點(diǎn)視頻擴(kuò)展標(biāo)準(zhǔn)方面,學(xué)者們提出了基于MV-HEVC和3D-HEVC標(biāo)準(zhǔn)的多視點(diǎn)深度視頻快速編碼算法(張洪彬 等,2016)。由于深度視頻編碼深度視頻信息反映3D場(chǎng)景的幾何信息,最簡(jiǎn)單的方法是對(duì)深度視頻下采樣,降低編碼復(fù)雜度和降低碼率,代價(jià)為丟失場(chǎng)景信息,導(dǎo)致繪制失真。Tohidypour等人(2016)利用已編碼信息,結(jié)合在線學(xué)習(xí)的方法,調(diào)節(jié)3D-HEVC編碼中非基礎(chǔ)視點(diǎn)彩色視頻的運(yùn)動(dòng)搜索范圍和降低模式搜索的復(fù)雜度。Chung等人(2016)提出了新的幀內(nèi)/幀間預(yù)測(cè)和快速四叉樹劃分方案,既提高了3D-HEVC的深度視頻的壓縮率,又提高了壓縮速度。Zhang等人(2018)針對(duì)3D-HEVC中深度視頻編碼模式引入的額外編碼復(fù)雜度,提出了兩種深度視頻的幀內(nèi)模式?jīng)Q策方法。Xu等人(2021)基于MV-HEVC編碼平臺(tái),提出了復(fù)雜度分配和調(diào)節(jié),實(shí)現(xiàn)了MVC的編碼復(fù)雜度優(yōu)化,已適應(yīng)于不同的視頻應(yīng)用系統(tǒng)。在多視點(diǎn)深度視頻方面,Lei等人(2015)利用MVD視頻信號(hào)中的視點(diǎn)相關(guān)性、彩色和深度視頻的相關(guān)性,提出了多視點(diǎn)深度視頻快速編碼算法。Peng等人(2016)和黃超等人(2018)基于3D-HEVC提出了聯(lián)合預(yù)處理和快速編碼系列算法,增強(qiáng)了MVD信號(hào)中深度視頻的時(shí)間不一致性,提高了壓縮效率和編碼速度。
3)多視點(diǎn)+深度視頻編碼碼率控制。
與MVC的碼率控制僅需要考慮視點(diǎn)級(jí)的碼率分配不同,MVD編碼進(jìn)一步需要考慮彩色與深度視頻之間的碼率分配。Yuan等人(2011,2014)最早確定了虛擬視點(diǎn)失真和多視點(diǎn)紋理和深度視頻的編碼失真之間的解析關(guān)系,進(jìn)而將多視點(diǎn)+深度視頻編碼碼率控制問(wèn)題建模為拉格朗日優(yōu)化問(wèn)題,并求得理論上的最優(yōu)解。Chung等人(2014)提出一種基于新型視點(diǎn)綜合失真模型的比特分配算法,在紋理和深度數(shù)據(jù)之間優(yōu)化分配有限的比特預(yù)算,以最大化合成的虛擬視圖和編碼的真實(shí)視圖的質(zhì)量。Klimaszewski等人(2014)提出一種新的多視點(diǎn)深度視頻壓縮質(zhì)量控制方法,建立了深度和紋理量化參數(shù)計(jì)算的數(shù)學(xué)模型。De Abreu等人(2015)提出一種在相關(guān)約束條件下有效選擇預(yù)測(cè)結(jié)構(gòu)及其相關(guān)紋理和深度量化參數(shù)的算法,具有較優(yōu)的壓縮效率和較低的計(jì)算復(fù)雜度,為交互式媒體應(yīng)用提供了一種有效的編碼解決方案。
Fiengo等人(2016)利用最新的對(duì)凸優(yōu)化工具,提出了幀級(jí)比特最優(yōu)速率分配的算法,其碼率控制性能超越標(biāo)準(zhǔn)MV-HEVC。Domański等人(2021)提出一種可用于比特率控制的視頻編碼器模型,該模型適用于MVD編碼,從AVC的模型中,可以快速推導(dǎo)出HEVC和VVC的模型。Paul(2018)提出一種基于3維幀參考結(jié)構(gòu)來(lái)提高交互和降低計(jì)算時(shí)間,增加一個(gè)參考幀來(lái)提高遮擋區(qū)域的率失真性能,采用視覺(jué)注意的比特分配以提供更好的視頻感知質(zhì)量。Liu等人(2011)提出一種MVD的視點(diǎn)、彩色/深度級(jí)和幀級(jí)的聯(lián)合碼率控制算法,利用預(yù)編碼及數(shù)理統(tǒng)計(jì)分析方法實(shí)現(xiàn)視點(diǎn)級(jí)、彩色/深度級(jí)的比特分配。Zhang等人(2013a)提出了基于視點(diǎn)合成失真模型的多視點(diǎn)深度視頻編碼的區(qū)域位分配和率失真優(yōu)化算法,測(cè)試序列的編碼效率得到顯著提高。Li等人(2021b)提出了一種基于視圖間依賴性和時(shí)空相關(guān)性新的多視圖紋理視頻編碼位分配方法,建立了一個(gè)基于視圖間依賴關(guān)系的聯(lián)合多視圖率失真模型。該方法在率失真性能方面優(yōu)于其他最先進(jìn)的算法。
4)基于深度學(xué)習(xí)的深度視頻編碼。
相比于彩色視頻,深度視頻具有更加平滑的內(nèi)容和更大的空域冗余,可以以更小的分辨率進(jìn)行編碼,以提高編碼效率。針對(duì)深度視頻編碼,Li等人(2022)提出了基于深度上采樣的多分辨率預(yù)測(cè)框架,該框架對(duì)于不同復(fù)雜度的深度塊,使用最優(yōu)的分辨率進(jìn)行編碼,以提高深度視頻編碼效率。
2.3 光場(chǎng)圖像壓縮
光場(chǎng)圖像壓縮的目的在于去除子視點(diǎn)圖像內(nèi)部冗余以及子視點(diǎn)圖像間冗余。傳統(tǒng)2D圖像編碼中成熟的幀內(nèi)壓縮技術(shù)可以直接應(yīng)用于光場(chǎng)圖像壓縮去除子視點(diǎn)圖像內(nèi)部冗余。因此,光場(chǎng)圖像壓縮的相關(guān)研究主要致力于去除視點(diǎn)間冗余(Liu等,2019)。光場(chǎng)圖像的各子視點(diǎn)圖像由于視差變化具有不規(guī)則變化的顯著特點(diǎn),根據(jù)建模方法,現(xiàn)有的光場(chǎng)圖像壓縮研究大體可分為基于偽視頻序列的方法、基于優(yōu)化的方法和基于視點(diǎn)重建的方法3類。
1)基于偽視頻序列的方法。
光場(chǎng)圖像壓縮的關(guān)鍵在于如何充分利用子視點(diǎn)圖像間的相關(guān)性。相鄰的子視點(diǎn)圖像之間存在著極大比例的重復(fù)場(chǎng)景,且由于視差引起的場(chǎng)景變化平緩,與傳統(tǒng)視頻中前后幀中的場(chǎng)景變化較為相似。自然而然地,早期的光場(chǎng)圖像壓縮引入了傳統(tǒng)2D視頻編碼的框架,將光場(chǎng)圖像中的子視點(diǎn)圖按照一定的掃描順序重組為偽視頻序列,將視點(diǎn)間冗余轉(zhuǎn)化為偽視頻序列的幀間冗余,直接利用成熟的視頻壓縮標(biāo)準(zhǔn)中的幀間預(yù)測(cè)技術(shù)去除視點(diǎn)間冗余。因此,此類研究方案的重點(diǎn)在于如何構(gòu)建合理的子視點(diǎn)排列順序以及預(yù)測(cè)結(jié)構(gòu),從而在偽視頻序列的幀間編碼過(guò)程中盡量減少編碼視點(diǎn)與參考視點(diǎn)間的殘差信息,增加壓縮效率。針對(duì)掃描順序,國(guó)內(nèi)一些早期的工作(Dai等,2015)中提出了橫向、縱向、之字形和環(huán)形的掃描方案,且均取得了一定的性能提升。
而在此類工作中,影響力較大的是由中國(guó)科學(xué)技術(shù)大學(xué)Li等人(2017)提出的2維層級(jí)編碼框架。在此框架中,首先將所有視點(diǎn)圖劃分為4個(gè)象限,再在每個(gè)象限中按固定位置劃分為4個(gè)編碼層次,沿用傳統(tǒng)視頻編碼中多層次編碼的框架,即在編碼過(guò)程中首先使用高保真編碼方案壓縮低層次視點(diǎn)圖,并且在高層次視點(diǎn)圖壓縮時(shí)作為參考視點(diǎn)。此外,在選取參考視點(diǎn)圖的過(guò)程中,通過(guò)衡量與不同參考視點(diǎn)間的距離確定最佳的參考視點(diǎn),進(jìn)一步提升壓縮效率。此工作為較早提出的完整的光場(chǎng)編碼框架,經(jīng)常被后續(xù)研究引用作為評(píng)價(jià)標(biāo)準(zhǔn)。此外,Liu等人(2016)將傳統(tǒng)視頻編碼中的可伸縮編碼思想應(yīng)用到光場(chǎng)壓縮中,提出了一個(gè)包括3層分辨率和質(zhì)量可伸縮的光場(chǎng)編碼框架。 基于偽視頻序列的壓縮方法致力于將視點(diǎn)間的相關(guān)性轉(zhuǎn)換為時(shí)域相關(guān)性,從而得以利用視頻編碼技術(shù)中的幀間預(yù)測(cè)技術(shù)去除偽視頻序列的時(shí)域冗余。然而,傳統(tǒng)視頻編碼的幀間預(yù)測(cè)技術(shù)中,只考慮了前后幀場(chǎng)景間的平移運(yùn)動(dòng),用表征上下、左右位移的2維的運(yùn)動(dòng)向量表示。而光場(chǎng)圖像中各個(gè)子視點(diǎn)圖像場(chǎng)景間更多的是由于視角變化引起的不規(guī)則運(yùn)動(dòng),這與傳統(tǒng)視頻存在本質(zhì)上的差異。所以,由于缺少針對(duì)光場(chǎng)圖像特性的適應(yīng)性優(yōu)化,基于偽視頻序列的光場(chǎng)編碼方案難以取得最優(yōu)的壓縮性能。
2)基于優(yōu)化的方法。
在基于偽視頻序列壓縮方案的基礎(chǔ)上,一部分研究者致力于研究子視點(diǎn)間場(chǎng)景不規(guī)則運(yùn)動(dòng)的模型,優(yōu)化原有光場(chǎng)編碼框架中的部分模塊,以期進(jìn)一步提升編碼效率。這些研究包括基于單應(yīng)性變化矩陣、圖變換等優(yōu)化方案。Chang等人(2006)針對(duì)視點(diǎn)間物體的不規(guī)則變化,首先利用傳統(tǒng)的圖像分割方法獲取物體形狀,繼而提出了一種視差補(bǔ)償算法來(lái)估計(jì)相鄰子視點(diǎn)圖中該物體的形狀變化,據(jù)此提升預(yù)測(cè)效率。此外,此工作也在光場(chǎng)編碼基礎(chǔ)框架上提出了改進(jìn)方案,即使用聚類算法對(duì)子視點(diǎn)圖像進(jìn)行排序,根據(jù)聚類結(jié)果調(diào)整偽視頻幀的排序。Jiang等人(2017)提出了基于單應(yīng)性變化矩陣的光場(chǎng)圖像編碼框架優(yōu)化方案。具體的,該方法利用單應(yīng)性或者多應(yīng)性變化矩陣將所有子視點(diǎn)圖統(tǒng)一映射到一個(gè)或者多個(gè)深度面上,繼而在此基礎(chǔ)上求取光場(chǎng)圖像的低秩表示。最后,通過(guò)單應(yīng)性矩陣參數(shù)與低秩矩陣的聯(lián)合優(yōu)化,以實(shí)現(xiàn)光場(chǎng)低秩表示數(shù)據(jù)的壓縮。Dib等人(2020)基于超射線表示的視差模型提出了一個(gè)局部低秩逼近方法。
超射線由與所有子視點(diǎn)圖像都相關(guān)的超像素點(diǎn)構(gòu)建,通過(guò)施加形狀與大小的約束,使得超射線得以表達(dá)復(fù)雜的場(chǎng)景變換,繼而通過(guò)參數(shù)化的視差模型描述每條超射線表示幀內(nèi)的視差局部變化。此模型的最佳參數(shù)將通過(guò)交替搜索估計(jì)的方法確定。 由于圖信號(hào)也能較好地描述圖像中物體的不規(guī)則運(yùn)動(dòng),部分研究者進(jìn)而將圖變換應(yīng)用于光場(chǎng)壓縮的視點(diǎn)間預(yù)測(cè)模塊?;趫D變換的優(yōu)化框架最早由Su等人(2017)提出,該方法依據(jù)深度信息將所有像素分類并構(gòu)建圖表示,并在此基礎(chǔ)上對(duì)子視點(diǎn)圖間場(chǎng)景的不規(guī)則變化進(jìn)行預(yù)測(cè)。然而此方案依賴于深度信息,并且基于圖變換的運(yùn)動(dòng)預(yù)測(cè)大幅增加了整體模型的復(fù)雜度。針對(duì)于此,Rizkallah等人(2021)提出了一個(gè)局部圖變換的方法,通過(guò)圖規(guī)約技術(shù)以及譜聚類來(lái)減少圖的維度,從而控制算法的整體復(fù)雜度,并提出了不同規(guī)約方案下重建子視點(diǎn)圖的率失真準(zhǔn)則模型,以實(shí)現(xiàn)在特定復(fù)雜度限制下尋找最優(yōu)圖構(gòu)建的目的。 在光場(chǎng)圖像壓縮乃至傳統(tǒng)視頻壓縮領(lǐng)域中,如何描述鄰近視點(diǎn)或幀間場(chǎng)景間的不規(guī)則運(yùn)動(dòng)是一個(gè)長(zhǎng)久以來(lái)懸而未決的難題。類似于圖變化或者單應(yīng)性變化矩陣等基于人工設(shè)計(jì)函數(shù)的優(yōu)化方案受限于其預(yù)測(cè)的準(zhǔn)確率,對(duì)整體編碼性能提升較為有限,且極大地增加了整體編碼框架的復(fù)雜度,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。
3)基于視角重建的方法。
相比于傳統(tǒng)使用手工設(shè)計(jì)函數(shù)描述復(fù)雜運(yùn)動(dòng)的優(yōu)化方案,直接使用智能圖像生成技術(shù)以重建鄰近視點(diǎn)圖的方案更為簡(jiǎn)潔、高效。深度神經(jīng)網(wǎng)絡(luò)中的先驗(yàn)知識(shí)顯著減少了重建光場(chǎng)圖像所需要傳遞的信息,大幅提升了光場(chǎng)圖像壓縮框架的效率,因此成為當(dāng)前光場(chǎng)壓縮研究的重要方向。 該類方法首先在所有待壓縮的子視角圖中選取數(shù)幅作為關(guān)鍵視角(Chen等,2018),壓縮并傳送至解碼端。然后,在編碼非關(guān)鍵子視角圖時(shí),將重建后的關(guān)鍵視角圖作為輸入,利用圖像生成網(wǎng)絡(luò)合成非關(guān)鍵視角圖。最后,合成的非關(guān)鍵視角圖與原圖之間的殘差將被壓縮并傳送至解碼端。如香港城市大學(xué)Hou等人(2019)使用基于深度學(xué)習(xí)的角度超分辨率模型用于預(yù)測(cè)非關(guān)鍵視角圖。北京大學(xué)Jia等人(2019)使用對(duì)抗生成模型來(lái)學(xué)習(xí)子視角圖像結(jié)構(gòu)中的角度以及空間變化,從而得以實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)非關(guān)鍵視角幀的預(yù)測(cè)。針對(duì)低碼率條件下的光場(chǎng)壓縮,Ahmad等人(2020)提出了基于剪切小波變換的非關(guān)鍵視角預(yù)測(cè)方法。Bakir等人(2021)提出了一種自適應(yīng)的非關(guān)鍵視點(diǎn)丟棄的策略,并在解碼端對(duì)生成的非關(guān)鍵幀進(jìn)行圖像增強(qiáng)后處理,以進(jìn)一步提升整體壓縮效率。
2.4 焦棧圖像壓縮
焦棧圖像是光場(chǎng)圖像的降維,其壓縮是一個(gè)全新的課題。相比于傳統(tǒng)2D圖像的固定視點(diǎn)、固定對(duì)焦的采樣模式,焦棧圖像需要在某一時(shí)刻對(duì)不同深度的場(chǎng)景進(jìn)行稠密采集,以獲取完整的場(chǎng)景圖像數(shù)據(jù)。焦棧圖像序列與普通視頻具有不同的成像特性和冗余模型,普通視頻幀之間的冗余模型通過(guò)運(yùn)動(dòng)矢量來(lái)刻畫,而焦棧圖像序列則通過(guò)焦深來(lái)刻畫,因此現(xiàn)有編碼框架不適用于焦棧圖像壓縮的目標(biāo)。 焦棧圖像編碼方法可分為兩類,即基于靜態(tài)圖像的編碼和基于視頻的編碼。在基于靜態(tài)圖像的編碼方法中,Sakamoto等人(2012a)將焦棧圖像序列劃分為尺寸為8的3D像素塊,然后對(duì)每個(gè)3D像素塊進(jìn)行3D-DCT(3D discrete cosine transform)變換和線性量化,并按照頻率從低到高的順序排列為1D(one dimension)信號(hào),最后利用霍夫曼編碼方法將信號(hào)寫入碼流完成編碼。
為了抑制圖像退化噪聲,Sakamoto等人(2012b)進(jìn)一步利用3D離散小波變換對(duì)焦棧圖像進(jìn)行處理,相比于基于3D離散余弦變換的方法,有效抑制了編碼產(chǎn)生的塊效應(yīng)失真。Khire等人(2012)提出的方法采用差分脈沖編碼調(diào)制和相鄰圖像的信息來(lái)估計(jì)冗余度,獲得了比JPEG和JPEG2000更高的壓縮效率。 基于視頻的編碼方法考慮了序列各幀之間的相關(guān)性,通過(guò)運(yùn)動(dòng)搜索進(jìn)行幀間預(yù)測(cè),相比于基于靜態(tài)圖像的編碼方法可獲得更高的壓縮性能。如van Duong等人(2019)面向光場(chǎng)重聚焦應(yīng)用,將焦棧圖像排列為視頻序列,直接使用HEVC編碼器進(jìn)行壓縮。然而,這顯然不能挖掘圖像間的焦深冗余。為此,Wu等人(2020b,2022)分別提出了基于高斯1D維納濾波的塊模式單向/雙向焦深預(yù)測(cè),以及分層焦深預(yù)測(cè)的方法,較早地開展了焦深冗余模型的構(gòu)建。該類型相比于直接利用視頻編碼的方案,壓縮性能上有了極大提升。然而,需要強(qiáng)調(diào)的是,焦棧圖像壓縮的研究剛剛起步,尚有許多未知的問(wèn)題需要探索和研究。
2.5 點(diǎn)云編碼壓縮
3D點(diǎn)云是具有法線、顏色和強(qiáng)度等屬性的無(wú)序3D點(diǎn)集。大規(guī)模3D點(diǎn)云數(shù)據(jù)的高效編碼壓縮技術(shù)具有廣泛的市場(chǎng)應(yīng)用前景?,F(xiàn)有研究主要可分為傳統(tǒng)壓縮方法和智能壓縮方法兩類。
1)傳統(tǒng)壓縮方法。
為了實(shí)現(xiàn)點(diǎn)云數(shù)據(jù)的高效壓縮,工業(yè)界和學(xué)術(shù)界提出了多種解決方案(Mekuria等,2017)。點(diǎn)云壓縮方法是通過(guò)八叉樹等表示方法將點(diǎn)云進(jìn)行預(yù)處理,主要思路有3種。第1種是通過(guò)映射,將3維點(diǎn)云轉(zhuǎn)換成2維圖像后,采用傳統(tǒng)的圖像或者視頻編碼工具進(jìn)行編碼操作;第2種是首先直接將數(shù)據(jù)矢量線性變換為合適的連續(xù)值表示,獨(dú)立地量化其元素,然后再使用多種無(wú)損的熵編碼對(duì)得到的離散表示進(jìn)行熵編碼操作;第3種是將八叉樹空間索引信息直接進(jìn)行編碼。根據(jù)組織機(jī)構(gòu)不同,主要可分為運(yùn)動(dòng)圖像專家組(MPEG)提出的點(diǎn)云壓縮(point cloud compression,PCC)標(biāo)準(zhǔn)、音視頻標(biāo)準(zhǔn)組(audio video coding standards workgroup,AVS)提出的點(diǎn)云壓縮參考模型(point cloud reference model,PCRM)和谷歌公司研發(fā)的“Draco”編碼軟件3類。 2017年MPEG啟動(dòng)了關(guān)于點(diǎn)云壓縮的技術(shù)征集提案,此后一直在評(píng)估和提升點(diǎn)云壓縮技術(shù)的性能。
根據(jù)點(diǎn)云壓縮的不同應(yīng)用場(chǎng)景,MPEG劃分了3類點(diǎn)云數(shù)據(jù),并針對(duì)3類點(diǎn)云開發(fā)了3種不同的編碼模型,分別是用于自動(dòng)駕駛的動(dòng)態(tài)獲取點(diǎn)云的模型(LiDAR point cloud compression,L-PCC)、針對(duì)用于表示靜止對(duì)象和固定場(chǎng)景的靜態(tài)點(diǎn)云模型(surface point cloud compression,S-PCC)和針對(duì)用于沉浸式多媒體通信的動(dòng)態(tài)點(diǎn)云的模型(video-based point cloud compression,V-PCC)。其中,動(dòng)態(tài)獲取點(diǎn)云指點(diǎn)云獲取設(shè)備一直處于運(yùn)動(dòng)狀態(tài),獲取的點(diǎn)云場(chǎng)景也處在實(shí)時(shí)變化之中;靜態(tài)點(diǎn)云指被掃描物體與點(diǎn)云獲取設(shè)備均處于靜止?fàn)顟B(tài);動(dòng)態(tài)點(diǎn)云指被掃描物體是運(yùn)動(dòng)的,但是點(diǎn)云獲取設(shè)備處于靜止?fàn)顟B(tài)。由于L-PCC和S-PCC的編碼框架相似,2018年1月MPEG對(duì)現(xiàn)有的L-PCC和S-PCC進(jìn)行整合,推出了全新的測(cè)試模型(geometry-based point cloud compression,G-PCC)。2022年MPEG公布了第1代點(diǎn)云壓縮國(guó)際標(biāo)準(zhǔn)V-PCC (ISO/IEC 23090-5)和G-PCC (ISO/IEC 23090-9)(Schwarz等,2019)。
其中,V-PCC適用于點(diǎn)分布相對(duì)均勻且稠密的點(diǎn)云,G-PCC適用于點(diǎn)分布相對(duì)稀疏的點(diǎn)云。G-PCC的幾何信息編碼部分主要是通過(guò)坐標(biāo)變換和體素化(Schnabel和Klein,2006)的方法進(jìn)行位置量化與重復(fù)點(diǎn)移除,然后通過(guò)八叉樹構(gòu)建將3維空間劃分為層次化結(jié)構(gòu),將每個(gè)點(diǎn)編碼為它所屬的子結(jié)構(gòu)的索引,最后通過(guò)熵編碼生成幾何比特流信息。屬性信息部分則是通過(guò)預(yù)測(cè)變換、提升變換(Liu等,2020)和區(qū)域自適應(yīng)分層變換(region-adaptive hierarchical transform,RAHT)(de Queiroz和Chou,2016)等進(jìn)行冗余消除。V-PCC則通過(guò)將輸入點(diǎn)云分解為塊集合,這些塊可以通過(guò)簡(jiǎn)單的正交投影獨(dú)立地映射到常規(guī)的2D網(wǎng)格,再通過(guò)諸如HEVC和VVC等傳統(tǒng)2維視頻編碼器來(lái)處理紋理信息及附加元數(shù)據(jù)。
為了保障我國(guó)數(shù)字媒體相關(guān)產(chǎn)業(yè)的安全發(fā)展,AVS也成立了點(diǎn)云工作組,并在2019年12月發(fā)布了國(guó)內(nèi)第1個(gè)點(diǎn)云壓縮編碼參考模型PCRM(point cloud reference model)。PCRM的核心編碼思想與G-PCC類似,同樣是依據(jù)點(diǎn)云的幾何結(jié)構(gòu)直接編碼。PCRM的幾何編碼主要是通過(guò)多叉樹結(jié)構(gòu)對(duì)點(diǎn)云劃分,利用節(jié)點(diǎn)之間的關(guān)系和占位信息對(duì)點(diǎn)云編碼。PCRM的屬性編碼有兩種方案,一種是直接預(yù)測(cè)編碼;另一種是基于變換的編碼,即對(duì)點(diǎn)云的屬性信息進(jìn)行離散余弦變換。 Draco架構(gòu)是谷歌媒體團(tuán)隊(duì)提出的開源3D數(shù)據(jù)壓縮解決方案,使用k-維樹等多種空間數(shù)據(jù)索引方法對(duì)屬性和幾何信息進(jìn)行量化、預(yù)測(cè)壓縮以及熵編碼以達(dá)到高效壓縮目的。
2)智能壓縮方法。
隨著深度學(xué)習(xí)的發(fā)展及其在數(shù)據(jù)編碼領(lǐng)域的應(yīng)用,研究人員提出了基于深度學(xué)習(xí)的端到端點(diǎn)云編碼方法。2021年MPEG也開展了基于深度學(xué)習(xí)的點(diǎn)云編碼(artificial intelligence-point cloud compression,AI-PCC)技術(shù)探索,并提出標(biāo)準(zhǔn)測(cè)試流程?;谏疃葘W(xué)習(xí)的端到端點(diǎn)云編碼方法主要涉及基于體素表示、基于點(diǎn)表示和深度熵模型3種方式。 基于體素表示的方法是將點(diǎn)云轉(zhuǎn)換為體素化的網(wǎng)格表示,再對(duì)體素進(jìn)行編碼與壓縮。Quach等人(2019,2020)和Wang等人(2021b)受基于學(xué)習(xí)的圖像壓縮方法的啟發(fā),使用基于3D卷積的自編碼器,在體素上提取潛在表示作為點(diǎn)云的幾何編碼并在體素上執(zhí)行二分類任務(wù)以重建點(diǎn)云幾何信息。由于點(diǎn)云的稀疏性,點(diǎn)云占據(jù)的體素只占全部空間的小部分,體素網(wǎng)格中的大部分空間保持空白,導(dǎo)致存儲(chǔ)和計(jì)算的浪費(fèi)。
為了克服這一缺陷,南京大學(xué)Wang等人(2021a)利用稀疏體素代替稠密體素,并通過(guò)Minkowski稀疏卷積來(lái)降低內(nèi)存要求以提升編碼性能。 基于點(diǎn)表示的方法直接使用神經(jīng)網(wǎng)絡(luò)處理點(diǎn)云,而不需要額外的體素化。浙江大學(xué)Huang等人(2019)直接使用自編碼器用于點(diǎn)云幾何壓縮。深圳大學(xué)Wen等人(2020b)提出了一種用于大規(guī)模點(diǎn)云的自適應(yīng)八叉樹劃分模塊,并使用動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)作為點(diǎn)云自編碼器的核心骨干網(wǎng)絡(luò)。為了獲得更好的率失真性能,Wiesmann等人(2021)使用核點(diǎn)卷積,南京大學(xué)Gao等人(2021)使用神經(jīng)圖采樣來(lái)充分利用點(diǎn)的局部相關(guān)性。 深度熵模型將點(diǎn)云構(gòu)建成八叉樹形式,并在八叉樹上應(yīng)用神經(jīng)網(wǎng)絡(luò)估計(jì)概率熵模型。Huang等人(2020a)使用簡(jiǎn)單多層感知機(jī),根據(jù)在八叉樹上收集到的上下文信息來(lái)進(jìn)行熵估計(jì)。
Biswas等人(2020)考慮點(diǎn)云序列間的上下文,并將該上下文信息引入到神經(jīng)網(wǎng)絡(luò)估計(jì)的熵模型中,以提升點(diǎn)云序列編碼與壓縮的性能。北京大學(xué)Fu等人(2022)基于注意力機(jī)制,充分利用長(zhǎng)距離的上下文信息,以進(jìn)一步提升編碼與壓縮性能。為了避免過(guò)多的上下文信息所引入的額外編解碼復(fù)雜度,南京大學(xué)Wang等人(2022a)提出了輕量級(jí)SparsePCGC(sparse point cloud grid compression)模型,該模型已參與了最新的MPEG AI-PCC的基線評(píng)測(cè)。目前,使用深度學(xué)習(xí)技術(shù)進(jìn)行點(diǎn)云屬性壓縮的工作較少,是一個(gè)有待于進(jìn)一步探索的領(lǐng)域。目前代表性的方法是由中山大學(xué)Fang等人(2022)提出的3DAC(three dimensional attribute coding)算法,該方法首先將帶有屬性的點(diǎn)云構(gòu)建為RAHT樹,并使用神經(jīng)網(wǎng)絡(luò)為RAHT樹構(gòu)建上下文熵模型,以消除統(tǒng)計(jì)冗余。此外,Tang等人(2018,2020)提出基于隱函數(shù)表示的自編碼器結(jié)構(gòu),以實(shí)現(xiàn)3D/4D點(diǎn)云數(shù)據(jù)的高效壓縮。
2.6 6DoF視頻傳輸優(yōu)化
6DoF視頻的典型應(yīng)用是擴(kuò)展現(xiàn)實(shí)(extended reality,XR)(Hu等,2020)。XR業(yè)務(wù)的典型特征是高數(shù)據(jù)速率和嚴(yán)格的時(shí)延預(yù)算,因此被歸類在5.5G愿景中的eMBB(enhanced mobile broadband)和URLLC(ultra reliable low latency communication)業(yè)務(wù)之間。早在2016年,3GPP(3rd generation partnership project)已開展支撐XR業(yè)務(wù)的標(biāo)準(zhǔn)化工作,其中服務(wù)和系統(tǒng)工作組定義了高速率和低延遲XR應(yīng)用程序。2018年,多媒體編解碼器、系統(tǒng)和服務(wù)工作組繼續(xù)開展這項(xiàng)工作,報(bào)告了相關(guān)流量特征。與此同時(shí),系統(tǒng)架構(gòu)和服務(wù)工作組標(biāo)準(zhǔn)化了新的5G服務(wù)質(zhì)量標(biāo)識(shí)符,以支持包括XR在內(nèi)的交互式服務(wù)。各種XR應(yīng)用程序和服務(wù)都有其用戶設(shè)置、流量和服務(wù)質(zhì)量指標(biāo),3GPP SA4為XR業(yè)務(wù)確定了20多個(gè)XR用例,對(duì)無(wú)線解決方案的性能評(píng)估提出了挑戰(zhàn)。在此基礎(chǔ)上,3GPP建議將XR用例分為3個(gè)基本類別,即虛擬現(xiàn)實(shí)(virtual reality,VR)、增強(qiáng)現(xiàn)實(shí)(augmented reality,AR)和云游戲(cloud game,CG)。對(duì)于無(wú)線傳輸來(lái)說(shuō),XR業(yè)務(wù)的兩個(gè)關(guān)鍵性能指標(biāo)是容量和功耗。
在方案對(duì)比之前,所有參會(huì)組織為容量和延遲約束定義了以用戶為中心的聯(lián)合度量方式,即滿足用戶數(shù)。由于XR業(yè)務(wù)對(duì)時(shí)延敏感,因此延遲接收到的數(shù)據(jù)包與丟失的數(shù)據(jù)包是等同的,這些超時(shí)接收到的數(shù)據(jù)包將被統(tǒng)計(jì)到誤包率中。 目前較為主流的VR服務(wù)模式是基于視場(chǎng)角的數(shù)據(jù)流(viewport-dependent streaming,VDS)。VDS是一種自適應(yīng)流方案,使用網(wǎng)絡(luò)狀態(tài)和用戶姿勢(shì)信息來(lái)調(diào)整3D視頻的比特率(Yaqoob等,2020)。具體而言,就是基于用戶的位置和方向?qū)⑷耙曨l在3D空間上劃分為獨(dú)立的子圖像,流服務(wù)器通過(guò)存儲(chǔ)不同質(zhì)量(即視頻分辨率、壓縮和幀率)的子圖像提供多種表示,由用戶動(dòng)作來(lái)觸發(fā)新視頻內(nèi)容的傳輸。下載視場(chǎng)(field of view,F(xiàn)OV)中的所有子圖后,用戶的XR終端設(shè)備將進(jìn)行渲染,然后進(jìn)行顯示。
VDS的使用意味著VR服務(wù)伴隨著上行頻繁更新的動(dòng)作、控制信號(hào),會(huì)帶來(lái)高速的下行傳輸速率。對(duì)于XR CG,控制信號(hào)包括手持控制器輸入和3DoF/6DoF運(yùn)動(dòng)樣本,即旋轉(zhuǎn)數(shù)據(jù)(“滾動(dòng)”、“俯仰”和“偏航”)以及用戶設(shè)備的3D空間位移數(shù)據(jù)。相關(guān)研究工作主要包括基于用戶視口軌跡的預(yù)測(cè)方案和基于混合方法的預(yù)測(cè)方案兩類。
1)基于用戶視口軌跡的預(yù)測(cè)方案。
Nasrabadi等人(2020)提出了一種基于聚類的視口預(yù)測(cè)方法,該方法結(jié)合當(dāng)前用戶的視口變化軌跡和以前觀看者的視口軌跡。算法每隔一定的時(shí)間將以前的用戶基于他們的視口模式進(jìn)行聚類,并決定當(dāng)前用戶所屬類別,從而利用該類中的視口變化模式預(yù)測(cè)當(dāng)前用戶的未來(lái)視口。Feng等人(2020)提出的LiveDeep方法采用了一種混合方法來(lái)解決VR直播流媒體的訓(xùn)練數(shù)據(jù)不足的問(wèn)題,并基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型分析視頻內(nèi)容,通過(guò)長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)用戶感知軌跡進(jìn)行預(yù)測(cè),以消除單一模型造成的不準(zhǔn)確性。類似地,Xu等人(2018)為了避免頭部運(yùn)動(dòng)預(yù)測(cè)錯(cuò)誤,提出了一種概率視口預(yù)測(cè)模型,該模型利用了用戶方向的概率分布。Yuan等人(2020)采用高斯模型估計(jì)用戶未來(lái)運(yùn)動(dòng)視角,并采用Zipf模型估計(jì)不同視角的優(yōu)先級(jí),進(jìn)而保障用戶觀看視角的時(shí)間—空間質(zhì)量一致性。
Hou等人(2021)提出了基于長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的視口預(yù)測(cè)模型。該模型使用過(guò)去的頭部運(yùn)動(dòng)來(lái)預(yù)測(cè)用戶注視點(diǎn)的位置,實(shí)現(xiàn)了最優(yōu)段預(yù)取方法。 Fan等人(2020)提出利用傳感器和內(nèi)容特性來(lái)預(yù)測(cè)未來(lái)幀中每個(gè)Tile的觀看概率。為了提高預(yù)測(cè)性能,提出了幾種新的增強(qiáng)方法,包括生成虛擬視口、考慮未來(lái)內(nèi)容、降低特征采樣率以及使用更大的數(shù)據(jù)集進(jìn)行訓(xùn)練。Chen等人(2021)提出了一種用戶感知的視口預(yù)測(cè)算法Sparkle。該方法首先進(jìn)行測(cè)量研究,分析真實(shí)的用戶行為,觀察到視圖方向存在急劇波動(dòng),用戶姿勢(shì)對(duì)用戶的視口移動(dòng)有顯著影響。此外,跨用戶的相似性在不同的視頻類型中是不同的。基于此,該方法進(jìn)一步設(shè)計(jì)了基于用戶感知的視口預(yù)測(cè)算法,通過(guò)模擬用戶在分片地圖上的視口運(yùn)動(dòng),并根據(jù)用戶的軌跡和其他類似用戶在過(guò)去時(shí)間窗口的行為來(lái)確定用戶將如何改變視口角度。
2)基于混合方法的預(yù)測(cè)方案。
該類方法在視口預(yù)測(cè)時(shí)除了考慮用戶的頭部跟蹤歷史數(shù)據(jù),還結(jié)合了其他能反映視頻內(nèi)容特性的數(shù)據(jù)。Nguyen等人(2018)將全景顯著性檢測(cè)模型與頭部跟蹤歷史數(shù)據(jù)相結(jié)合,以實(shí)現(xiàn)頭部運(yùn)動(dòng)預(yù)測(cè)的精細(xì)化預(yù)測(cè)。Ban等人(2018)利用360°視頻自適應(yīng)流媒體中的跨用戶行為信息進(jìn)行視口預(yù)測(cè),試圖同時(shí)考慮用戶的個(gè)性化信息和跨用戶行為信息來(lái)預(yù)測(cè)未來(lái)的視口。與以往基于圖像像素級(jí)信息的視口預(yù)測(cè)方法不同,Wu等人(2020a)提出了基于語(yǔ)義內(nèi)容和偏好的視口預(yù)測(cè)方法,從嵌入的觀看歷史中提取用戶的語(yǔ)義偏好作為空間注意,以此幫助網(wǎng)絡(luò)找到未來(lái)視頻中感興趣的區(qū)域。類似地,F(xiàn)eng等人(2021b)提出的LiveROI(live region of interest)視口預(yù)測(cè)方案采用實(shí)時(shí)動(dòng)作識(shí)別方案來(lái)理解視頻內(nèi)容,并根據(jù)用戶軌跡動(dòng)態(tài)更新用戶偏好模型,在不需要?dú)v史用戶或視頻數(shù)據(jù)的情況下有效預(yù)測(cè)視口。
實(shí)時(shí)視口預(yù)測(cè)機(jī)制LiveObj(live object)通過(guò)對(duì)視頻中的對(duì)象進(jìn)行語(yǔ)義檢測(cè)并跟蹤,再通過(guò)強(qiáng)化學(xué)習(xí)算法實(shí)時(shí)推斷,從而實(shí)現(xiàn)用戶的視口預(yù)測(cè)。Zhang等人(2021b)將頭部運(yùn)動(dòng)預(yù)測(cè)任務(wù)建模為稀疏有向圖學(xué)習(xí)問(wèn)題。在最新的研究中,Maniotis和Thomos(2022)將VR視頻在邊緣緩存網(wǎng)絡(luò)中的內(nèi)容放置看做馬爾可夫決策過(guò)程,然后利用深度強(qiáng)化學(xué)習(xí)算法確定最優(yōu)緩存放置。Kan等人(2022)提出了一種名為RAPT360(rate adaptive with prediction and trilling 360)的策略,通過(guò)擬合不同預(yù)測(cè)長(zhǎng)度下基于拉普拉斯分布的預(yù)測(cè)誤差概率密度函數(shù),以提高視口預(yù)測(cè)方法的準(zhǔn)確性。提出的視口感知自適應(yīng)平鋪方案可根據(jù)視口的2維投影的形狀和位置分配3種類型的平鋪粒度。 當(dāng)前,6DoF視頻傳輸優(yōu)化的研究重心已逐漸從全景視頻碼流轉(zhuǎn)向點(diǎn)云碼流。隨著數(shù)據(jù)量的顯著增大,6DoF視頻傳輸優(yōu)化不僅需要考慮視口的自適應(yīng)預(yù)測(cè),還要在編碼壓縮時(shí)考慮到碼流容錯(cuò)和糾錯(cuò)能力。此外,為了應(yīng)對(duì)移動(dòng)終端算力不足的限制,還需要考慮邊緣服務(wù)器的動(dòng)態(tài)配置與卸載。
03??6DoF視頻交互與顯示
6DoF視頻允許用戶自由選擇觀看視角,這就需要給用戶提供大量可供自由選擇的視點(diǎn)內(nèi)容。然而,對(duì)任意視角進(jìn)行視覺(jué)內(nèi)容的采集需要記錄的數(shù)據(jù)量非常大,給采集、存儲(chǔ)和傳輸過(guò)程造成很大的負(fù)擔(dān)。因此,在實(shí)際的場(chǎng)景環(huán)境中,通常采集場(chǎng)景中有限的視點(diǎn)信息,并借助已有視點(diǎn)信息,依靠虛擬視點(diǎn)繪制技術(shù)繪制出未采集的視點(diǎn)(即虛擬視點(diǎn))畫面,以供用戶自由切換。 現(xiàn)有的虛擬視點(diǎn)圖像繪制技術(shù)研究正向6DoF方向發(fā)展(Jin等,2022)。虛擬視點(diǎn)技術(shù)的相關(guān)研究與應(yīng)用大部分還停留在水平基線繪制階段??紤]到平移自由度是沉浸式視頻系統(tǒng)中向用戶提供運(yùn)動(dòng)視差的關(guān)鍵,MPEG開展了關(guān)于平移自由度的探索實(shí)驗(yàn)。其中,基于4參考視點(diǎn)的虛擬視點(diǎn)視覺(jué)內(nèi)容繪制算法可以在用戶切換觀看視點(diǎn)時(shí)提供更多的平移自由度,成為近年來(lái)的研究熱點(diǎn)。繪制算法存在影響用戶感知的偽影、背景滲透等繪制失真,且3維映射環(huán)節(jié)存在計(jì)算冗余導(dǎo)致繪制速度較慢,同時(shí)參考視點(diǎn)的數(shù)量增長(zhǎng)進(jìn)一步增加了3維映射環(huán)節(jié)的時(shí)間消耗,所以繪制技術(shù)還存在改進(jìn)的空間。以下將從解碼后濾波增強(qiáng)和虛擬視點(diǎn)合成兩個(gè)角度展開討論。
3.1 解碼后濾波增強(qiáng)
3.1.1 深度圖濾波
由于深度圖紋理較少,通常會(huì)在編碼端以高壓縮比進(jìn)行編碼,從而使得解碼端的深度圖質(zhì)量較低,這給虛擬視點(diǎn)繪制帶來(lái)挑戰(zhàn)。Yang等人(2015a)提出了直接利用編碼參數(shù)(如運(yùn)動(dòng)矢量、塊模式等)來(lái)進(jìn)行深度圖濾波的方法。Yuan等人(2012)證明3D視頻編碼誤差服從平穩(wěn)白噪聲的分布規(guī)律,并據(jù)此首次提出了基于維納濾波的深度圖濾波和虛擬視圖濾波方法。Yang和Zheng(2019)提出了一種新型局部雙邊濾波器,為不太可能受到噪聲影響的像素賦予了更高的權(quán)重,但沒(méi)有徹底解決邊緣輪廓中的不連續(xù)性問(wèn)題。Yang等人(2019)和He等人(2020a)提出了一種跨視點(diǎn)的多邊濾波方法,最終提升了虛擬視點(diǎn)繪制質(zhì)量。He等人(2020b)針對(duì)有損編碼造成的深度失真提出了一種跨視點(diǎn)優(yōu)化濾波方法,該方法設(shè)計(jì)了一個(gè)互信息度量來(lái)模擬跨視點(diǎn)質(zhì)量一致性的約束,其中包括數(shù)據(jù)精度和空間平滑性,可以恰當(dāng)?shù)靥幚韺?duì)象邊緣上的振鈴和錯(cuò)位偽影。 3.1.2 點(diǎn)云上采樣 點(diǎn)云上采樣任務(wù)的目標(biāo)是對(duì)低分辨率稀疏點(diǎn)云進(jìn)行上采樣,生成一個(gè)密集、完整且均勻的點(diǎn)云,并需要保持目標(biāo)物體的形狀。現(xiàn)有的點(diǎn)云上采樣的方法大致可以分為基于優(yōu)化和基于深度學(xué)習(xí)兩大類。
1)基于優(yōu)化方法的模型。
該類型方法一般依賴于幾何先驗(yàn)知識(shí)或者一些額外的場(chǎng)景屬性。為了上采樣稀疏點(diǎn)集,Alexa等人(2003)提出在局部切線空間的Voronoi圖頂點(diǎn)處插入點(diǎn)。Lipman等人(2007)引入了局部最優(yōu)投影算子來(lái)重新采樣點(diǎn)并基于L1范數(shù)重建曲面。Huang等人(2009)設(shè)計(jì)了一種帶迭代正態(tài)估計(jì)的加權(quán)策略,以整合具有噪聲、異常值和非均勻性的點(diǎn)集。Huang等人(2013)提出邊緣感知的點(diǎn)集重采樣方法,以實(shí)現(xiàn)漸進(jìn)式點(diǎn)集上采樣。Wu等人(2015)通過(guò)引入新的點(diǎn)集表示方法,以改善孔洞和缺失區(qū)域的填充質(zhì)量。由于上述方法在建模時(shí)依賴于目標(biāo)點(diǎn)云的先驗(yàn)假設(shè),僅適用于光滑平面,對(duì)含有大量噪聲的稀疏點(diǎn)云上采樣效果有限。
2)基于數(shù)據(jù)驅(qū)動(dòng)的模型。
Yu等人(2018b)首次提出了基于數(shù)據(jù)驅(qū)動(dòng)的點(diǎn)云上采樣模型PU-Net(point cloud upsampling network)。相比基于優(yōu)化方法的模型,PU-Net顯著提升了點(diǎn)云上采樣的性能。為了充分利用點(diǎn)云中的全局與局部幾何結(jié)構(gòu),EC-Net(edge-aware point set consolidation network)(Yu等,2018a)實(shí)現(xiàn)了邊緣感知點(diǎn)云上采樣,進(jìn)一步提高了表面重建質(zhì)量。為了處理大規(guī)模點(diǎn)集,Wang等人(2019)提出的MPU模型在訓(xùn)練集生成時(shí),將上采樣目標(biāo)物體分割成小尺度的片元。 根據(jù)模型改進(jìn)的手段不同,現(xiàn)有的研究工作主要可分為4類。 1)基于先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。如PU-GAN(point cloud upsampling adversarial network)(Li等,2019a)通過(guò)利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)合成潛伏空間中均勻分布的點(diǎn)。PU-GCN(Qian等,2021)基于圖卷積網(wǎng)絡(luò)來(lái)高效提取點(diǎn)云局部結(jié)構(gòu)信息。PU-Transformer(Qiu等,2022)借助多頭自注意力機(jī)制和位置編碼,以增強(qiáng)模型的表示學(xué)習(xí)能力。PUFA-GAN(Liu等,2022)通過(guò)分析點(diǎn)云的頻域信息,進(jìn)一步增強(qiáng)模型的表達(dá)和學(xué)習(xí)能力。 2)基于幾何先驗(yàn)的模型設(shè)計(jì)。
如PUGeo-Net(geometry-centric network for 3D point cloud upsampling)(Qian等,2020)不僅利用點(diǎn)云的坐標(biāo)信息,還使用了點(diǎn)云的法向量信息來(lái)顯式學(xué)習(xí)目標(biāo)物體的局部幾何表示。深圳大學(xué)Zhang等人(2021a)提出了基于可微渲染的點(diǎn)云上采樣網(wǎng)絡(luò),通過(guò)最小化含有重建損失和渲染損失的復(fù)合損失函數(shù)來(lái)生成高質(zhì)量的稠密點(diǎn)云。Dis-PU(point cloud upsampling via disentangled refinement)(Li等,2021a)首先生成一個(gè)能覆蓋物體表面的稠密點(diǎn)云,然后再通過(guò)微調(diào)點(diǎn)的位置來(lái)保證點(diǎn)云的分布均勻性。 3)任意倍數(shù)上采樣策略。Meta-PU(meta point cloud upsampling)(Ye等,2022)采用元學(xué)習(xí)的方式動(dòng)態(tài)調(diào)節(jié)上采樣模塊的權(quán)重,從而使得模型訓(xùn)練一次就可以支持不同倍率上采樣需求。在線性近似理論的基礎(chǔ)上,Qian等人(2021)自適應(yīng)地學(xué)習(xí)插值權(quán)重以及高階近似誤差。Mao等人(2022)在歸一化流約束下的特征空間中構(gòu)建可學(xué)習(xí)的插值過(guò)程。Zhao等人(2022)選擇多個(gè)靠近物體隱式表面的體素化的點(diǎn)云中心作為種子點(diǎn),再將種子點(diǎn)密集且均勻地投射到物體的隱式表面,最后通過(guò)最遠(yuǎn)點(diǎn)采樣,實(shí)現(xiàn)任意倍率的點(diǎn)云上采樣任務(wù)。 4)自監(jiān)督學(xué)習(xí)策略。為了提升模型的泛化性。SPU-Net(self-supervised point cloud upsampling)(Liu等,2022)將自監(jiān)督學(xué)習(xí)應(yīng)用在點(diǎn)云上采樣任務(wù)中??傮w而言,現(xiàn)有基于學(xué)習(xí)的方法依賴于數(shù)據(jù)集特性,在實(shí)際應(yīng)用時(shí)的泛化性能仍有很大提升空間。未來(lái)結(jié)合優(yōu)化和數(shù)據(jù)驅(qū)動(dòng)方法,提升點(diǎn)云上采樣任務(wù)的性能是一個(gè)很有潛力的研究方向。
3.2 虛擬視點(diǎn)合成
按照繪制機(jī)理不同,虛擬視點(diǎn)合成方法可根據(jù)6DoF視頻內(nèi)容劃分為基于模型的繪制(model based rendering,MBR)和基于圖像的繪制(image based rendering,IBR)兩類。MBR是利用3維網(wǎng)格或者點(diǎn)云數(shù)據(jù)建立3維立體模型,從而重建出趨于真實(shí)的場(chǎng)景(Chen等,2019)。其中,在基于網(wǎng)格的表示方式中,通過(guò)基于三角形的方式來(lái)表示場(chǎng)景中的對(duì)象,對(duì)于靜態(tài)場(chǎng)景可以較好地通過(guò)數(shù)十、數(shù)百或者數(shù)千幅輸入圖像的匹配特征進(jìn)行劃分,獲得明確的3D模型。然而,由于網(wǎng)格的不規(guī)則性和低細(xì)節(jié),從重建的場(chǎng)景中生成動(dòng)態(tài)的新對(duì)象是一項(xiàng)困難的任務(wù)。MBR方法適用于簡(jiǎn)單場(chǎng)景,復(fù)雜場(chǎng)景中數(shù)據(jù)量會(huì)隨著場(chǎng)景復(fù)雜度的增加而急劇增長(zhǎng),不適用于追求強(qiáng)烈交互感的沉浸式場(chǎng)景。IBR方法是使用獲取的圖像的顏色值來(lái)恢復(fù)場(chǎng)景的外觀,目前有兩種方式,即基于光場(chǎng)圖像的繪制方法和基于深度圖像的繪制方法(depth image-based rendering,DIBR)(Bonatto等,2021)。
與DIBR技術(shù)相比,基于光場(chǎng)圖像的繪制由于光場(chǎng)數(shù)據(jù)中含有大量不易壓縮的高頻信息,實(shí)際采集、存儲(chǔ)、傳輸以及終端內(nèi)容生成的任務(wù)都更重,而且產(chǎn)生重影、偽影等失真的概率也更大。DIBR使用的數(shù)據(jù)更簡(jiǎn)單,易于處理,技術(shù)復(fù)雜度低,對(duì)設(shè)備要求不高,可以生成更具真實(shí)感的視覺(jué)內(nèi)容。隨著深度估計(jì)算法和多視點(diǎn)視覺(jué)內(nèi)容獲取技術(shù)的長(zhǎng)足進(jìn)步,DIBR技術(shù)已成為實(shí)現(xiàn)6DoF視頻的基礎(chǔ)技術(shù)?;谏窠?jīng)輻射場(chǎng)的視點(diǎn)合成方法得到了廣泛關(guān)注(Xu等,2021)。本部分將重點(diǎn)介紹基于深度圖像的虛擬視點(diǎn)繪制技術(shù)和基于神經(jīng)輻射場(chǎng)的視點(diǎn)合成技術(shù)。 ?
3.2.1 基于深度圖像的虛擬視點(diǎn)繪制
DIBR技術(shù)包括3維映射(3D-Warping)、視點(diǎn)融合和空洞填補(bǔ)3個(gè)環(huán)節(jié),考慮到深度圖的質(zhì)量對(duì)繪制虛擬視點(diǎn)質(zhì)量也具有重要意義,因此圍繞DIBR技術(shù)的研究可劃分為3D-Warping優(yōu)化與加速、視點(diǎn)融合優(yōu)化和空洞填補(bǔ)優(yōu)化。
? 1)3D-Warping優(yōu)化與加速。
3D-Warping是DIBR的核心環(huán)節(jié),這一環(huán)節(jié)對(duì)虛擬視點(diǎn)生成的質(zhì)量和速度有重要影響。Nonaka等人(2018)提出了利用圖形處理器并行編程的實(shí)時(shí)虛擬視點(diǎn)視覺(jué)內(nèi)容繪制方法,大幅降低了繪制一幀圖像所需的時(shí)間。但這類方法對(duì)用戶使用的硬件配置提出了較高的要求,另一方面,在算法層面上不去除冗余,仍會(huì)占用一定的開銷。 針對(duì)由3D-Warping環(huán)節(jié)所引起的繪制質(zhì)量不佳問(wèn)題,Ni等人(2009)提出了一種針對(duì)匯聚相機(jī)陣列的啟發(fā)式融合插值算法,融合插值過(guò)程中考慮了深度、映射像素位置和視點(diǎn)位置,然而難以自適應(yīng)地確定合適尺寸的窗口。Fachada等人(2018)提出一種支持寬基線場(chǎng)景的視點(diǎn)繪制方法,參考視點(diǎn)圖像被劃分為以像素中心為頂點(diǎn)的三角形,在映射圖像中重新形成的三角形中的像素通過(guò)三線性插值進(jìn)行填充,提高了切向曲面的繪制質(zhì)量。 針對(duì)由3D-Warping環(huán)節(jié)所引起的繪制速度過(guò)慢問(wèn)題,國(guó)內(nèi)研究者提出利用專用的現(xiàn)場(chǎng)可編程邏輯門陣列設(shè)備(Li等,2008)和超大規(guī)模集成電路設(shè)備(黃超 等,2018)來(lái)解決。為了從算法層面提升繪制速度,Jin等人(2016)提出了區(qū)域級(jí)的映射方法,根據(jù)區(qū)域的不同特征將區(qū)域分類,僅對(duì)包含重要信息的區(qū)域進(jìn)行映射操作,避免計(jì)算中的冗余信息,大幅減少了映射時(shí)間,但由于不同區(qū)域利用的是來(lái)自不同視點(diǎn)的信息,生成的圖像中存在明顯的區(qū)域邊界。在提升繪制質(zhì)量方面,F(xiàn)u等人(2017)提出一種基于變換域的用于多視點(diǎn)混合分辨率圖像的超分辨率方法,并基于目標(biāo)低分辨率視點(diǎn)和輔助高分辨率視點(diǎn)之間相關(guān)性的最優(yōu)權(quán)重分配算法,可以為低分辨率幀的視點(diǎn)圖像提供更多細(xì)節(jié)信息。Nie等人(2017)針對(duì)寬基線街道圖像提出了一種新穎的單應(yīng)性限制映射公式,該公式通過(guò)利用映射網(wǎng)格的一階連續(xù)性來(lái)增強(qiáng)相鄰超像素間單應(yīng)性傳播的平滑度,可以消除重疊、拉伸等小偽影。 ?
2)視點(diǎn)融合優(yōu)化。
不同的融合策略會(huì)影響虛擬視點(diǎn)繪制圖像絕大部分區(qū)域的內(nèi)容。Vijayanagar等人(2013)根據(jù)1維鄰域中非空洞像素的數(shù)量來(lái)優(yōu)化左右參考視點(diǎn)映射圖像的融合權(quán)重,但該方法僅能改善空洞附近的失真。Lee等人(2016)利用邊緣信息提取出深度圖的不可靠區(qū)域,根據(jù)顏色相似性、深度可靠性和深度值進(jìn)行視點(diǎn)融合,減少了偽影和模糊。Wegner等人(2016)采用Z-Buffer技術(shù)對(duì)深度差區(qū)域進(jìn)行視點(diǎn)融合,但該方法需要準(zhǔn)確的深度圖。Ceulemans等人(2018)提出了一種針對(duì)寬基線相機(jī)陣列的多視點(diǎn)繪制框架,首先對(duì)深度圖進(jìn)行預(yù)處理以避免不可靠的信息在整個(gè)幀中傳播,并且利用加權(quán)顏色混合結(jié)合直方圖匹配確保了參考攝像機(jī)的顏色直方圖之間的平滑過(guò)渡。Sharma和Ragavan(2019)利用幾何信息得到紋理匹配概率,自適應(yīng)地融合參考視點(diǎn)的紋理和深度信息。
de Oliveira等人(2021)采用快速分層超像素算法來(lái)計(jì)算視差和顏色相似性,增強(qiáng)了圖像中結(jié)構(gòu)的一致性。 針對(duì)平面相機(jī)陣列,Chang和Hang等人(2017)提出了一種改進(jìn)的多參考視點(diǎn)融合算法,選擇距離最接近的參考視點(diǎn)作為主導(dǎo)參考視點(diǎn),并根據(jù)其他輔助參考視點(diǎn)的深度和顏色信息修復(fù)深度邊緣區(qū)域中的錯(cuò)誤像素。但由于視點(diǎn)切換過(guò)程中主導(dǎo)參考視點(diǎn)會(huì)發(fā)生變化,用戶自由巡航時(shí)易產(chǎn)生不連續(xù)感和出畫感。Kim等人(2021)通過(guò)直方圖匹配去除了由于圖像對(duì)比度不一致而導(dǎo)致的誤差,解決了圖像之間差異較大時(shí)出現(xiàn)的失真。Qiao等人(2019)采用多項(xiàng)式擬合方法進(jìn)行視點(diǎn)亮度校正,提升了虛擬視點(diǎn)融合準(zhǔn)確度。 ?
3)空洞填補(bǔ)優(yōu)化。
由于遮擋、采樣精度不夠高、計(jì)算中的舍入誤差以及視野的局限性等原因,融合后的虛擬視點(diǎn)圖像中存在部分缺失信息的區(qū)域需要填補(bǔ)以協(xié)調(diào)圖像的整體視覺(jué)效果。空洞填補(bǔ)是利用DIBR過(guò)程進(jìn)行虛擬視點(diǎn)繪制的困難挑戰(zhàn)之一,根據(jù)參考信息來(lái)源可以分為基于圖像修復(fù)的方法、基于時(shí)域的方法和基于空域的方法。 Criminisi等人(2004)提出的修復(fù)方法可以在不引入模糊偽影的情況下填充較大的空洞。該方法通過(guò)復(fù)制來(lái)自虛擬視點(diǎn)圖像非空洞區(qū)域的最佳匹配塊來(lái)填充空洞,但是有時(shí)會(huì)錯(cuò)誤地采用前景紋理來(lái)填充孔洞。因此,基于鄰域信息傳播的算法會(huì)在空洞附近產(chǎn)生模糊偽影。Kim和Ro(2017)提出了一種具有時(shí)空一致性和雙目對(duì)稱性的可靠標(biāo)簽傳播方法,將相鄰視圖和前一幀中使用的可靠標(biāo)簽傳播到要填充的目標(biāo)圖像,可以避免前景用于空洞填充的發(fā)生。Kanchana等人(2022)基于深度學(xué)習(xí)的方法進(jìn)行空洞填補(bǔ),結(jié)合時(shí)間先驗(yàn)和歸一化深度圖來(lái)預(yù)測(cè)填充向量,可以提高繪制視點(diǎn)的時(shí)空一致性。 實(shí)際上,當(dāng)視點(diǎn)切換時(shí),捕捉時(shí)域上的信息更難,所以一些研究者提出了基于空域信息的空洞填補(bǔ)方法。Yao等人(2014)利用時(shí)域信息來(lái)輔助空洞填補(bǔ)。
首先利用紋理和深度信息的時(shí)間相關(guān)性來(lái)生成背景參考圖像,然后將其用于填充與場(chǎng)景的動(dòng)態(tài)部分關(guān)聯(lián)的孔洞;而對(duì)于靜態(tài)部分,則使用傳統(tǒng)的修補(bǔ)方法。該方法可以避免部分區(qū)域的閃爍效應(yīng),但是會(huì)產(chǎn)生時(shí)延現(xiàn)象。Luo等人(2018)提出一種基于快速馬爾可夫隨機(jī)場(chǎng)的空洞填補(bǔ)方法,將圖像修復(fù)作為能量?jī)?yōu)化問(wèn)題并通過(guò)循環(huán)置信傳播來(lái)解決,而且利用深度信息來(lái)阻止前景紋理錯(cuò)誤填充。Lie等人(2018)提出一種建立背景子畫面模型填充空洞的方法,通過(guò)將視頻的空間和時(shí)間信息逐步整合到統(tǒng)一的背景子模型中,從而利用真實(shí)的背景信息來(lái)恢復(fù)空洞,但其需要每一幀模型的更新維護(hù)和額外的過(guò)程,會(huì)導(dǎo)致時(shí)間復(fù)雜度增加。
Rahaman和Paul等人(2018)采用高斯混合模型(Gaussian mixed model,GMM)方法來(lái)分離背景和前景像素,并通過(guò)對(duì)相應(yīng)的GMM模型和映射圖像像素亮度的自適應(yīng)加權(quán)平均來(lái)恢復(fù)映射過(guò)程中引入的缺失像素,但其學(xué)習(xí)率需預(yù)先訓(xùn)練得到且無(wú)法改變,魯棒性較差。Thatte和Girod(2019)通過(guò)挖掘空洞區(qū)域的特性,設(shè)計(jì)出一種統(tǒng)計(jì)模型來(lái)預(yù)測(cè)視點(diǎn)切換而導(dǎo)致虛擬視點(diǎn)圖像中丟失數(shù)據(jù)的可能性,但只能用于單自由度視點(diǎn)切換的情況。Zhu和Gao(2019)針對(duì)GMM對(duì)于往復(fù)運(yùn)動(dòng)的局限性,提出了一種改進(jìn)方法,使用深度信息來(lái)調(diào)整GMM的學(xué)習(xí)率,提高了辨別前景像素和背景像素的準(zhǔn)確性。Luo等人(2020)提出了一種包括前景提取、運(yùn)動(dòng)補(bǔ)償、背景重構(gòu)和空洞填補(bǔ)4個(gè)模塊的空洞填充框架,可使用或擴(kuò)展現(xiàn)有的大部分背景重建方法和圖像修復(fù)方法作為該框架的模塊。 現(xiàn)有的空洞填補(bǔ)算法存在一定的局限,且不可避免地會(huì)引入邊緣模糊,無(wú)法完全恢復(fù)出空洞中的真實(shí)信息。基于四參考視點(diǎn)的DIBR算法通過(guò)引入更多參考視點(diǎn)的方式顯著減少了空洞區(qū)域,尤其是消除了位于視野邊界的空洞,僅剩余部分公共小塊空洞,提升了虛擬視點(diǎn)圖像的主客觀質(zhì)量。 ?
3.2.2 基于神經(jīng)輻射場(chǎng)的視點(diǎn)合成
Mildenhall等人(2020)提出了基于神經(jīng)輻射場(chǎng)的視點(diǎn)合成方法NeRF(nueral radiance field),該算法使用全連接(非卷積)深度網(wǎng)絡(luò)表示場(chǎng)景,其輸入是單個(gè)連續(xù)5D坐標(biāo)(3維空間位置和觀察方向),輸出是可支持任意視角查看的3維體素場(chǎng)景。算法通過(guò)沿相機(jī)光線查詢5D坐標(biāo)來(lái)合成視圖,并使用經(jīng)典的體渲染技術(shù)將輸出顏色和密度投影到圖像中。因?yàn)轶w積渲染是自然可微的,所以優(yōu)化表示所需的唯一輸入是一組具有已知相機(jī)姿勢(shì)的圖像。該算法描述了如何有效地優(yōu)化神經(jīng)輻射場(chǎng)以渲染具有復(fù)雜幾何和外觀的場(chǎng)景的逼真的新穎視圖,并展示了優(yōu)于先前神經(jīng)渲染和視點(diǎn)合成工作的結(jié)果。
在此基礎(chǔ)上,Barron等人(2021)提出了Mip-NeRF的解決方案,擴(kuò)展了NeRF以連續(xù)值的比例表示場(chǎng)景。通過(guò)有效地渲染抗鋸齒圓錐截頭體而不是射線,Mip-NeRF減少了鋸齒偽影并顯著提高了NeRF表示精細(xì)細(xì)節(jié)的能力。針對(duì)全景視頻輸入,Barron等人(2022)提出了解決采樣和混疊問(wèn)題的NeRF變體Mip-NeRF360,使用非線性場(chǎng)景參數(shù)化、在線蒸餾和基于失真的正則化器來(lái)克服無(wú)界場(chǎng)景帶來(lái)的模糊或低分辨率的渲染問(wèn)題。Wang等人(2021c)提出了一種雙向陰影渲染方法來(lái)實(shí)時(shí)渲染全景視頻中真實(shí)和虛擬對(duì)象之間的陰影。Hong等人(2022)將神經(jīng)輻射場(chǎng)與人體頭部的參數(shù)表示相結(jié)合,提出了基于NeRF的參數(shù)化頭部模型HeadNeRF,可以在GPU(graphics processing unit)上實(shí)時(shí)渲染高保真頭部圖像,并支持直接控制生成圖像的渲染姿勢(shì)和各種語(yǔ)義屬性??傮w而言,基于神經(jīng)輻射場(chǎng)的視點(diǎn)合成方法已得到產(chǎn)業(yè)界和學(xué)界的廣泛關(guān)注,隨著模型訓(xùn)練速度的大幅提升和漸進(jìn)式渲染技術(shù)的廣泛研究,將具有非常大的應(yīng)用潛力。
04??發(fā)展趨勢(shì)與展望
6DoF視頻技術(shù)的發(fā)展將為未來(lái)元宇宙時(shí)代的到來(lái)奠定基礎(chǔ),并且將呈現(xiàn)多維度的發(fā)展,包括感官豐富程度的提升、分辨率和碼率的提升、時(shí)延和可靠性需求的提升以及與現(xiàn)實(shí)的交互程度的提升。從這些維度出發(fā),對(duì)6DoF視頻技術(shù)的內(nèi)容采集與預(yù)處理、壓縮與傳輸以及交互與顯示提出了更高的要求與挑戰(zhàn)。 ?
1)6DoF內(nèi)容采集與預(yù)處理。
內(nèi)容采集的難度以及后期制作技術(shù)的復(fù)雜程度直接影響了6DoF視頻內(nèi)容制作的難度,因此長(zhǎng)期以來(lái)是限制6DoF視頻發(fā)展的主要原因。從發(fā)展需求來(lái)看,未來(lái)的研發(fā)方向包括兩個(gè)方面:(1)輕量化和低成本的視頻采集系統(tǒng)。例如,手持彩色3維掃描儀、手持多視點(diǎn)采集系統(tǒng)等裝備已經(jīng)開始具有這些特點(diǎn),但是距離實(shí)際應(yīng)用還有較長(zhǎng)的演進(jìn)路線;(2)高效、智能的視頻內(nèi)容處理技術(shù)。當(dāng)前技術(shù)在幾何標(biāo)定、深度圖去噪等方面已經(jīng)有較好的積累,但適用范圍還比較有限,亟需適應(yīng)面更廣、處理流程更智能的技術(shù)。 ?
2)6DoF視頻壓縮與傳輸。
該方向的研究熱點(diǎn)主要集中于高效點(diǎn)云壓縮和數(shù)據(jù)傳輸策略。一方面,現(xiàn)有的點(diǎn)云壓縮算法仍存在數(shù)據(jù)分布刻畫難、場(chǎng)景先驗(yàn)利用少和計(jì)算復(fù)雜度高等挑戰(zhàn)?;?維場(chǎng)景智能分析的大規(guī)模3D點(diǎn)云壓縮研究,可以實(shí)現(xiàn)非結(jié)構(gòu)化點(diǎn)云數(shù)據(jù)的場(chǎng)景—目標(biāo)—要素多目標(biāo)層次化表示,然后根據(jù)應(yīng)用場(chǎng)景類型和目標(biāo)特性做針對(duì)性壓縮,以改善重建點(diǎn)云中存在的細(xì)節(jié)丟失和全局形變等問(wèn)題,進(jìn)而實(shí)現(xiàn)高效的點(diǎn)云數(shù)據(jù)編碼壓縮,是潛在的發(fā)展趨勢(shì)。另一方面,相對(duì)于傳統(tǒng)視頻流式傳輸場(chǎng)景,點(diǎn)云視頻特有的傳輸方式對(duì)資源調(diào)度優(yōu)化引入了新的挑戰(zhàn)。例如,在碼流傳輸過(guò)程中需要考慮預(yù)測(cè)視口大小與點(diǎn)云質(zhì)量等指標(biāo)之間的平衡。將強(qiáng)化學(xué)習(xí)在傳統(tǒng)視頻流式傳輸場(chǎng)景中的應(yīng)用遷移到點(diǎn)云視頻流式傳輸場(chǎng)景中,并針對(duì)新場(chǎng)景進(jìn)行適應(yīng)性的改進(jìn)與優(yōu)化,是一個(gè)有潛力的研發(fā)方向。 ?
3)6DoF視頻交互與顯示。
未來(lái)云渲染架構(gòu)下,大量的視點(diǎn)合成和渲染計(jì)算工作都位于云端服務(wù)器上完成,可以有效降低終端的計(jì)算負(fù)載和功耗,同時(shí)也使終端的佩戴重量盡可能降低。同時(shí),借助終端的異步時(shí)間扭曲技術(shù),實(shí)時(shí)視頻的端到端時(shí)延要求可放松至70 ms,實(shí)現(xiàn)無(wú)眩暈感的沉浸式視頻體驗(yàn)。如何對(duì)端、管、云三者高效協(xié)同,將是未來(lái)6DoF視頻交互與顯示的重要技術(shù)方向。
編輯:黃飛
?
評(píng)論
查看更多