RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2019,曠視14篇論文全覽!

電子工程師 ? 來(lái)源:lp ? 2019-03-06 09:28 ? 次閱讀

回顧 CVPR 2018 ,曠視科技有 8 篇論文被收錄,如高效的移動(dòng)端卷積神經(jīng)網(wǎng)絡(luò) ShuffleNet、語(yǔ)義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決人群密集遮擋問(wèn)題的 RepLose、通過(guò)角點(diǎn)定位和區(qū)域分割優(yōu)化場(chǎng)景文本檢測(cè)的一種新型場(chǎng)景文本檢測(cè)器、率先提出的可復(fù)原扭曲的文檔圖像等等。

今年,曠視科技在 CVPR 2019 上共有 14 篇論文被接收。這 14 篇論文涉及行人重識(shí)別、場(chǎng)景文字檢測(cè)、全景分割、圖像超分辨率、語(yǔ)義分割、時(shí)空檢測(cè)等技術(shù)方向。今天,AI科技大本營(yíng)就先為大家介紹這 14 篇論文,后續(xù)我們會(huì)繼續(xù)對(duì)各大科技公司的 CVPR 亮點(diǎn)工作進(jìn)行深度報(bào)道,大家可以持續(xù)關(guān)注。

行人重識(shí)別

1、《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》:提出了局部可見(jiàn)感知模型——VPM。

論文摘要:

論文中考慮了行人重新識(shí)別 (re-ID) 的一個(gè)現(xiàn)實(shí)問(wèn)題,即局部行人重識(shí)別問(wèn)題。在局部行人重識(shí)別場(chǎng)景下,需要探索數(shù)據(jù)庫(kù)圖像中包含整體人物的比例大小。如果直接將局部行人圖像與整體行人圖像進(jìn)行比較,則極端空間錯(cuò)位問(wèn)題將顯著地?fù)p害特征表征學(xué)習(xí)的判別能力。針對(duì)這個(gè)問(wèn)題,本文提出了一個(gè)局部可見(jiàn)感知模型 (VPM),通過(guò)自監(jiān)督學(xué)習(xí)感知可見(jiàn)區(qū)域內(nèi)的特征,來(lái)解決局部行人重識(shí)別問(wèn)題。該模型利用可見(jiàn)感知的特性,能夠提取區(qū)域特征并比較兩張圖像的共享區(qū)域 (共享區(qū)域在兩張圖像上都是可見(jiàn)區(qū)域),從而局部行人重識(shí)別問(wèn)題上取得更好的表現(xiàn)??偟膩?lái)說(shuō),VPM 有兩大優(yōu)勢(shì):一方面,與學(xué)習(xí)全局特征的模型相比,VPM 模型通過(guò)學(xué)習(xí)圖像區(qū)域特征,能夠更好地提取一些細(xì)粒度特征信息。另一方面,利用可見(jiàn)感知特征,VPM 能夠估計(jì)兩個(gè)圖像之間的共享區(qū)域,從而抑制空間錯(cuò)位問(wèn)題。通過(guò)大量的實(shí)驗(yàn)結(jié)果驗(yàn)證,VPM 模型能夠顯著地改善特征表征的學(xué)習(xí)能力,并且在局部和整體行人重識(shí)別場(chǎng)景中,均可獲得與當(dāng)前最先進(jìn)方法相當(dāng)?shù)男阅堋?/p>

圖像 3D 紋理生成

2、《Re-Identification Supervised 3D Texture Generation》:在研究欠缺領(lǐng)域——圖像 3D 紋理生成領(lǐng)域中,提出一種端到端的學(xué)習(xí)策略。

論文摘要:

近年來(lái),對(duì)單張圖像中人體 3D 姿態(tài)和形狀估計(jì)的研究得到了廣泛關(guān)注。然而,在圖像 3D 紋理生成領(lǐng)域的研究卻相當(dāng)?shù)那啡?。針?duì)這個(gè)問(wèn)題,本文提出一種端到端的學(xué)習(xí)策略,利用行人重識(shí)別的監(jiān)督信息,來(lái)解決圖像中人體紋理生成問(wèn)題。該方法的核心思想是,利用輸入的圖像渲染圖像中行人紋理,并將行人重識(shí)別網(wǎng)絡(luò)作為一種感知標(biāo)準(zhǔn),來(lái)最大化渲染圖像和輸入原圖像之間的相似性。本文在行人圖像上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果表明所提出的方法能夠從單張圖像輸入中生成紋理,其質(zhì)量明顯優(yōu)于其他方法所生成的紋理。此外,本文將此應(yīng)用擴(kuò)展到其他方面,并探索所生成紋理的可使用性。

3D 點(diǎn)云

3、《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》:提出 Geo-CNN 模型,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于 3D 點(diǎn)云數(shù)據(jù)局部區(qū)域中點(diǎn)的幾何結(jié)構(gòu)建模。

論文摘要:

得益于深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的近期的應(yīng)用和發(fā)展,許多研究人員將其直接用于 3D 點(diǎn)云的數(shù)據(jù)建模。一些研究已證明,卷積結(jié)構(gòu)對(duì)于點(diǎn)云數(shù)據(jù)的局部結(jié)構(gòu)建模是非常有效的,因此研究者將其用于層級(jí)特征中的局部點(diǎn)集建模的研究。然而,對(duì)于局部區(qū)域中點(diǎn)的幾何結(jié)構(gòu)建模研究的關(guān)注卻相當(dāng)有限。為了解決這個(gè)問(wèn)題,本文提出一種 Geo-CNN 模型,將一個(gè)名為 GeoConv 的通用卷積式操作應(yīng)用于區(qū)域中的每個(gè)點(diǎn)及其局部鄰域。當(dāng)提取區(qū)域中心點(diǎn)與其相鄰點(diǎn)之間的邊緣特征時(shí),該模型能夠捕獲點(diǎn)之間的局部幾何關(guān)系。具體來(lái)說(shuō),首先將邊緣特征的提取過(guò)程分解為三個(gè)正交基礎(chǔ),接著基于邊緣向量和基礎(chǔ)向量之間的角度,聚合所提取的特征,通過(guò)層級(jí)特征的提取,能夠使得網(wǎng)絡(luò)特征提取過(guò)程中保留歐式空間點(diǎn)的幾何結(jié)構(gòu)。作為一種通用而高效的卷積操作,GeoConv 能夠輕松地將 3D 點(diǎn)云分析過(guò)程集成到多個(gè)應(yīng)用中,而以 GeoConv 為結(jié)構(gòu)的 Geo-CNN 模型在 ModelNet40 和 KITTI 數(shù)據(jù)集的點(diǎn)云數(shù)據(jù)建模任務(wù)上都實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能。

場(chǎng)景文字檢測(cè)

4、《Shape Robust Text Detection with Progressive Scale Expansion Network》:提出 PSENet 模型,一種新穎的漸進(jìn)式尺度可拓展網(wǎng)絡(luò),針對(duì)場(chǎng)景文字檢測(cè)中任意形狀文本問(wèn)題。此研究后續(xù)會(huì)開(kāi)源,大家可以繼續(xù)關(guān)注。

論文摘要:

得益于深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,場(chǎng)景文本檢測(cè)領(lǐng)域近來(lái)取得了快速發(fā)展。然而,對(duì)于其在工業(yè)界是的實(shí)際應(yīng)用而言,仍存在兩大挑戰(zhàn):一方面,大多數(shù)現(xiàn)有的方法都需要采用四邊形的邊界框,這種邊界框在定位任意形狀的文字時(shí)的性能很差,精確度很低。另一方面,對(duì)于場(chǎng)景中兩個(gè)彼此接近、互相干擾的文本,現(xiàn)有技術(shù)可能會(huì)產(chǎn)生誤檢,結(jié)果會(huì)包含兩個(gè)實(shí)例。傳統(tǒng)的方法采用分段式的技術(shù)可以緩解四邊形邊界框的性能問(wèn)題,但通常無(wú)法解決誤檢問(wèn)題。因此,為了解決上述兩個(gè)問(wèn)題,本文提出了一種新穎的漸進(jìn)式尺度可擴(kuò)展網(wǎng)絡(luò) (PSENet),它可以精確魯棒地檢測(cè)場(chǎng)景中任意形狀的文本實(shí)例。具體地說(shuō),PSENet 模型能夠?yàn)槊總€(gè)文本實(shí)例生成不同比例的核 (kernel),并將最小比例的 kernel 逐步擴(kuò)展生成完整形狀比例的 kernel,以適應(yīng)不同大小的文本實(shí)例。此外,由于最小尺度的 kernel 之間存在較大的幾何邊距,因此 PASNet 能夠有效地分割場(chǎng)景中一些緊密的文本實(shí)例,從而更容易地使用分段方法來(lái)檢測(cè)任意形狀的文本實(shí)例。大量的實(shí)驗(yàn)結(jié)果表明,PSENet 模型在 CTW1500,Total-Text,ICDAR 2015 和 ICDAR 2017 MLT等數(shù)據(jù)集上都能實(shí)現(xiàn)非常有效、魯棒的檢測(cè)性能。值得注意的是,在包含長(zhǎng)曲線的 CTW1500 數(shù)據(jù)集上,PSENet 模型在 27 FPS 的速度下能夠?qū)崿F(xiàn)74.3%的F-measure,而最高的F-measure 可達(dá)82.2%,超過(guò)當(dāng)前最先進(jìn)的方法 6.6%。

全景分割

5、《An End-to-end Network for Panoptic Segmentation》:在全景分割研究領(lǐng)域中,曠視提出了一種新穎的端到端的全景分割模型。

論文摘要:

全景分割,是需要為圖像中每個(gè)像素分配類別標(biāo)簽的同時(shí),分割每個(gè)目標(biāo)實(shí)例的一種分割任務(wù)。這是一個(gè)具有挑戰(zhàn)性的研究領(lǐng)域,傳統(tǒng)的方法使用兩個(gè)獨(dú)立的模型但二者之間不共享目標(biāo)特征,這將導(dǎo)致模型實(shí)現(xiàn)的效率很低。此外,傳統(tǒng)方法通過(guò)一種啟發(fā)式方法來(lái)合成兩種模型的結(jié)果,在合并過(guò)程期間無(wú)法利用足夠的特征上下文信息,這就導(dǎo)致模型難以確定每個(gè)目標(biāo)實(shí)例之間的重疊關(guān)系。為了解決這些問(wèn)題,本文提出了一種新穎的端到端全景分割模型,能夠有效地、高效地預(yù)測(cè)單個(gè)網(wǎng)絡(luò)中每個(gè)目標(biāo)實(shí)例及其分割結(jié)果。此外,還引入了一種新穎的空間排序模塊來(lái)處理所預(yù)測(cè)的實(shí)例之間的重疊關(guān)系問(wèn)題。大量的實(shí)驗(yàn)結(jié)果表明,所提出的方法能夠在 COCO Panoptic 基準(zhǔn)上取得了非常有前景的結(jié)果。

時(shí)空動(dòng)作檢測(cè)

6、《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》:曠視在時(shí)空動(dòng)作檢測(cè)研究領(lǐng)域針對(duì)時(shí)間維度問(wèn)題提出了網(wǎng)絡(luò)——TACNet(上下文轉(zhuǎn)換感知網(wǎng)絡(luò)),改善時(shí)空動(dòng)作檢測(cè)性能。

論文摘要:

當(dāng)前,時(shí)空動(dòng)作檢測(cè)領(lǐng)域最先進(jìn)的方法已經(jīng)取得了令人印象深刻的結(jié)果,但對(duì)于時(shí)間維度的檢測(cè)結(jié)果仍然不能令人滿意,其主要原因在于模型會(huì)將一些類似于真實(shí)行為的模糊狀態(tài)識(shí)別為目標(biāo)行為,即使是當(dāng)前性能最佳的網(wǎng)絡(luò)也是如此。因此,為了解決這個(gè)問(wèn)題,本文將這些模糊狀態(tài)樣本定義為“轉(zhuǎn)換狀態(tài) (transitional states)”,并提出一種上下文轉(zhuǎn)換感知網(wǎng)絡(luò) (TACNet) 來(lái)識(shí)別這種轉(zhuǎn)換狀態(tài)。TACNet 網(wǎng)絡(luò)主要包括兩個(gè)關(guān)鍵部分,即時(shí)間上下文檢測(cè)器和轉(zhuǎn)換感知分類器。其中,時(shí)間上下文檢測(cè)器可以通過(guò)構(gòu)造一個(gè)循環(huán)檢測(cè)器來(lái)提取具有恒定時(shí)間復(fù)雜度的長(zhǎng)期上下文信息,而轉(zhuǎn)換感知分類器則是通過(guò)同時(shí)對(duì)行動(dòng)和轉(zhuǎn)換狀態(tài)進(jìn)行分類來(lái)進(jìn)一步識(shí)別轉(zhuǎn)換狀態(tài)。因此,TACNet 模型可以顯著地改善時(shí)空動(dòng)作檢測(cè)的性能,并在 UCF101-24 和 J-HMDB 數(shù)據(jù)集實(shí)現(xiàn)非常有效的檢測(cè)性能。其中, TACNe 在 JHMDB 數(shù)據(jù)集上取得了非常有競(jìng)爭(zhēng)力的表現(xiàn),并在 frame-mAP 和 video-mAP 兩個(gè)指標(biāo)上明顯優(yōu)于 UCF101-24 數(shù)據(jù)集中最先進(jìn)的方法。

圖像超分辨率

7、《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》:近年來(lái),圖像超分辨率研究已經(jīng)取得了很大的成功,但在這篇論文中,曠視將研究重點(diǎn)放在其一個(gè)被忽視的方向:任意縮放因子的超分辨率研究。論文中對(duì)此問(wèn)題提出了一個(gè)新方法—— Meta-SR(任意放大網(wǎng)絡(luò))

論文摘要:

得益于深度卷積神經(jīng)網(wǎng)絡(luò) (DCNNs) 的發(fā)展,近期圖像超分辨率領(lǐng)域的研究取得了巨大的成功。然而,對(duì)于任意縮放因子的超分辨率研究一直以來(lái)都是被忽視的一個(gè)方向。先前的研究中,大多數(shù)都是將不同縮放因子的超分辨率視為獨(dú)立任務(wù),且只考慮幾種整數(shù)因子的情況,為每個(gè)因子訓(xùn)練特定的模型,這嚴(yán)重影響了整體模型的效率。因此,為了解決這個(gè)問(wèn)題,本文提出了一種稱為 Meta-SR 的新方法。具體來(lái)說(shuō),首先通過(guò)單一模型來(lái)求解任意縮放因子 (包括非整數(shù)比例因子) 的超分辨率情況。接著,在 Meta-SR 中,使用 Meta-upscale 模塊替代傳統(tǒng)方法中的 upscale 模塊。對(duì)于任意縮放因子,Meta-upscale 模塊通過(guò)將縮放因子作為輸入來(lái)動(dòng)態(tài)地預(yù)測(cè)每個(gè) upscale 濾波器的權(quán)重,并使用這些權(quán)重來(lái)生成其他任意大小的高分辨率圖像 (HR)。而對(duì)于任意的低分辨率圖像,Meta-SR 可以通過(guò)單個(gè)模型,以任意縮放因子進(jìn)行連續(xù)地放大。最后,對(duì)于所提出的方法,在一些廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行性能評(píng)估,結(jié)果展示了 Meta-Upscale 的有效性和優(yōu)越性。

目標(biāo)檢測(cè)

8、《Bounding Box Regression with Uncertainty for Accurate Object Detection》:對(duì)目標(biāo)檢測(cè)中不確定性邊界框問(wèn)題,在這篇論文中提出了一中新的邊界框回歸損失算法,提高了各種檢測(cè)體系的目標(biāo)定位精度。

該研究相關(guān)的代碼和模型已開(kāi)源,地址:

https://github.com/yihui-he/KL-Loss

論文摘要:

諸如 MS-COCO 在內(nèi)大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集,都旨在盡可能清楚地定義目標(biāo)真實(shí)的邊界框標(biāo)注。然而,事實(shí)上在標(biāo)注邊界框時(shí)經(jīng)常會(huì)產(chǎn)生歧義。因此,為了解決這個(gè)問(wèn)題,本文提出了一種新的邊界框回歸損失 (bounding box regression loss) 算法,用于學(xué)習(xí)邊界框變換和局部方差。這種損失算法提高了各種檢測(cè)體系的目標(biāo)定位精度,且?guī)缀醪恍枰~外的計(jì)算成本。此外,該算法的另一大優(yōu)勢(shì)在于它能夠?qū)W習(xí)目標(biāo)的定位方差,這允許模型在非最大抑制 (NMS) 計(jì)算階段合并相鄰的邊界框,以便進(jìn)一步改善了定位的性能。在 MS-COCO 數(shù)據(jù)集上,該損失算法能夠?qū)?Faster R-CNN (VGG-16) 的平均精度 AP 從23.6%提高到29.1%。更重要的是,對(duì)于 Mask R-CNN (ResNet-50-FPN),該算法將 AP 和 AP 90 分別提高了1.8%和6.2%,這明顯優(yōu)于當(dāng)前最先進(jìn)的邊界框細(xì)化 (bounding box refinement) 方法。

語(yǔ)義分割

9、《DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation》:今年唉語(yǔ)義分割研究方向,曠視提出一種非常有效的 CNN 架構(gòu)——DFANet,一種在有限資源下,用于實(shí)時(shí)語(yǔ)義分割的深度特征聚合算法。

論文摘要:

本文提出一種在有限資源條件下的語(yǔ)義分割模型 DFANet,這是一種非常有效的 CNN 架構(gòu)。DFANet 從單個(gè)輕量級(jí)骨干網(wǎng)絡(luò)開(kāi)始,分別通過(guò)子網(wǎng)和子級(jí)聯(lián)的方式聚合判別性特征?;诙喑叨忍卣鞯膫鞑?,DFANet 網(wǎng)絡(luò)在獲得足夠感受野的同時(shí)下,大大減少了模型的參數(shù)量,提高了模型的學(xué)習(xí)能力,并在分割速度和分割性能之間取得了很好的平衡。通過(guò)在 Cityscapes 和 CamVid 數(shù)據(jù)集上的大量實(shí)驗(yàn)評(píng)估,驗(yàn)證了 DFANet 網(wǎng)絡(luò)的優(yōu)越性能:相比于最先進(jìn)的實(shí)時(shí)語(yǔ)義分割方法,DFANet 網(wǎng)絡(luò)的分割速度快了3倍,而只使用七分之一的 FLOP,同時(shí)保持相當(dāng)?shù)姆指顪?zhǔn)確性。具體來(lái)說(shuō),在一塊NVIDIA Titan X卡上,對(duì)于1024×1024輸入,DFANet 在 Cityscapes 測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了71%的平均 IOU (Mean IOU),分割速度為170FPS,而僅有3.4 GFLOP。同時(shí),當(dāng)使用較小的骨干模型時(shí),它能夠取得67%的平均IOU (Mean IOU),250 FPS 的分割速度和2.1 GFLOP。

多標(biāo)簽圖像識(shí)別

10、《Multi-Label Image Recognition with graph convolutional Networks》:為了構(gòu)建圖像中同時(shí)出現(xiàn)的不同目標(biāo)標(biāo)簽的依賴關(guān)系模型,來(lái)提高模型的識(shí)別性能,在這篇論文中提出了一種基于圖卷積網(wǎng)絡(luò)模型——GCN。

論文摘要:

多標(biāo)簽的圖像識(shí)別任務(wù),旨在預(yù)測(cè)圖像中所有存在的目標(biāo)標(biāo)簽。由于圖像中的目標(biāo)通常是同時(shí)出現(xiàn)的,因此理想狀態(tài)下,我們希望對(duì)不同目標(biāo)標(biāo)簽的依賴性進(jìn)行建模以便提高模型的識(shí)別性能。為了捕獲和利用這種重要的依賴關(guān)系,本文提出了一種基于圖卷積網(wǎng)絡(luò)的模型 (GCN)。該模型能夠在目標(biāo)標(biāo)簽之間構(gòu)建有向圖,其中每個(gè)節(jié)點(diǎn) (標(biāo)簽) 由詞嵌入 (word embedding) 表示,而 GCN 網(wǎng)絡(luò)用于將該標(biāo)簽圖映射到一組相互依賴的目標(biāo)分類器。這些分類器使用另一個(gè)子網(wǎng)絡(luò)提取的圖像描述器,實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的端到端訓(xùn)練。此外,通過(guò)設(shè)計(jì)不同類型的相關(guān)矩陣并將它們集成到圖卷積網(wǎng)絡(luò)中訓(xùn)練,來(lái)深入研究圖構(gòu)建問(wèn)題。通過(guò)在兩個(gè)多標(biāo)簽圖像識(shí)別數(shù)據(jù)集基準(zhǔn)的試驗(yàn)評(píng)估,結(jié)果表明所提出的方法明顯優(yōu)于當(dāng)前最先進(jìn)的方法。此外,可視化分析結(jié)果表明圖卷積網(wǎng)絡(luò)模型所學(xué)習(xí)的分類器能夠保持有意義的語(yǔ)義結(jié)構(gòu)信息。

關(guān)于提高 GIF 視覺(jué)質(zhì)量

11、《GIF2Video: Color Dequantization and Temporal Interpolation of GIF images》:GIF 圖像中視覺(jué)偽像問(wèn)題如何解決?這篇論文中提出一種 GIF2Video 方法,通過(guò)顏色去量化 CNN 模型和時(shí)序插值算法 SuperSlomo 網(wǎng)絡(luò),來(lái)提高自然條件下 GIF 視覺(jué)質(zhì)量。

論文摘要:

GIF 是一種高度可移植的圖形格式,在網(wǎng)絡(luò)上無(wú)處不在。盡管 GIF 圖像的尺寸小,但它們通常包含一些視覺(jué)偽像,如平面顏色區(qū)域,偽輪廓,顏色便移和點(diǎn)狀圖案。本文提出一種 GIF2Video 方法,這是第一種基于學(xué)習(xí)來(lái)提高自然條件下 GIF 視覺(jué)質(zhì)量的方法。具體來(lái)說(shuō),該方法通過(guò)恢復(fù) GIF 創(chuàng)建時(shí)三個(gè)步驟中丟失的信息來(lái)實(shí)現(xiàn) GIF 的恢復(fù)任務(wù):即幀采樣,顏色量化和顏色抖動(dòng)。首先,提出了一種用于顏色去量化的新型 CNN 架構(gòu),它是一種多步驟的顏色校正組合架構(gòu),并設(shè)計(jì)一種綜合的損失函數(shù)用于衡量大量化誤差。接著,采用 SuperSlomo 網(wǎng)絡(luò)對(duì) GIF 幀進(jìn)行時(shí)間插值。最后,在 GIF-Faces 和 GIF-Moments 兩個(gè)大型數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評(píng)估,結(jié)果表明所提出的方法能夠顯著地提高 GIF 圖像的視覺(jué)質(zhì)量,并優(yōu)于基準(zhǔn)和當(dāng)前最先進(jìn)的方法。

點(diǎn)云數(shù)據(jù)分析

12、《GeoNet: Deep Geodesic Networks for Point Cloud Analysis》:曠視在這篇論文中提出了 GeoNet 模型,這是第一個(gè)用于模擬點(diǎn)云數(shù)據(jù)表面結(jié)構(gòu)的深度學(xué)習(xí)方法。

論文摘要:

基于表面的測(cè)量拓?fù)淅碚摓槟繕?biāo)的語(yǔ)義分析和幾何建模研究提供了強(qiáng)有力的線索。但是,對(duì)于點(diǎn)云數(shù)據(jù)而言,這種關(guān)聯(lián)信息往往會(huì)丟失。因此,本文提出一種 GeoNet 模型,這是第一個(gè)用于模擬點(diǎn)云數(shù)據(jù)表面結(jié)構(gòu)的深度學(xué)習(xí)方法。此外,為了證明模型所學(xué)習(xí)的信息表示的適用性,本文進(jìn)一步提出了一種融合方案,用于將 GeoNet 網(wǎng)絡(luò)與其他基線或骨干網(wǎng)絡(luò) (如 PU-Net 和 PointNet ++) 結(jié)合使用,用于點(diǎn)云數(shù)據(jù)的 down-stream 分析。大量的實(shí)驗(yàn)結(jié)果表明,所提出的方法能夠在多個(gè)代表性的任務(wù) (這些任務(wù)受益于底層的表面拓?fù)湫畔⒌睦斫? 上改進(jìn)當(dāng)前最先進(jìn)方法的性能,包括點(diǎn)上采樣,正常估計(jì),網(wǎng)格重建和非剛性形狀分類等。

室外場(chǎng)景深度估計(jì)

13、《DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image》:這篇論文提出的深度學(xué)習(xí)架構(gòu)——DeepLiDAR 主要應(yīng)用與單色圖像和稀疏深度圖像的室外場(chǎng)景深度估計(jì),實(shí)現(xiàn)端到端的圖像密集深度估計(jì)。

論文摘要:

本文提出一種深度學(xué)習(xí)架構(gòu),用于為單色圖像和稀疏深度圖像中室外場(chǎng)景生成精確的密集深度估計(jì)。受室內(nèi)場(chǎng)景深度估計(jì)方法的啟發(fā),所提出的網(wǎng)絡(luò)將曲面法線估計(jì)作為一種中間表示,實(shí)現(xiàn)端到端的圖像密集深度估計(jì)。具體來(lái)說(shuō),通過(guò)改進(jìn)的編解碼器結(jié)構(gòu),網(wǎng)絡(luò)能夠有效地融合密集的單色圖像和稀疏 LiDAR 數(shù)據(jù)的深度。為了解決室外場(chǎng)景的特定挑戰(zhàn),該網(wǎng)絡(luò)還預(yù)測(cè)了一個(gè)置信掩模 (confidence mask),用于處理由于遮擋而出現(xiàn)在前景邊界附近的混合 LiDAR 數(shù)據(jù)信號(hào),并將單色圖像和曲面法線的估計(jì)結(jié)果與所學(xué)習(xí)的注意力映射圖相結(jié)合,以便提高深度估計(jì)的精度,這對(duì)于遠(yuǎn)距離的區(qū)域而言尤其重要。通過(guò)大量的實(shí)驗(yàn)評(píng)估,結(jié)果表明所提出的模型能夠改進(jìn)了 KITTI 數(shù)據(jù)集深度估計(jì)任務(wù)上最先進(jìn)方法的性能。此外,通過(guò)消融研究進(jìn)一步分析模型每個(gè)組件對(duì)最終估計(jì)性能的影響,結(jié)果表明模型具有良好的泛化能力和應(yīng)用前景,能夠推廣到稀疏度更高的室外或室內(nèi)場(chǎng)景。

緊湊、有效的深度學(xué)習(xí)模型

14、《C3AE: Exploring the Limits of Compact Model for Age Estimation》:全年曠視的論文中提出了 ShuffleNets 網(wǎng)絡(luò),一種可應(yīng)用與移動(dòng)端的輕量級(jí)模型,但是在減少參數(shù)數(shù)量的情況下,模型的表達(dá)能力肯定會(huì)受削弱影響。因此,在今年曠視的這篇論文中提出了這個(gè)緊湊而有效的深度學(xué)習(xí)模型——C3AE,一種基于級(jí)聯(lián)上下文信息的模型用于年齡估計(jì)問(wèn)題。

論文摘要:

年齡估計(jì)是計(jì)算機(jī)視覺(jué)中一個(gè)經(jīng)典的學(xué)習(xí)問(wèn)題。諸如 AlexNet,VggNet,GoogLeNet 和 ResNet 等更大更深的 CNN 模型已經(jīng)能夠取得很好的性能。然而,這些模型無(wú)法應(yīng)用于嵌入式/移動(dòng)設(shè)備。最近所提出的 MobileNets 和 ShuffleNets 網(wǎng)絡(luò)主要是通過(guò)減少參數(shù)的數(shù)量來(lái)實(shí)現(xiàn)輕量級(jí)模型,以便應(yīng)用于移動(dòng)端設(shè)備。然而,由于采用了深度可分的卷積,這些模型的表達(dá)能力被嚴(yán)重削弱。因此,針對(duì)這些問(wèn)題,本文研究緊湊模型在小尺度圖像方面的局限性,并提出一種基于級(jí)聯(lián)上下文信息的年齡估計(jì)模型 C3AE,這是一種極其緊湊而有效深度學(xué)習(xí)模型。與 MobileNets/ShuffleNets 和 VggNet 等模型相比,C3AE 模型僅具有1/9和1/2000參數(shù),同時(shí)實(shí)現(xiàn)了與其相當(dāng)?shù)男阅?。特別是,通過(guò)級(jí)聯(lián)模型能夠只使用兩點(diǎn)表征的信息來(lái)重新定義年齡估計(jì)問(wèn)題。此外,為了充分利用人臉上下文信息,本文還提出了多分支的 CNN 網(wǎng)絡(luò)來(lái)聚合多尺度上下文信息。C3AE 模型在三個(gè)年齡估計(jì)數(shù)據(jù)集上取得了遠(yuǎn)超當(dāng)前最先進(jìn)方法的性能表現(xiàn),并證明這種緊湊模型的優(yōu)越性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100713
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4607

    瀏覽量

    92829
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1083

    瀏覽量

    40449

原文標(biāo)題:首發(fā) | 曠視14篇CVPR 2019論文,都有哪些亮點(diǎn)?

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?224次閱讀

    邦Watch Ultra真機(jī)上市丨金戈鐵馬,腕上小手機(jī),超乎所見(jiàn)!

    11月21日消息,邦 正式公布新配色“金戈鐵馬”的 Watch Ultra 真機(jī)。 色彩還原真實(shí),瞬間感、臨場(chǎng)感新升級(jí),強(qiáng)大的Watch Ultra實(shí)至名歸。 邦 Watch Ultra,超乎
    的頭像 發(fā)表于 11-21 11:48 ?128次閱讀

    重慶兩江新區(qū)與吉利汽車(chē)集團(tuán)、科技簽署合作協(xié)議

    日前,重慶兩江新區(qū)與吉利汽車(chē)集團(tuán)、科技簽署戰(zhàn)略合作協(xié)議。市委書(shū)記袁家軍,市委副書(shū)記、市長(zhǎng)胡衡華會(huì)見(jiàn)了吉利控股集團(tuán)董事長(zhǎng)李書(shū)福、科技董事長(zhǎng)兼CEO印奇一行并見(jiàn)證簽約。
    的頭像 發(fā)表于 09-02 14:13 ?491次閱讀

    地平線科研論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

    近日,地平線兩論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024,自動(dòng)駕駛算法技術(shù)再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?910次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

    聚焦物聯(lián)網(wǎng)場(chǎng)景,科技核心技術(shù)能力持續(xù)升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)最近,上交所顯示,科技有限公司已更新提交相關(guān)財(cái)務(wù)資料。該公司早在2021年3月12日上市申請(qǐng)就獲受理,同年9月9日通過(guò)上市委會(huì)議,2021年9月30日提交注冊(cè)。作為
    的頭像 發(fā)表于 07-25 00:09 ?4142次閱讀

    亮相第五屆民航未來(lái)機(jī)場(chǎng)高峰論壇,展示智慧民航領(lǐng)域的應(yīng)用成果

    大會(huì)不僅是民航業(yè)的一次盛會(huì),更是展示最新科技成果、深化交流合作的重要平臺(tái)。在此次大會(huì)上的亮相,受到了業(yè)界的廣泛關(guān)注。
    的頭像 發(fā)表于 07-23 09:43 ?501次閱讀
    <b class='flag-5'>曠</b><b class='flag-5'>視</b>亮相第五屆民航未來(lái)機(jī)場(chǎng)高峰論壇,展示智慧民航領(lǐng)域的應(yīng)用成果

    谷歌DeepMind被曝抄襲開(kāi)源成果,論文還中了頂流會(huì)議

    谷歌DeepMind一中了頂流新生代會(huì)議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項(xiàng)研究。開(kāi)源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?572次閱讀
    谷歌DeepMind被曝抄襲開(kāi)源成果,<b class='flag-5'>論文</b>還中了頂流會(huì)議

    OpenCV攜Orbbec 3D相機(jī)亮相CVPR 2024,加速AI視覺(jué)創(chuàng)新

    在科技發(fā)展的浪潮中,一年一度的IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)無(wú)疑是視覺(jué)技術(shù)領(lǐng)域的一大盛事。今年的CVPR 2024于6月17日至21日在美國(guó)西雅圖盛大舉行,吸引了全球超過(guò)1.2萬(wàn)名參會(huì)者,這一數(shù)字打破了歷史記錄,讓此次盛會(huì)成為了“史上最火爆的
    的頭像 發(fā)表于 06-21 10:15 ?608次閱讀

    和普威低空安全防御系統(tǒng)

    和普威先進(jìn)的集探、偵、控、擾、誘、捕于一體的反無(wú)人機(jī)自動(dòng)防御系統(tǒng),可全天、時(shí)、維有效保障重點(diǎn)區(qū)域的低空安全。
    的頭像 發(fā)表于 06-07 14:23 ?597次閱讀
    和普威<b class='flag-5'>視</b>低空安全防御系統(tǒng)

    LOTO示波器軟件新增導(dǎo)功能

    是不熟練的客戶可能記不住各種功能的標(biāo)簽位置在哪里,反而變得不快捷。為了適應(yīng)大部分初學(xué)者客戶的操作習(xí)慣,我們?cè)谛掳姹镜纳衔粰C(jī)軟件上改變了顯示方式,將所有功能分類整理,用導(dǎo)的方式展示,這樣更方便不熟悉
    發(fā)表于 05-28 10:32

    智能攜棧智能駕駛產(chǎn)品亮相2024北京國(guó)際汽車(chē)展覽會(huì)

    在2024北京國(guó)際汽車(chē)展覽會(huì)現(xiàn)場(chǎng),魔智能MOTOVIS乘用車(chē)、商用車(chē)棧智能駕駛產(chǎn)品和量產(chǎn)落地成果精彩亮相,覆蓋行車(chē)、泊車(chē)、行泊一體、商用車(chē)ADAS等領(lǐng)域的多款量產(chǎn)產(chǎn)品集中展出。
    的頭像 發(fā)表于 05-06 11:29 ?1614次閱讀

    與樂(lè)天國(guó)際物流在北京正式簽署戰(zhàn)略合作協(xié)議

    4月17日,與韓國(guó)樂(lè)天國(guó)際物流(LOTTE GLOBAL LOGISTICS)在北京正式簽署戰(zhàn)略合作協(xié)議。
    的頭像 發(fā)表于 04-23 11:52 ?547次閱讀
    <b class='flag-5'>曠</b><b class='flag-5'>視</b>與樂(lè)天國(guó)際物流在北京正式簽署戰(zhàn)略合作協(xié)議

    體驗(yàn)滿分的邦Watch Ultra智 能手表實(shí)測(cè):通話、健康監(jiān)測(cè)給到!?

    智能手表作為一種高新技術(shù)產(chǎn)品,越來(lái)越受到白領(lǐng)、健康人士和運(yùn)動(dòng)愛(ài)好者的青睞。它不僅讓生活更加便利,還能管理健康,可謂是兩其美。 正是出于這些考慮,我早早就開(kāi)始使用智能手表,為緊跟科技發(fā)展腳步,最近我
    的頭像 發(fā)表于 04-10 10:24 ?424次閱讀
    體驗(yàn)滿分的<b class='flag-5'>覽</b>邦Watch Ultra智 能手表實(shí)測(cè):通話、健康監(jiān)測(cè)<b class='flag-5'>全</b>給到!?

    科技與上海家化正式簽署《AI科技創(chuàng)新合作框架協(xié)議》

    3月18日,在2024年上海家化“致美·致時(shí)代”年度發(fā)布會(huì)上,上海家化聯(lián)合股份有限公司與北京科技有限公司正式簽署《AI科技創(chuàng)新合作框架協(xié)議》,雙方將在AI賦能美業(yè)領(lǐng)域進(jìn)一步展開(kāi)深度合作,以AI科技推動(dòng)中國(guó)美業(yè)和日化行業(yè)邁入數(shù)智化升級(jí)的全新階段。
    的頭像 發(fā)表于 03-20 10:21 ?578次閱讀

    Nullmax提出多相機(jī)3D目標(biāo)檢測(cè)新方法QAF2D

    今天上午,計(jì)算機(jī)視覺(jué)領(lǐng)域頂會(huì)CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門(mén)的3D目標(biāo)檢測(cè)研究《Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors》入選
    的頭像 發(fā)表于 02-27 16:38 ?1128次閱讀
    Nullmax提出多相機(jī)3D目標(biāo)檢測(cè)新方法QAF2D
    RM新时代网站-首页