RM新时代平台,RM新时代正规网址|首入球时间

從視頻中估計(jì)3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)是計(jì)算機(jī)視覺(jué)中的一個(gè)關(guān)鍵問(wèn)題，這個(gè)技術(shù)在自動(dòng)駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。今日，谷歌AI與機(jī)器人實(shí)驗(yàn)室聯(lián)合發(fā)布的最新成果：無(wú)需相機(jī)參數(shù)、單目、以無(wú)監(jiān)督學(xué)習(xí)的方式從未標(biāo)記場(chǎng)景視頻中搞定深度圖，效果堪比激光雷達(dá)。

目前自動(dòng)駕駛的核心技術(shù)是LiDAR（激光雷達(dá)），一種運(yùn)用雷達(dá)原理，采用光和激光作為主要傳感器的汽車視覺(jué)系統(tǒng)。LiDAR傳感器賦予了自動(dòng)駕駛汽車能夠看到周邊環(huán)境的“雙眼”，激光雷達(dá)技術(shù)越先進(jìn)，視覺(jué)感知的精準(zhǔn)程度越高，這是自動(dòng)駕駛得以實(shí)現(xiàn)的底層技術(shù)基礎(chǔ)。

但是最近幾年，放在攝像頭上的深度學(xué)習(xí)研究，發(fā)展很蓬勃。相比之下，雖然激光雷達(dá) (LiDAR)的數(shù)據(jù)有諸多優(yōu)點(diǎn)，但相關(guān)學(xué)術(shù)進(jìn)展并不太多。相機(jī)+數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)的組合，正在迅速縮小與LiDAR的能力差距。

無(wú)需相機(jī)參數(shù)、單目、以無(wú)監(jiān)督學(xué)習(xí)的方式從未標(biāo)記場(chǎng)景視頻中搞定深度圖！

這是谷歌AI與機(jī)器人實(shí)驗(yàn)室聯(lián)合發(fā)布的最新研究結(jié)果，效果可媲美LiDAR。

什么是深度圖？

深度圖像（depth image)也被稱為距離影像（range image），由相機(jī)拍攝，是指將從圖像采集器到場(chǎng)景中各點(diǎn)的距離（深度）作為像素值的圖像，它直接反映了景物可見(jiàn)表面的幾何形狀。單位為mm，效果參考下圖：

在場(chǎng)景視頻景深學(xué)習(xí)領(lǐng)域，谷歌AI和機(jī)器人實(shí)驗(yàn)室聯(lián)合公布了三項(xiàng)最新研究突破：

第一，證明了可以以一種無(wú)監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò)，這個(gè)深度網(wǎng)絡(luò)可以從視頻本身預(yù)測(cè)相機(jī)的內(nèi)在參數(shù)，包括鏡頭失真（見(jiàn)圖1）。

第二，在這種情況下，他們是第一個(gè)以幾何方式從預(yù)測(cè)深度直接解決遮擋的問(wèn)題。

第三，大大減少了處理場(chǎng)景中移動(dòng)元素所需的語(yǔ)義理解量：只需要一個(gè)覆蓋可能屬于移動(dòng)對(duì)象的像素的單個(gè)掩碼，而不是分割移動(dòng)對(duì)象的每個(gè)實(shí)例并跨幀跟蹤它。

圖1：從未知來(lái)源的視頻中學(xué)習(xí)深度的方法的定性結(jié)果，通過(guò)同時(shí)學(xué)習(xí)相機(jī)的外在和內(nèi)在參數(shù)來(lái)實(shí)現(xiàn)。由于該方法不需要知道相機(jī)參數(shù)，因此它可以應(yīng)用于任何視頻集。所有深度圖（在右側(cè)可視化，作為差異）都是從原始視頻中學(xué)習(xí)而不使用任何相機(jī)內(nèi)在函數(shù)。從上到下：來(lái)自YouTube8M的幀，來(lái)自EuRoC MAV數(shù)據(jù)集，來(lái)自Cityscapes和來(lái)自KITTI的幀。

推特網(wǎng)友對(duì)此不吝贊美：“這是我見(jiàn)過(guò)的最令人印象深刻的無(wú)監(jiān)督結(jié)果之一。來(lái)自未標(biāo)記視頻的深度圖對(duì)于自動(dòng)駕駛非常有用:)“

以下是論文具體內(nèi)容：

從視頻中估計(jì)3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)是計(jì)算機(jī)視覺(jué)中的一個(gè)關(guān)鍵問(wèn)題，這個(gè)技術(shù)在自動(dòng)駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。

解決該問(wèn)題的傳統(tǒng)方法依賴于在多個(gè)連續(xù)幀中識(shí)別場(chǎng)景中的相同點(diǎn)，并求解在這些幀上最大程度一致的3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)。

但是，幀之間的這種對(duì)應(yīng)關(guān)系只能針對(duì)所有像素的子集建立，這導(dǎo)致了深度估計(jì)不確定的問(wèn)題。與通常處理逆問(wèn)題一樣，這些缺口是由連續(xù)性和平面性等假設(shè)填充的。

深度學(xué)習(xí)能夠從數(shù)據(jù)中獲得這些假設(shè)，而不是手工指定這些假設(shè)。在信息不足以解決模糊性的地方，深度網(wǎng)絡(luò)可以通過(guò)對(duì)先前示例進(jìn)行歸納，以生成深度圖和流場(chǎng)。

無(wú)監(jiān)督方法允許單獨(dú)從原始視頻中學(xué)習(xí)，使用與傳統(tǒng)方法類似的一致性損失，但在訓(xùn)練期間對(duì)其進(jìn)行優(yōu)化。在推論中，經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)能夠預(yù)測(cè)來(lái)自單個(gè)圖像的深度以及來(lái)自成對(duì)或更長(zhǎng)圖像序列的運(yùn)動(dòng)。

隨著對(duì)這個(gè)方向的研究越來(lái)越有吸引力，很明顯，物體運(yùn)動(dòng)是一個(gè)主要障礙，因?yàn)樗`反了場(chǎng)景是靜態(tài)的假設(shè)。已經(jīng)提出了幾個(gè)方向來(lái)解決該問(wèn)題，包括通過(guò)實(shí)例分割利用對(duì)場(chǎng)景的語(yǔ)義理解。

遮擋是另一個(gè)限制因素，最后，在此方向的所有先前工作中，必須給出相機(jī)的內(nèi)在參數(shù)。這項(xiàng)工作解決了這些問(wèn)題，因此減少了監(jiān)督，提高了未標(biāo)記視頻的深度和運(yùn)動(dòng)預(yù)測(cè)質(zhì)量。

首先，我們證明了可以以一種無(wú)監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò)，這個(gè)深度網(wǎng)絡(luò)從視頻本身預(yù)測(cè)相機(jī)的內(nèi)在參數(shù)，包括鏡頭失真（見(jiàn)圖1）。

其次，在這種情況下，我們是第一個(gè)以幾何方式從預(yù)測(cè)深度直接解決遮擋的問(wèn)題。

最后，我們大大減少了處理場(chǎng)景中移動(dòng)元素所需的語(yǔ)義理解量：我們需要一個(gè)覆蓋可能屬于移動(dòng)對(duì)象的像素的單個(gè)掩碼，而不是分割移動(dòng)對(duì)象的每個(gè)實(shí)例并跨幀跟蹤它。

這個(gè)掩?？赡芊浅４植?，實(shí)際上可以是矩形邊界框的組合。獲得這樣的粗糙掩模是一個(gè)簡(jiǎn)單得多的問(wèn)題，而且與實(shí)例分割相比，使用現(xiàn)有的模型可以更可靠地解決這個(gè)問(wèn)題。

除了這些定性進(jìn)展之外，我們還對(duì)我們的方法進(jìn)行了廣泛的定量評(píng)估，并發(fā)現(xiàn)它在多個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了新的技術(shù)水平。將數(shù)據(jù)集匯集在一起，這種能力通過(guò)我們的方法得到了極大的提升，證明可以提高質(zhì)量。

表1：總結(jié)了在KITTI上訓(xùn)練的模型和評(píng)估結(jié)果，使用給定相機(jī)內(nèi)建和學(xué)習(xí)相機(jī)內(nèi)建兩種方式來(lái)評(píng)估我們方法的深度估計(jì)，結(jié)果顯而易見(jiàn)，我們獲得了當(dāng)前最佳SOTA。

表2：總結(jié)了在Cityscapes上訓(xùn)練和測(cè)試的模型的評(píng)估結(jié)果，我們的方法優(yōu)于以前的方法，并從學(xué)習(xí)的內(nèi)建中獲益。

表3：深度估計(jì)的消融實(shí)驗(yàn)。在所有實(shí)驗(yàn)中，訓(xùn)練集是Cityscapes（CS）和KITTI組合，我們分別在Cityscapes（CS）和KITTI（Eigen partition）上測(cè)試模型。每行代表一個(gè)實(shí)驗(yàn)，其中與主方法相比進(jìn)行了一次更改，如“實(shí)驗(yàn)”行中所述。數(shù)字越小越好。

除了這些定性的進(jìn)步，我們對(duì)我們的方法進(jìn)行了廣泛的定量評(píng)估，發(fā)現(xiàn)它在多個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了一個(gè)新的技術(shù)狀態(tài)。將數(shù)據(jù)集集中在一起，這種方法大大提高了數(shù)據(jù)集的質(zhì)量。

最后，我們首次演示了可以在YouTube視頻上學(xué)習(xí)深度和相機(jī)內(nèi)在預(yù)測(cè)，這些視頻是使用多個(gè)不同的相機(jī)拍攝的，每個(gè)相機(jī)的內(nèi)建都是未知的，而且通常是不同的。

來(lái)自YouTube8M收集的圖像和學(xué)習(xí)的視差圖。

論文摘要

《場(chǎng)景視頻景深學(xué)習(xí)——非特定相機(jī)單眼圖片景深無(wú)監(jiān)督學(xué)習(xí)》

我們提出了一種新穎的方法，僅使用相鄰視頻幀的一致性作為監(jiān)督信號(hào)，用于同時(shí)學(xué)習(xí)單眼視頻的深度，運(yùn)動(dòng)，物體運(yùn)動(dòng)和相機(jī)內(nèi)建。與先前的工作類似，我們的方法通過(guò)將可微變形應(yīng)用于幀，并將結(jié)果與相鄰結(jié)果進(jìn)行比較來(lái)學(xué)習(xí)，但它提供了若干改進(jìn)：我們直接使用在訓(xùn)練期間預(yù)測(cè)的深度圖，以幾何和可微的方式處理遮擋。我們介紹了隨機(jī)層標(biāo)準(zhǔn)化，一種新穎的強(qiáng)大正則化器，并考慮了目標(biāo)相對(duì)于場(chǎng)景的運(yùn)動(dòng)。據(jù)我們所知，我們的工作是第一個(gè)以無(wú)監(jiān)督的方式從視頻中學(xué)習(xí)相機(jī)固有參數(shù)（包括鏡頭失真）的工作，從而使我們能夠從規(guī)模未知原點(diǎn)的任意視頻中提取準(zhǔn)確的深度圖和運(yùn)動(dòng)信息。

我們?cè)贑ityscapes，KITTI和EuRoC數(shù)據(jù)集上評(píng)估我們的結(jié)果，建立深度預(yù)測(cè)和測(cè)距的新技術(shù)水平，并定性地證明，深度預(yù)測(cè)可以從YouTube上的一系列視頻中學(xué)到。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2550

文章
51035

瀏覽量
753072
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6161

瀏覽量
105300
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
784

文章
13784

瀏覽量
166384

原文標(biāo)題：谷歌AI：根據(jù)視頻生成深度圖，效果堪比激光雷達(dá)

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

谷歌公布機(jī)器人研究細(xì)節(jié) 軟件如何支持機(jī)器人互相學(xué)習(xí)？

據(jù)AFR報(bào)道，谷歌本周公布了機(jī)器人研究細(xì)節(jié)，詳細(xì)介紹其軟件如何支持機(jī)器人互相學(xué)習(xí)。為了證明其技術(shù)，谷歌科學(xué)家展示了視頻，顯示

發(fā)表于 10-09 14:05 ?1234次閱讀

代替人類完成危險(xiǎn)性較大實(shí)驗(yàn)的雙臂機(jī)器人——Mahoro

` 由日本自電機(jī)巨頭安川株式會(huì)社和日本國(guó)立先進(jìn)工業(yè)技術(shù)（AIST）研發(fā)一款機(jī)器人Mahoro。它可以代替人類成為實(shí)驗(yàn)室的操作人員。不像以往的機(jī)器人，Mahoro擁有7個(gè)關(guān)節(jié)，這樣可以讓它像人類那樣

發(fā)表于 01-22 14:42

如何建設(shè)機(jī)器人實(shí)驗(yàn)室？

歡迎大家提供一些機(jī)器人實(shí)驗(yàn)室建設(shè)的建議，比如硬件設(shè)備、軟件、元器件和常用工具的需求。有清單更好。多謝！

發(fā)表于 03-01 09:19

LabVIEW 的Tripod 機(jī)器人視覺(jué)處理和定位研究

為對(duì)幾何體的識(shí)別和抓放過(guò)程?利用邊緣提取、濾波去噪、圓心檢測(cè)等算法采用ＬａｂＶＩＥＷ視覺(jué)模塊及其庫(kù)函數(shù)進(jìn)行了圖像的預(yù)處理、特征提取以及中心點(diǎn)定位?研究結(jié)果表明基于ＬａｂＶＩＥＷ的Ｔｒｉｐｏｄ機(jī)器人系統(tǒng)能夠準(zhǔn)確識(shí)別平臺(tái)幾何體的顏色和形狀可

發(fā)表于 06-01 06:00

【HarmonyOS HiSpark AI Camera】基于Hi3516DV300的機(jī)器人集群系統(tǒng)

項(xiàng)目名稱：基于Hi3516DV300的機(jī)器人集群系統(tǒng)試用計(jì)劃：申請(qǐng)理由本人所在實(shí)驗(yàn)室為重慶大學(xué)機(jī)器人協(xié)同創(chuàng)新實(shí)驗(yàn)室，一直開(kāi)展機(jī)器人領(lǐng)域相關(guān)

發(fā)表于 10-29 14:20

機(jī)器人視覺(jué)系統(tǒng)研究

視覺(jué)系統(tǒng)成為研究的新課題。1965年， Stanford建立機(jī)器人實(shí)驗(yàn)室開(kāi)始研究機(jī)器人。機(jī)器人的

發(fā)表于 09-07 08:37

基于DSP和FPGA的四關(guān)節(jié)實(shí)驗(yàn)室機(jī)器人控制器的研制

在機(jī)器人學(xué)的研究領(lǐng)域中，如何有效地提高機(jī)器人控制系統(tǒng)的控制性能始終是研究學(xué)者十分關(guān)注的一個(gè)重要內(nèi)容。在分析了工業(yè)機(jī)器人的發(fā)展歷程和

發(fā)表于 09-01 11:25 ?11次下載

英特爾攜手今日頭條成立技術(shù)創(chuàng)新聯(lián)合實(shí)驗(yàn)室

近日，英特爾公司聯(lián)合今日頭條在北京召開(kāi)了以“數(shù)據(jù)賦能AI正當(dāng)時(shí)”為主題聯(lián)合發(fā)布會(huì)，雙方宣布成立技術(shù)創(chuàng)新聯(lián)合實(shí)驗(yàn)室。

發(fā)表于 08-24 15:50 ?3304次閱讀

NVIDIA在西雅圖開(kāi)設(shè)機(jī)器人研究實(shí)驗(yàn)室，聚集跨學(xué)科研究團(tuán)隊(duì)

NVIDIA今天在西雅圖開(kāi)設(shè)了機(jī)器人研究實(shí)驗(yàn)室，該實(shí)驗(yàn)室將容納50名機(jī)器人專家、20名來(lái)自NVIDIA的

發(fā)表于 01-13 09:51 ?670次閱讀

英偉達(dá)機(jī)器人實(shí)驗(yàn)室專注于廚房輔助機(jī)器人等10多個(gè)項(xiàng)目

最近，計(jì)算機(jī)顯卡霸主“英偉達(dá)”在西雅圖開(kāi)設(shè)了一個(gè)機(jī)器人實(shí)驗(yàn)室，后者將容納50名機(jī)器人專家、20名英偉達(dá)研究員以及其他更廣泛的學(xué)術(shù)研究團(tuán)體。

發(fā)表于 01-14 15:38 ?2510次閱讀

香港高校與小i機(jī)器人共建“機(jī)器學(xué)習(xí)和認(rèn)知推理聯(lián)合實(shí)驗(yàn)室”

3月25日，香港科技大學(xué)聯(lián)合小i機(jī)器人共同成立的“機(jī)器學(xué)習(xí)和認(rèn)知推理聯(lián)合實(shí)驗(yàn)室”舉辦揭幕儀式，香港科技大學(xué)副校長(zhǎng)葉玉如教授、工學(xué)院院長(zhǎng)鄭光廷

發(fā)表于 03-26 13:32 ?675次閱讀

機(jī)械工業(yè)機(jī)器人試驗(yàn)驗(yàn)證技術(shù)重點(diǎn)實(shí)驗(yàn)室順利通過(guò)驗(yàn)收

機(jī)械工業(yè)機(jī)器人試驗(yàn)驗(yàn)證技術(shù)重點(diǎn)實(shí)驗(yàn)室是中國(guó)機(jī)械工業(yè)聯(lián)合會(huì)于2016年8月批準(zhǔn)建設(shè)的第六批機(jī)械工業(yè)重點(diǎn)實(shí)驗(yàn)室之一。

發(fā)表于 11-25 14:23 ?3117次閱讀

NVIDIA西雅圖機(jī)器人技術(shù)研究實(shí)驗(yàn)室負(fù)責(zé)人是誰(shuí)？

Fox是公司機(jī)器人研究高級(jí)主管、NVIDIA西雅圖機(jī)器人技術(shù)研究實(shí)驗(yàn)室負(fù)責(zé)人，同時(shí)在華盛頓大學(xué)的保羅·艾倫計(jì)算機(jī)科學(xué)與工程學(xué)院（UW Rob

發(fā)表于 06-09 16:05 ?2354次閱讀

IBM推新型工業(yè)化學(xué)實(shí)驗(yàn)室機(jī)器人，可遠(yuǎn)程訪問(wèn)實(shí)驗(yàn)室

IBM已經(jīng)推出了一種名為RoboRXN的新型工業(yè)化學(xué)實(shí)驗(yàn)室機(jī)器人，稱其為“第一個(gè)可遠(yuǎn)程訪問(wèn)的自治化學(xué)實(shí)驗(yàn)室”。

發(fā)表于 09-08 09:56 ?2660次閱讀

晶泰科技攜手ABB機(jī)器人打造柔性智能自動(dòng)化的實(shí)驗(yàn)室

晶泰科技與ABB機(jī)器人聯(lián)合打造柔性自動(dòng)化、智能化的未來(lái)實(shí)驗(yàn)室，讓自動(dòng)化設(shè)備成為科研人的手中利器，成為突破各科研領(lǐng)域效率瓶頸的日常工具。

發(fā)表于 01-19 16:49 ?1166次閱讀

RM新时代网站-首页

搜索歷史

谷歌AI與機(jī)器人實(shí)驗(yàn)室聯(lián)合發(fā)布的最新研究結(jié)果，效果可媲美LiDAR

評(píng)論

谷歌公布機(jī)器人研究細(xì)節(jié) 軟件如何支持機(jī)器人互相學(xué)習(xí)？

代替人類完成危險(xiǎn)性較大實(shí)驗(yàn)的雙臂機(jī)器人——Mahoro

如何建設(shè)機(jī)器人實(shí)驗(yàn)室？

LabVIEW 的Tripod 機(jī)器人視覺(jué)處理和定位研究

【HarmonyOS HiSpark AI Camera】基于Hi3516DV300的機(jī)器人集群系統(tǒng)

機(jī)器人視覺(jué)系統(tǒng)研究

基于DSP和FPGA的四關(guān)節(jié)實(shí)驗(yàn)室機(jī)器人控制器的研制

英特爾攜手今日頭條成立技術(shù)創(chuàng)新聯(lián)合實(shí)驗(yàn)室

NVIDIA在西雅圖開(kāi)設(shè)機(jī)器人研究實(shí)驗(yàn)室，聚集跨學(xué)科研究團(tuán)隊(duì)

英偉達(dá)機(jī)器人實(shí)驗(yàn)室專注于廚房輔助機(jī)器人等10多個(gè)項(xiàng)目

香港高校與小i機(jī)器人共建“機(jī)器學(xué)習(xí)和認(rèn)知推理聯(lián)合實(shí)驗(yàn)室”

機(jī)械工業(yè)機(jī)器人試驗(yàn)驗(yàn)證技術(shù)重點(diǎn)實(shí)驗(yàn)室順利通過(guò)驗(yàn)收

NVIDIA西雅圖機(jī)器人技術(shù)研究實(shí)驗(yàn)室負(fù)責(zé)人是誰(shuí)？

IBM推新型工業(yè)化學(xué)實(shí)驗(yàn)室機(jī)器人，可遠(yuǎn)程訪問(wèn)實(shí)驗(yàn)室

晶泰科技攜手ABB機(jī)器人打造柔性智能自動(dòng)化的實(shí)驗(yàn)室

搜索歷史

谷歌AI與機(jī)器人實(shí)驗(yàn)室聯(lián)合發(fā)布的最新研究結(jié)果，效果可媲美LiDAR

評(píng)論

谷歌AI與機(jī)器人實(shí)驗(yàn)室聯(lián)合發(fā)布的最新研究結(jié)果，效果可媲美LiDAR