在一年一度的 AI 城市挑戰(zhàn)賽中,來自世界各地的數(shù)百支參賽隊(duì)伍在 NVIDIA Omniverse 生成的基于物理學(xué)的數(shù)據(jù)集上測試了他們的 AI 模型。
NVIDIA 為國際計(jì)算機(jī)視覺與模式識別會議(CVPR)中的年度 AI 城市挑戰(zhàn)賽提供了有史以來最大的室內(nèi)合成數(shù)據(jù)集,幫助研究人員和開發(fā)者推進(jìn)智慧城市和工業(yè)自動化解決方案的開發(fā)工作。
這項(xiàng)挑戰(zhàn)賽吸引了來自近 50 個(gè)國家的 700 多支隊(duì)伍參賽,參賽者的任務(wù)是開發(fā) AI模型,以提高物理環(huán)境(如零售和倉庫環(huán)境)和智能交通系統(tǒng)的運(yùn)營效率。
參賽隊(duì)伍在由NVIDIA Omniverse生成的數(shù)據(jù)集上測試了模型。NVIDIA Omniverse 是一個(gè)由應(yīng)用編程接口(API)和軟件開發(fā)套件(SDK)組成的平臺,能夠幫助開發(fā)者構(gòu)建基于通用場景描述(OpenUSD)的應(yīng)用和工作流。
創(chuàng)建和仿真
大型空間的數(shù)字孿生
工廠、倉庫等大型室內(nèi)空間每天都會有源源不斷的人員和小型車輛,并且在未來還將出現(xiàn)自主機(jī)器人。開發(fā)者需要那些能夠在復(fù)雜的大型環(huán)境中觀測活動、提高運(yùn)營效率,并把人員安全放在第一位的解決方案。
研究人員正在使用能夠感知和理解物理世界的計(jì)算機(jī)視覺模型來滿足這一需求。該方法適用于多攝像頭追蹤等應(yīng)用,其可以在特定環(huán)境中由一個(gè)模型追蹤多個(gè)實(shí)體。
為了確保準(zhǔn)確性,模型必須針對各種現(xiàn)實(shí)場景,在大型真實(shí)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,但這些數(shù)據(jù)的采集過程可能十分困難、耗時(shí)且成本高昂。
因此,AI 研究人員開始使用基于物理學(xué)的仿真(例如物理世界的數(shù)字孿生等),來加強(qiáng) AI 仿真和訓(xùn)練。此類虛擬環(huán)境有助于生成用于訓(xùn)練 AI 模型的合成數(shù)據(jù),同時(shí),仿真也是一種既能在安全環(huán)境中運(yùn)行多種“假設(shè)”場景,又能解決隱私和 AI 偏見問題的方式。
創(chuàng)建合成數(shù)據(jù)能夠獲得大量可擴(kuò)展和可擴(kuò)充的數(shù)據(jù),這對于 AI 訓(xùn)練十分重要。團(tuán)隊(duì)可以改變照明、物體位置、紋理、顏色等諸多參數(shù),來生成一個(gè)多樣化的訓(xùn)練數(shù)據(jù)集。
為 AI 城市挑戰(zhàn)賽
構(gòu)建合成數(shù)據(jù)集
今年的 AI 城市挑戰(zhàn)賽由五項(xiàng)計(jì)算機(jī)視覺比賽組成,涵蓋了交通管理、工作者安全等領(lǐng)域。
NVIDIA 為第一項(xiàng)比賽——“多攝像頭人員追蹤”提供了數(shù)據(jù)集。這項(xiàng)比賽的參與度最高,共有 400 多個(gè)隊(duì)伍參賽。賽事使用了一個(gè)基準(zhǔn)數(shù)據(jù)集和一個(gè)同類中最大的室內(nèi)合成數(shù)據(jù)集(包含 212 小時(shí)每秒 30 幀的 1080p 視頻,涵蓋 6 個(gè)虛擬環(huán)境中的 90 個(gè)場景,這些場景包括倉庫、零售店和醫(yī)院等)。
這些場景均在 Omniverse 中創(chuàng)建而成,仿真了近 1000 臺攝像機(jī),并使用了約 2500 個(gè)數(shù)字人角色。這項(xiàng)比賽還讓研究人員了解到如何根據(jù)所需要的結(jié)果來生成適當(dāng)大小和保真度的數(shù)據(jù)。
這些基準(zhǔn)數(shù)據(jù)使用NVIDIA Isaac Sim中的Omniverse Replicator創(chuàng)建而成。NVIDIA Isaac Sim 是一款參考應(yīng)用,借助它,開發(fā)者能夠在基于 NVIDIA Omniverse 構(gòu)建的物理仿真環(huán)境中設(shè)計(jì)、仿真和訓(xùn)練適用于機(jī)器人、智能空間或自主機(jī)器的 AI。
Omniverse Replicator 是一個(gè)用于構(gòu)建合成數(shù)據(jù)生成管線的 SDK,它能夠自動完成高質(zhì)量合成數(shù)據(jù)生成所涉及的許多手動任務(wù),包括域隨機(jī)化、攝像頭放置和校準(zhǔn)、角色移動、數(shù)據(jù)語義標(biāo)注以及基準(zhǔn)測試的基準(zhǔn)事實(shí)等。共有十家機(jī)構(gòu)和組織在本屆 AI 城市挑戰(zhàn)賽中與 NVIDIA 合作:
澳大利亞國立大學(xué)(澳大利亞)
阿聯(lián)酋移動研究中心(阿聯(lián)酋)
印度理工學(xué)院坎普爾分校(印度)
愛荷華州立大學(xué)(美國)
約翰霍普金斯大學(xué)(美國)
國立陽明交通大學(xué)(中國臺灣)
圣塔克拉拉大學(xué)(美國)
阿聯(lián)酋大學(xué)(阿聯(lián)酋)
紐約州立大學(xué)奧爾巴尼分校(美國)
Woven by Toyota(日本)
推動生成式物理 AI 的未來
世界各地的研究人員和企業(yè)正在開發(fā)由物理 AI 賦能的基礎(chǔ)設(shè)施自動化系統(tǒng)與機(jī)器人,這些模型能夠理解指令,并在現(xiàn)實(shí)世界中自主執(zhí)行復(fù)雜的任務(wù)。
生成式物理 AI 利用強(qiáng)化學(xué)習(xí),在仿真環(huán)境中通過準(zhǔn)確仿真的傳感器來感知世界、按照物理定律執(zhí)行動作,并根據(jù)接收到的反饋推理下一組動作。
開發(fā)者可以使用開發(fā)者 SDK 和 API(例如包含多攝像頭追蹤參考工作流的NVIDIA Metropolis開發(fā)者堆棧等)為工廠、倉庫和零售業(yè)務(wù)添加增強(qiáng)感知功能。最新版本的 NVIDIA Isaac Sim 使開發(fā)者能夠在實(shí)際部署之前,先在基于物理學(xué)的虛擬空間中仿真和訓(xùn)練 AI 機(jī)器人,從而為機(jī)器人工作流提供超強(qiáng)助力。
研究人員和開發(fā)者還將基于物理學(xué)的高保真仿真與先進(jìn) AI 相結(jié)合,以彌合仿真訓(xùn)練與實(shí)際應(yīng)用之間的差距。這有助于確保合成訓(xùn)練環(huán)境與實(shí)際情況相吻合,從而更無縫地實(shí)現(xiàn)機(jī)器人部署。
NVIDIA 最近發(fā)布的NVIDIAOmniverse Cloud Sensor RTX進(jìn)一步提高了仿真的準(zhǔn)確性和規(guī)模。這套全新的微服務(wù)能夠?qū)崿F(xiàn)物理級精確傳感器仿真,從而加速全自主機(jī)器的開發(fā)工作。
憑借這項(xiàng)技術(shù),工廠、車輛、機(jī)器人等自主系統(tǒng)將能夠采集到有效感知、適應(yīng)現(xiàn)實(shí)世界,并與之交互所必需的數(shù)據(jù)。開發(fā)者可以使用這些微服務(wù),在逼真的虛擬環(huán)境中對傳感器的感知能力進(jìn)行大規(guī)模測試,這將大大減少與現(xiàn)實(shí)世界測試相關(guān)的時(shí)間和成本。
Omniverse Cloud Sensor RTX 微服務(wù)將于今年晚些時(shí)候提供。
展示先進(jìn)的 AI 研究成果
參賽者們?yōu)?AI 城市挑戰(zhàn)賽提交了研究論文,一些論文獲得了最高排名,其中包括:
用于離線多攝像頭人物追蹤的重疊抑制聚類:本文介紹了一種追蹤方法,包括識別單個(gè)攝像頭視圖中的個(gè)體、選擇清晰的圖像以便于識別、對相似外觀進(jìn)行分組,以及在具有挑戰(zhàn)性的情況下幫助辨明身份。
具有幾何一致性和狀態(tài)感知的 Re-ID 校正的強(qiáng)大在線多攝像頭人體追蹤系統(tǒng):這項(xiàng)研究提出了一種使用幾何和外觀數(shù)據(jù)來提高追蹤準(zhǔn)確性的新系統(tǒng),并包括一種調(diào)整識別特征以修正追蹤錯誤的機(jī)制。
增強(qiáng)在線多攝像頭人物追蹤的集群自細(xì)化:這篇研究論文解決了在線追蹤面臨的具體挑戰(zhàn),例如劣質(zhì)數(shù)據(jù)的存儲和身份分配錯誤。
所有被接受的論文將在 6 月 17 日舉行的2024 年 AI 城市挑戰(zhàn)賽研討會上發(fā)表: https://cvpr.thecvf.com/virtual/2024/workshop/23656
NVIDIA Research將在 CVPR 2024 上發(fā)表 50 多篇論文,介紹生成式物理 AI 的突破,以及在自動駕駛汽車開發(fā)和機(jī)器人等領(lǐng)域的潛在應(yīng)用。
使用 NVIDIA Omniverse 平臺生成合成數(shù)據(jù)或環(huán)境數(shù)字孿生以進(jìn)行模型仿真、測試和驗(yàn)證的論文包括:
FoundationPose:統(tǒng)一的 6D 姿態(tài)估計(jì)和新物體跟蹤:FoundationPose 是一種用于估計(jì)并追蹤物體 3D 位置和方向的多功能模型。該模型通過使用少量參考圖像或 3D 表示來準(zhǔn)確地理解物體的形狀。
構(gòu)建未知鉸接物體數(shù)字孿生的隱式神經(jīng)表示:該研究論文介紹了一種根據(jù)兩個(gè) 3D 掃描圖像創(chuàng)建物體數(shù)字模型的方法,該方法可通過分析活動部件的連接方式和在不同位置之間的移動方式來提高準(zhǔn)確性。
BEHAVIOR 視覺套件:通過仿真生成可定制數(shù)據(jù)集:BEHAVIOR 視覺套件可生成適用于計(jì)算機(jī)視覺研究的可定制合成數(shù)據(jù),使研究人員能夠調(diào)整照明、物體放置等設(shè)置。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102984 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268880 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45971
原文標(biāo)題:CVPR 2024 | NVIDIA 在 CVPR 上通過最大室內(nèi)合成數(shù)據(jù)集推進(jìn)物理 AI 的發(fā)展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論