RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人類(lèi)視覺(jué)理解機(jī)理

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:通信信號(hào)處理研究所 ? 作者:通信信號(hào)處理研究 ? 2020-07-04 09:32 ? 次閱讀

近期,上海交通大學(xué)盧策吾團(tuán)隊(duì)在《自然 - 機(jī)器智能》子刊上發(fā)表了關(guān)于高維度視覺(jué)序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時(shí),該團(tuán)隊(duì)將論文代碼與近兩年在視頻理解領(lǐng)域的先進(jìn)成果開(kāi)源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(wù)(MOT)和行為理解(AVA 單模型)上都達(dá)到最高準(zhǔn)確率,相比 SlowFast (AVA 單模型)有 12.6% 的性能提升。

動(dòng)作理解任務(wù)的時(shí)空信息特征圖。左:輸入序列;右:空間特征更關(guān)注物體形狀,時(shí)間特征更關(guān)注物體運(yùn)動(dòng)趨勢(shì)。

AlphaVideo 中的行為理解(Alphaction)

時(shí)空概念提取展示

人類(lèi)視覺(jué)理解機(jī)理

在人類(lèi)的視覺(jué)認(rèn)知過(guò)程中,時(shí)間和空間概念是解耦的。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類(lèi)的記憶形成過(guò)程中,時(shí)間信息與空間上下文信息通過(guò)兩個(gè)相對(duì)獨(dú)立的信息通路到達(dá)海馬體,進(jìn)而形成完整的記憶。

新技能:自主學(xué)習(xí)時(shí)空概念

通過(guò)模仿人類(lèi)的認(rèn)知機(jī)制,盧策吾團(tuán)隊(duì)提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型(SCS)。

SCS 自主發(fā)掘(awareness)時(shí)間 - 空間概念,并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機(jī)器學(xué)習(xí)模型自主掌握了時(shí)空的概念,這是一種更高層的智能。更進(jìn)一步,時(shí)空信息概念的分離也讓「概念編輯」成為可能。

半耦合結(jié)構(gòu)模型(SCS)

半耦合結(jié)構(gòu)首先解耦時(shí)空信息(模仿人腦中的兩條信息通路),并在分別處理時(shí)間和空間信息之后將二者耦合(模仿海馬體):

該研究通過(guò)堆疊這種半耦合的元結(jié)構(gòu)來(lái)構(gòu)建深度模型,其中時(shí)空信息始終以先解耦再融合的模式向后流動(dòng)。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設(shè)計(jì)為不對(duì)稱(chēng)的結(jié)構(gòu),同時(shí),使用兩個(gè)特殊的監(jiān)督目標(biāo) r_s、r_t 來(lái)進(jìn)一步約束二者關(guān)注各自的工作。

該研究進(jìn)一步提出了一種訓(xùn)練注意力機(jī)制。這種注意力機(jī)制控制模型在優(yōu)化過(guò)程中學(xué)習(xí)哪種信息。例如在視頻信息中,模型可以?xún)?yōu)先將注意力集中在空間信息上,待空間信息有效且穩(wěn)定時(shí),再逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時(shí)間信息上。

SCS 的表現(xiàn)如何?

該研究展示了 SCS 在多項(xiàng)任務(wù)中與傳統(tǒng) LSTM 的性能對(duì)比結(jié)果:

SCS 在視頻動(dòng)作分類(lèi)、自動(dòng)駕駛、天氣預(yù)報(bào)等 4 個(gè)任務(wù)上的性能均超越傳統(tǒng)的序列模型。

概念編輯

有了時(shí)空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過(guò)編輯空間概念且保留時(shí)間概念,我們可以讓一個(gè)原本用于預(yù)測(cè)狗運(yùn)動(dòng)軌跡的模型來(lái)預(yù)測(cè)貓的軌跡。這樣就能以較小的代價(jià)實(shí)現(xiàn)模型的泛化,同時(shí)也拓寬了模型的使用場(chǎng)景,降低了部署難度。

概念編輯 demo

研究者讓計(jì)算機(jī)看 Flappy Bird 的視頻,然后看一張靜態(tài)的 Mario 圖片(外觀形象)。在這個(gè)過(guò)程中,模型并沒(méi)有接觸到任何 Mario 在管道中穿梭的運(yùn)動(dòng)信息。但通過(guò)「概念編輯」,在測(cè)試時(shí) SCS 可以準(zhǔn)確地預(yù)測(cè) Mario 的運(yùn)動(dòng)軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時(shí)空概念分解,研究者還提供了單階段端對(duì)端訓(xùn)練的多目標(biāo)跟蹤模型 TubeTK 和視頻動(dòng)作檢測(cè)模型 AlphAction。使用一行代碼,即可調(diào)用預(yù)訓(xùn)好的各類(lèi)模型。

AlphAction

AlphAction 是面向行為理解的開(kāi)源系統(tǒng),基于 MVIG 提出的交互理解與異步訓(xùn)練策略 在 AVA 數(shù)據(jù)集上達(dá)到最優(yōu)準(zhǔn)確率,速度達(dá)到 10 幀每秒。其中包含的 15 個(gè)開(kāi)源常見(jiàn)行為基本模型的 mAP 達(dá)到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓(xùn)練模型(CVPR2020-oral),是首個(gè)單階段端對(duì)端訓(xùn)練的多目標(biāo)跟蹤模型。它在 MOT-16 數(shù)據(jù)集上達(dá)到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓(xùn)練數(shù)據(jù)下達(dá)到的最高精度 。

TubeTK 可視化結(jié)果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無(wú)法檢測(cè)到的被遮擋目標(biāo)(圖中黃色框)。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解耦
    +關(guān)注

    關(guān)注

    0

    文章

    40

    瀏覽量

    11895
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13784

    瀏覽量

    166382
  • 機(jī)器智能
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    8592
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何理解LC表和選擇關(guān)于TPS563202的LC

    電子發(fā)燒友網(wǎng)站提供《如何理解LC表和選擇關(guān)于TPS563202的LC.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 10:02 ?0次下載
    如何<b class='flag-5'>理解</b>LC表和選擇<b class='flag-5'>關(guān)于</b>TPS563202的LC

    計(jì)算機(jī)視覺(jué)有哪些優(yōu)缺點(diǎn)

    計(jì)算機(jī)視覺(jué)作為人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠像人類(lèi)一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動(dòng)了多個(gè)行業(yè)的變革,也帶來(lái)了諸多優(yōu)勢(shì),但同時(shí)也伴隨著一些挑戰(zhàn)和局限性。以下是對(duì)計(jì)算機(jī)
    的頭像 發(fā)表于 08-14 09:49 ?916次閱讀

    什么是機(jī)器視覺(jué)opencv?它有哪些優(yōu)勢(shì)?

    機(jī)器視覺(jué)(Machine Vision)是一種利用計(jì)算機(jī)和圖像處理技術(shù)來(lái)模擬人類(lèi)視覺(jué)系統(tǒng)的功能,實(shí)現(xiàn)對(duì)圖像的識(shí)別、分析和理解的技術(shù)。OpenCV(Open Source Compute
    的頭像 發(fā)表于 07-16 10:33 ?761次閱讀

    機(jī)器視覺(jué)和計(jì)算機(jī)視覺(jué)有什么區(qū)別

    機(jī)器視覺(jué)和計(jì)算機(jī)視覺(jué)是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。 一、定義 機(jī)器視覺(jué) 機(jī)器視覺(jué),又稱(chēng)為計(jì)算機(jī)視覺(jué),是指利用計(jì)算機(jī)、圖像處理技術(shù)和人工智
    的頭像 發(fā)表于 07-16 10:23 ?517次閱讀

    機(jī)器視覺(jué)的應(yīng)用實(shí)例解析

    機(jī)器視覺(jué)是一種利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)圖像進(jìn)行處理、分析和理解的技術(shù)。它在許多領(lǐng)域都有廣泛的應(yīng)用,包括工業(yè)自動(dòng)化、醫(yī)療診斷、交通監(jiān)控、安全監(jiān)控等。 一、引言 機(jī)器視覺(jué)技術(shù)的發(fā)展可以追溯到2
    的頭像 發(fā)表于 07-16 10:19 ?447次閱讀

    機(jī)器視覺(jué)的四大類(lèi)應(yīng)用是什么?

    機(jī)器視覺(jué)是一種利用計(jì)算機(jī)和圖像處理技術(shù),模擬人類(lèi)視覺(jué)系統(tǒng),實(shí)現(xiàn)對(duì)圖像的獲取、處理、分析和理解的技術(shù)。它在工業(yè)、醫(yī)療、農(nóng)業(yè)、交通等領(lǐng)域有著廣泛的應(yīng)用。以下是機(jī)器
    的頭像 發(fā)表于 07-16 10:17 ?1160次閱讀

    計(jì)算機(jī)視覺(jué)的工作原理和應(yīng)用

    計(jì)算機(jī)視覺(jué)(Computer Vision,簡(jiǎn)稱(chēng)CV)是一門(mén)跨學(xué)科的研究領(lǐng)域,它利用計(jì)算機(jī)和數(shù)學(xué)算法來(lái)模擬人類(lèi)視覺(jué)系統(tǒng)對(duì)圖像和視頻進(jìn)行識(shí)別、理解、分析和處理。其核心目標(biāo)在于使計(jì)算機(jī)能夠
    的頭像 發(fā)表于 07-10 18:24 ?1903次閱讀

    計(jì)算機(jī)視覺(jué)和機(jī)器視覺(jué)區(qū)別在哪

    計(jì)算機(jī)視覺(jué)和機(jī)器視覺(jué)是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計(jì)算機(jī)視覺(jué) 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)能夠像人類(lèi)一樣
    的頭像 發(fā)表于 07-09 09:22 ?445次閱讀

    計(jì)算機(jī)視覺(jué)和圖像處理的區(qū)別和聯(lián)系

    數(shù)據(jù)的過(guò)程。計(jì)算機(jī)視覺(jué)的目標(biāo)是使計(jì)算機(jī)能夠像人類(lèi)一樣“看到”和理解圖像或視頻內(nèi)容。 1.2 圖像處理 圖像處理,也稱(chēng)為數(shù)字圖像處理,是應(yīng)用數(shù)學(xué)和計(jì)算機(jī)算法對(duì)圖像進(jìn)行分析、修改和合成的過(guò)程。圖像處理的目的是改善圖像質(zhì)量、增強(qiáng)圖像
    的頭像 發(fā)表于 07-09 09:16 ?1281次閱讀

    計(jì)算機(jī)視覺(jué)屬于人工智能嗎

    屬于,計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支。 引言 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)具有視覺(jué)能力的學(xué)科,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。計(jì)算機(jī)視覺(jué)的目標(biāo)是讓計(jì)算機(jī)能夠
    的頭像 發(fā)表于 07-09 09:11 ?1284次閱讀

    機(jī)器視覺(jué)的硬件組成有哪些

    機(jī)器視覺(jué)是一種利用計(jì)算機(jī)和圖像處理技術(shù)來(lái)模擬人類(lèi)視覺(jué)系統(tǒng)的技術(shù)。它涉及到圖像的獲取、處理、分析和理解,廣泛應(yīng)用于工業(yè)自動(dòng)化、醫(yī)療診斷、智能交通、安防監(jiān)控等領(lǐng)域。本文將詳細(xì)介紹機(jī)器
    的頭像 發(fā)表于 07-04 10:51 ?1311次閱讀

    機(jī)器視覺(jué)的應(yīng)用流程是如何實(shí)現(xiàn)的

    機(jī)器視覺(jué)是一種利用計(jì)算機(jī)和圖像處理技術(shù),模擬人類(lèi)視覺(jué)系統(tǒng)對(duì)圖像進(jìn)行處理、分析和理解的技術(shù)。它在工業(yè)自動(dòng)化、智能交通、醫(yī)療診斷、安防監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用。 在機(jī)器
    的頭像 發(fā)表于 07-04 10:47 ?409次閱讀

    計(jì)算機(jī)視覺(jué):AI如何識(shí)別與理解圖像

    計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于讓機(jī)器能夠像人類(lèi)一樣理解和解釋圖像。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們對(duì)于如何讓AI識(shí)別和理解圖像產(chǎn)生了濃厚的興趣。本文將探討計(jì)算機(jī)
    的頭像 發(fā)表于 01-12 08:27 ?1414次閱讀
    計(jì)算機(jī)<b class='flag-5'>視覺(jué)</b>:AI如何識(shí)別與<b class='flag-5'>理解</b>圖像

    機(jī)器視覺(jué)原理及常用工具庫(kù)

    對(duì)于人類(lèi)來(lái)講,90%以上的信息都是通過(guò)視覺(jué)獲取的,眼睛就是獲取大量視覺(jué)信息的傳感器,然后再交給大腦這個(gè)“處理器”進(jìn)行處理,之后我們才能理解外部環(huán)境,建立世界觀。
    的頭像 發(fā)表于 01-08 10:27 ?1822次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>原理及常用工具庫(kù)

    模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用

    近期的大語(yǔ)言模型(LLM)在自然語(yǔ)言理解和生成上展現(xiàn)出了接近人類(lèi)的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。
    的頭像 發(fā)表于 01-04 14:06 ?455次閱讀
    模型與<b class='flag-5'>人類(lèi)</b>的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言<b class='flag-5'>理解</b>的作用
    RM新时代网站-首页