RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何推動(dòng)智能視覺技術(shù)發(fā)展

Arm社區(qū) ? 來源:Arm社區(qū) ? 2024-09-02 10:32 ? 次閱讀

作者:Arm 物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁 馬健

(鳴謝 Arm 工程部計(jì)算視覺主任架構(gòu)師 Catherine Wang 對本文內(nèi)容的貢獻(xiàn))

語言學(xué)和認(rèn)知科學(xué)的先驅(qū) Noam Chomsky 曾經(jīng)說過,人類語言在動(dòng)物世界中是獨(dú)一無二的。如今,隨著諸如 GPT-3.5、GPT-4.0 和 Bert 等大語言模型 (LLM) 和生成式人工智能 (AI) 的迅猛發(fā)展,機(jī)器已經(jīng)開始能夠理解人類語言,這極大地?cái)U(kuò)展了機(jī)器可行使的功能。由此也引發(fā)了人們的思考:接下來技術(shù)會(huì)如何發(fā)展?

智能的演進(jìn)塑造全新計(jì)算范式

要預(yù)測 AI 的未來發(fā)展方向,我們只需反觀人類自身。我們通過感官、思想和行動(dòng)的相互動(dòng)態(tài)作用來改變世界。這個(gè)過程包括感知周圍世界、處理信息,并在深思熟慮后作出回應(yīng)。

wKgZombVI8yAVNzjAAFazlc4hF8009.png

在計(jì)算技術(shù)的發(fā)展歷程中,我們目睹了曾經(jīng)是人類獨(dú)有的感知、思考和行動(dòng)等能力,逐漸被機(jī)器所掌握。每一次能力的轉(zhuǎn)移都將催生出新的范式。

20 世紀(jì)末,像 Google 這樣的大公司將信息獲取成本從邊際成本轉(zhuǎn)變?yōu)楣潭ǔ杀荆唧w點(diǎn)說就是,Google 投入資金來抓取網(wǎng)絡(luò)索引信息,但對于我們每個(gè)搜尋信息的用戶來說,投入的成本幾乎可以忽略不計(jì)。機(jī)器開始成為我們的信息系統(tǒng)。這開啟了互聯(lián)網(wǎng)時(shí)代及其后續(xù)的移動(dòng)互聯(lián)網(wǎng)時(shí)代,改變了人們獲取、傳播和分享信息的方式,并對商業(yè)、教育、娛樂、社交等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。

現(xiàn)在,我們正見證技術(shù)發(fā)展的新轉(zhuǎn)折,思考、推理和模型構(gòu)建的能力正從人類轉(zhuǎn)移到機(jī)器上。OpenAI 和大模型將生產(chǎn)模型的成本從邊際成本轉(zhuǎn)變?yōu)楣潭ǔ杀尽?/p>

大模型已經(jīng)通過來自互聯(lián)網(wǎng)的大量文本、圖像和視頻進(jìn)行了訓(xùn)練,這其中包含了法律、醫(yī)學(xué)、科學(xué)、藝術(shù)等各種領(lǐng)域的信息。這種廣泛的訓(xùn)練使得這些大模型可以作為基礎(chǔ)模型,用以更輕松地構(gòu)建其他模型。

無論是認(rèn)知模型(如何觀察和表達(dá))、行為模型(如何駕駛汽車),還是特定領(lǐng)域的模型(如何設(shè)計(jì)半導(dǎo)體芯片),這一轉(zhuǎn)折點(diǎn)必將激發(fā)各類模型的廣泛涌現(xiàn)。模型是知識的載體,這一轉(zhuǎn)折點(diǎn)將使模型和知識變得無處不在,使我們加速進(jìn)入新一輪的技術(shù)創(chuàng)新,迎來一個(gè)由自動(dòng)駕駛汽車、自主移動(dòng)機(jī)器人、人形機(jī)器人等多樣的機(jī)器及其在各行各業(yè)和各種部署場景中應(yīng)用的新時(shí)代。這些新范式將重新定義人機(jī)交互的方式。

多模態(tài) LLM 與視覺的關(guān)鍵作用

通過 Transformer 模型及其自注意力機(jī)制,AI 可以真正實(shí)現(xiàn)多模態(tài),這意味著 AI 系統(tǒng)可以像人們一樣處理來自語音、圖像和文本等多種模式的輸入信息。

OpenAI 的 CLIP、DALL·E、Sora 和 GPT-4o 就是朝著多模態(tài)邁進(jìn)的一些模型。例如,CLIP 用于理解圖像與自然語言的配對數(shù)據(jù),從而在視覺和文本信息之間架起橋梁;DALL·E 旨在根據(jù)文本描述生成圖像,而 Sora 可以根據(jù)文本生成視頻,有望在未來成為全球性的模擬器。OpenAI 則將 GPT-4o 的發(fā)展往前更進(jìn)一步,OpenAI 綜合利用文本、視覺和音頻信息來端到端訓(xùn)練單個(gè)新模型 GPT-4o,無需進(jìn)行多媒體與文本的相互轉(zhuǎn)換。所有輸入和輸出都經(jīng)同一神經(jīng)網(wǎng)絡(luò)處理,使得模型能夠跨模態(tài)綜合音頻、視覺和文本信息進(jìn)行實(shí)時(shí)推理。

多模態(tài) AI 的未來將聚焦于邊緣側(cè)

得益于邊緣側(cè)硬件的進(jìn)步(許多邊緣硬件都是基于 Arm 平臺開發(fā)設(shè)計(jì)的),同時(shí)也為了解決延遲問題、隱私和安全需求、帶寬和成本考量,并確保在網(wǎng)絡(luò)連接間斷或無連接時(shí)能夠離線使用,AI 創(chuàng)新者在不斷突破模型的運(yùn)行邊界。Sam Altman 也曾坦言[1],對于視頻(我們通過視覺感知到的內(nèi)容),要想提供理想的用戶體驗(yàn),端側(cè)模型至關(guān)重要。

然而,資源限制、模型大小和復(fù)雜性挑戰(zhàn)阻礙了多模態(tài) AI 向邊緣側(cè)的轉(zhuǎn)移。要想解決這些問題,我們需綜合利用硬件進(jìn)步、模型優(yōu)化技術(shù)和創(chuàng)新的軟件解決方案,來促進(jìn)多模態(tài) AI 的普及。

近期的 AI 發(fā)展對計(jì)算機(jī)視覺產(chǎn)生了深遠(yuǎn)的影響,尤其令人關(guān)注。許多視覺領(lǐng)域研究人員和從業(yè)者正在使用大模型和 Transformer 來增強(qiáng)視覺能力。在大模型時(shí)代,視覺的重要性日益凸顯。原因有以下幾點(diǎn):

機(jī)器系統(tǒng)必須通過視覺等感知能力來了解周圍環(huán)境,為自動(dòng)駕駛和機(jī)器人提供關(guān)乎人身安全的必要安全性和避障能力??臻g智能是被譽(yù)為“AI 教母”的李飛飛等研究人員關(guān)注的熱門領(lǐng)域。

視覺對于人機(jī)交互至關(guān)重要。AI 伴侶不僅需要高智商,還需要高情商。機(jī)器視覺可以捕捉人類的表情、手勢和動(dòng)作,從而更好地理解人類的意圖和情感。

AI 模型需要視覺能力和其他傳感器來收集實(shí)際數(shù)據(jù)并適應(yīng)特定環(huán)境,隨著 AI 從輕工業(yè)延伸到數(shù)字化水平較低的重工業(yè),收集物理世界特征數(shù)據(jù)集,建立 3D 物理世界的仿真環(huán)境或數(shù)字孿生,并使用這些技術(shù)來訓(xùn)練多模態(tài)大模型,使模型可以理解真實(shí)的物理世界,這一點(diǎn)都尤為重要。

視覺 + 基礎(chǔ)模型的示例

盡管 ChatGPT 因其出色的語言能力而廣受歡迎,但隨著主流的 LLM 逐漸演變成多模態(tài),將它們稱作“基礎(chǔ)模型”也許更為貼切。包括視覺等多種模態(tài)在內(nèi)的基礎(chǔ)模型領(lǐng)域正在快速發(fā)展。以下是一些例子:

DINOv2

DINOv2 是由 Meta AI 開發(fā)的先進(jìn)自監(jiān)督學(xué)習(xí)模型,它基于原來的 DINO 模型打造,并已通過擁有 1.42 億張圖像的龐大數(shù)據(jù)集進(jìn)行了訓(xùn)練,這有助于提高它在不同視覺領(lǐng)域的穩(wěn)健性和通用性。DINOv2 無需專門訓(xùn)練就能分割對象。此外,它還能生成通用特征,適用于圖像級視覺任務(wù)(如圖像分類、視頻理解)和像素級視覺任務(wù)(如深度估計(jì)、語義分割),表現(xiàn)出卓越的泛化能力和多功能性。

Segment Anything 模型 (SAM)

SAM 是一種可推廣的分割系統(tǒng),可以對不熟悉的對象和圖像進(jìn)行零樣本泛化,而無需額外訓(xùn)練。它可以使用多種輸入提示詞來識別和分割圖像中的對象,以明確要分割的目標(biāo)。因此在遇到每個(gè)新對象或場景時(shí),它無需進(jìn)行特殊訓(xùn)練即可運(yùn)行。據(jù) Meta AI 介紹,SAM 可以在短短 50 毫秒內(nèi)生成分割結(jié)果,因此非常適合實(shí)時(shí)應(yīng)用。它具備多功能性,可應(yīng)用于從醫(yī)學(xué)成像到自動(dòng)駕駛等諸多領(lǐng)域。

Stable Diffusion

文生圖和文生視頻是生成式 AI 的一個(gè)重要方面,因?yàn)樗粌H能夠助力產(chǎn)生新的創(chuàng)意,還有望構(gòu)建一個(gè)世界模擬器,用來作為訓(xùn)練模擬、教育程序或視頻游戲的基礎(chǔ)。Stable Diffusion 是一個(gè)生成式 AI 模型,能夠根據(jù)文本描述創(chuàng)建圖像。該模型使用一種稱為潛在擴(kuò)散 (latent diffusion) 的技術(shù),在潛在空間 (latent space) 的壓縮格式中操作圖像,而不是直接在像素空間中操作,從而實(shí)現(xiàn)高效運(yùn)行。這種方法有助于減少計(jì)算負(fù)載,使模型能夠更快地生成高質(zhì)量圖像。

wKgaombVI-eATVHgAAD0kLZOuAM243.jpg

Stable Diffusion 已經(jīng)可以在智能移動(dòng)設(shè)備的邊緣側(cè)運(yùn)行。上圖是 Stable Diffusion 優(yōu)化過程的示例:

如果采用 Stable Diffusion 的原始設(shè)置,將不適合在移動(dòng)端 CPU 或 NPU 上運(yùn)行(基于 512×512 圖像分辨率)。

通過使用更小的 U-Net 架構(gòu)、更少的采樣步驟、切換到 ONNX 格式、應(yīng)用量化技術(shù)(從 FP32 到 INT8)和其他技術(shù),它僅在 CPU 上就實(shí)現(xiàn)了超過 60 倍的速度提升。其中許多優(yōu)化技術(shù)和工具都是基于 Arm 廣泛的生態(tài)系統(tǒng)所開發(fā)的。該模型仍有進(jìn)一步優(yōu)化的空間。

借助多模態(tài) LLM 實(shí)現(xiàn)出色視覺體驗(yàn)

作為 Arm 的智能視覺合作伙伴計(jì)劃的一員,愛芯元智 (Axera) 利用其旗艦芯片組 AX650N 在邊緣側(cè)部署了 DINOv2 視覺 Transformer。該芯片采用 Arm Cortex-A55 CPU 集群進(jìn)行預(yù)處理和后處理,結(jié)合愛芯通元混合精度 NPU 和愛芯智眸 AI-ISP,其具有高性能、高精度、易于部署和出色能效等特點(diǎn)。

以下展示了在 AX650N 上運(yùn)行 DINOv2 的效果:

通過使用多樣化大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練之后,視覺 Transformer 可以更好地泛化到新任務(wù)和未見過的任務(wù),從而簡化了再訓(xùn)練過程并縮短了調(diào)優(yōu)時(shí)間。它們可以應(yīng)用于圖像分類之外的多種任務(wù),例如對象檢測和分割,而無需進(jìn)行大量的架構(gòu)更改。

迎接 AI 和人機(jī)界面的未來

得益于 AI 和 LLM 的不斷發(fā)展,我們正處于技術(shù)和人類交互轉(zhuǎn)型的交會(huì)點(diǎn)。視覺會(huì)在這一演進(jìn)中起到關(guān)鍵作用,賦予了機(jī)器理解周圍環(huán)境以及在物理世界中“生存”的能力,可確保安全并增強(qiáng)交互性。在硬件和軟件快速發(fā)展的推動(dòng)下,向邊緣側(cè) AI 的轉(zhuǎn)變有望實(shí)現(xiàn)高效的實(shí)時(shí)應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9084

    瀏覽量

    367380
  • 智能視覺
    +關(guān)注

    關(guān)注

    0

    文章

    100

    瀏覽量

    9205
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2423

    瀏覽量

    2640

原文標(biāo)題:大咖觀點(diǎn) | 在大模型時(shí)代推動(dòng)智能視覺技術(shù)的發(fā)展

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    推動(dòng)FPGA調(diào)試技術(shù)發(fā)展的幾項(xiàng)潛在原因

    任何一項(xiàng)技術(shù)發(fā)展都是曲折的,人們在使用過程中需要不斷的改進(jìn)和完善,才能促進(jìn)技術(shù)的不斷成熟和向前發(fā)展,F(xiàn)PGA同樣是經(jīng)歷了這個(gè)過程,那么其中有哪幾種原因呢?現(xiàn)在來給大家介紹一下。&nb
    發(fā)表于 01-08 15:05

    通信直流開關(guān)電源產(chǎn)品的技術(shù)發(fā)展概述

    .這些領(lǐng)域的技術(shù)發(fā)展推動(dòng)了電源應(yīng)用技術(shù)發(fā)展.使得通信直流開關(guān)電源技術(shù)發(fā)展近階段體現(xiàn)如下特征:    1通信直
    發(fā)表于 06-24 11:03

    集成電源是電源技術(shù)發(fā)展的必由之路

    `本文指出了集成電源是電源技術(shù)發(fā)展的必然方向,目前混合封裝技術(shù)是集成電源模塊的主流方式,闡述了混合封裝技術(shù)的若干關(guān)鍵技術(shù)問題和發(fā)展方向,最后
    發(fā)表于 03-09 17:15

    智能電網(wǎng)技術(shù)發(fā)展迅猛:電力測試儀器儀表邁向智能

    有著重要意義。 武漢華德利專家預(yù)測:智能電網(wǎng)技術(shù)在未來幾年將會(huì)迅猛發(fā)展智能電網(wǎng)是我國及世界直流國家電網(wǎng)建設(shè)或改造過程中的主要方向,智能電網(wǎng)
    發(fā)表于 04-12 13:55

    軟件技術(shù)發(fā)展智能制造的關(guān)系

    現(xiàn)在國家大力推進(jìn)兩化融合智慧制造。跟軟件技術(shù)發(fā)展是不是很有關(guān)系?在線等回復(fù)
    發(fā)表于 07-28 17:38

    NLPIR智能技術(shù)推動(dòng)NLP語義挖掘快速發(fā)展

    機(jī)技術(shù)和人工智能等多種領(lǐng)域于一體的一項(xiàng)綜合性研究。而且其需求前景十分廣闊,使得該項(xiàng)研究成為熱點(diǎn)?! ‰S著計(jì)算機(jī)技術(shù)的快速發(fā)展,使得自然語言的處理研究成為可能并逐漸應(yīng)用于不同語言間的交
    發(fā)表于 03-14 11:50

    智能感知怎么助力機(jī)器視覺發(fā)展?

    工業(yè)自動(dòng)化與人工智能息息相關(guān),也與機(jī)器視覺息息相關(guān)。機(jī)器視覺技術(shù)可說是人工智能的分支技術(shù),是全球
    發(fā)表于 08-01 07:11

    如何推動(dòng)嵌入式視覺技術(shù)發(fā)展?

    新的成像應(yīng)用正在蓬勃發(fā)展,從工業(yè) 4.0 中的協(xié)作機(jī)器人,到無人機(jī)消防或用于農(nóng)業(yè),再到生物特征面部識別,再到家庭中的護(hù)理點(diǎn)手持醫(yī)療設(shè)備。出現(xiàn)這些新應(yīng)用程序的一個(gè)關(guān)鍵因素是,嵌入式視覺比以往任 何時(shí)
    發(fā)表于 10-24 08:11

    晶圓級三維封裝技術(shù)發(fā)展

    先進(jìn)封裝發(fā)展背景晶圓級三維封裝技術(shù)發(fā)展
    發(fā)表于 12-28 07:15

    PCI Express是如何推動(dòng)虛擬儀器技術(shù)發(fā)展的?求解

    PCI Express是如何推動(dòng)虛擬儀器技術(shù)發(fā)展的?求解
    發(fā)表于 05-12 07:07

    光通信技術(shù)發(fā)展的趨勢是什么

    光通信技術(shù)發(fā)展的趨勢是什么
    發(fā)表于 05-24 06:47

    高速球是什么?有什么技術(shù)發(fā)展趨勢?

    高速球是什么?有什么技術(shù)發(fā)展趨勢?
    發(fā)表于 05-31 06:01

    人工智能和計(jì)算機(jī)技術(shù)對數(shù)控技術(shù)發(fā)展的影響有哪些?

    數(shù)控技術(shù)的特點(diǎn)是什么?人工智能和計(jì)算機(jī)技術(shù)對數(shù)控技術(shù)發(fā)展的影響有哪些?數(shù)控技術(shù)在加工機(jī)械中的應(yīng)用是什么?
    發(fā)表于 11-01 07:40

    高密度封裝技術(shù)推動(dòng)測試技術(shù)發(fā)展

    高密度封裝技術(shù)推動(dòng)測試技術(shù)發(fā)展鮮 飛(烽火通信科技股份有限公司,湖北 武漢 430074)摘要:高密度封裝技術(shù)的飛速發(fā)展也給測試
    發(fā)表于 12-14 11:33 ?8次下載

    未來機(jī)器視覺技術(shù)發(fā)展的趨勢是什么樣的

    未來機(jī)器視覺有哪些方向? 隨著技術(shù)發(fā)展,機(jī)器視覺技術(shù)發(fā)展的趨勢是什么樣的呢?下面我們簡單的分析下器未來可能
    發(fā)表于 07-28 15:51 ?3508次閱讀
    RM新时代网站-首页