新时代rm平台入口,RM新时代投资官网

正在流行的視覺(jué)AI大模型SAM究竟是一種什么樣的技術(shù)，會(huì)形成什么樣的產(chǎn)業(yè)影響？經(jīng)濟(jì)觀察報(bào)就此采訪三位IEEE（電氣電子工程師學(xué)會(huì)）專家，解讀了視覺(jué)大模型SAM技術(shù)、應(yīng)用路線以及對(duì)原有產(chǎn)業(yè)的影響。

今年4月，Meta公布了一款名為SAM（Segment Anything Model）的技術(shù)，這是一款用于圖像分割的AI大模型，會(huì)對(duì)圖像進(jìn)行觀察、感知、思考、邏輯推理、得出結(jié)果，且操作極其簡(jiǎn)單，類似于ChatGPT用人類語(yǔ)言對(duì)話的方式給機(jī)器下命令。

IEEE高級(jí)會(huì)員、天津理工大學(xué)教授、AR/VR技術(shù)專家羅訓(xùn)對(duì)記者表示，SAM是視覺(jué)領(lǐng)域的通用大模型，很多報(bào)道中把它比喻成視覺(jué)領(lǐng)域的ChatG－PT，SAM和ChatGPT的支撐技術(shù)和應(yīng)用場(chǎng)景都是不同的，但是在通用性這一點(diǎn)上，它們都是當(dāng)前技術(shù)發(fā)展趨勢(shì)的代表者。

“SAM技術(shù)、應(yīng)用路線和顛覆性

作為AI的一個(gè)重要分支，機(jī)器視覺(jué)的目標(biāo)是讓計(jì)算機(jī)模仿人類視覺(jué)系統(tǒng)，實(shí)現(xiàn)圖像和視頻的理解和處理。

IEEE數(shù)字化轉(zhuǎn)型聯(lián)合會(huì)策略與架構(gòu)主席汪齊齊對(duì)記者表示，高效準(zhǔn)確的圖像分割結(jié)果，對(duì)于日常生活和商業(yè)場(chǎng)景，甚至科研領(lǐng)域都具有重大意義。正因?yàn)槿绱耍湓?a href="http://hljzzgx.com/v/tag/3744/" target="_blank">計(jì)算機(jī)視覺(jué)領(lǐng)域一直是個(gè)重要的課題。SAM的圖像分割功能，是機(jī)器視覺(jué)的核心任務(wù)之一。過(guò)去，機(jī)器視覺(jué)分割圖像的過(guò)程需要大量圖像標(biāo)注、堆疊算法，消耗大量算力。如今，SAM更容易地實(shí)現(xiàn)了機(jī)器視覺(jué)的目標(biāo)。

Meta將SAM大模型和背后數(shù)據(jù)集一并開(kāi)源，相關(guān)的研究手稿也于今年4月5日發(fā)布在arXiv上（用于學(xué)術(shù)交流的預(yù)印本平臺(tái)），作者有Alexander Kirillov，Eric Mintun等12人。

此后，SAM在開(kāi)源社區(qū)Github上獲得大量關(guān)注，一些華人學(xué)者又照此原理提出了相關(guān)的大模型GroundingDI－NO，用于物體檢測(cè)，不久GitHub上有人再創(chuàng)新，將GroundingDINO和SAM結(jié)合，達(dá)到了對(duì)圖像識(shí)別、檢測(cè)、分割的效果。

汪齊齊表示，該模型在準(zhǔn)確程度、效率上，達(dá)到了驚人的提升。尤其是SAM開(kāi)源的SA-1B數(shù)據(jù)庫(kù)，用巨量的圖像以及更加巨量的Mask（這里譯為圖層遮罩），將有助于許多科研項(xiàng)目和商業(yè)化項(xiàng)目在高起點(diǎn)上快速更新迭代，產(chǎn)生更好的模型和更優(yōu)化的數(shù)據(jù)。

Meta從AR、VR、內(nèi)容創(chuàng)建等領(lǐng)域，介紹了SAM的應(yīng)用場(chǎng)景。中國(guó)的專家看到了更廣泛的應(yīng)用場(chǎng)景。

羅訓(xùn)對(duì)記者表示，鑒于計(jì)算機(jī)視覺(jué)的廣泛應(yīng)用場(chǎng)景，SAM的發(fā)布對(duì)產(chǎn)業(yè)的影響也會(huì)是巨大的，會(huì)賦能更多的長(zhǎng)尾創(chuàng)新者進(jìn)入產(chǎn)業(yè)，并進(jìn)一步豐富應(yīng)用場(chǎng)景和商業(yè)模式。

汪齊齊表示，早前人工智能技術(shù)就能實(shí)現(xiàn)回答用戶問(wèn)題的功能，而Chat－GPT第一次讓很多人產(chǎn)生了“生成的回復(fù)可以在接受的比例下用于日常、商用和科研”，并因此達(dá)到了在這個(gè)垂直領(lǐng)域前所未有的高度。目前SAM的分割結(jié)果，以及其公開(kāi)的大量供公眾使用的資源來(lái)看，SAM在其擅長(zhǎng)的垂直領(lǐng)域也達(dá)到了相當(dāng)可觀的高度，并會(huì)從技術(shù)、數(shù)據(jù)以及對(duì)于這個(gè)領(lǐng)域的關(guān)注度等多方面幫助計(jì)算機(jī)視覺(jué)在短時(shí)間內(nèi)產(chǎn)生大量突破，而計(jì)算機(jī)視覺(jué)，是一個(gè)非常重要的“廣義AI生態(tài)”中的基礎(chǔ)設(shè)施，該方面的突破將實(shí)現(xiàn)對(duì)數(shù)字化世界的理解和升級(jí)，帶來(lái)質(zhì)變的效率和價(jià)值提升。

IEEE會(huì)士、河海大學(xué)信息科學(xué)與工程學(xué)院院長(zhǎng)韓光潔對(duì)記者表示，SAM將會(huì)在自動(dòng)駕駛、安防控制、醫(yī)學(xué)影像處理等應(yīng)用領(lǐng)域改變業(yè)態(tài)布局，甚至引發(fā)技術(shù)革命。SAM作為一個(gè)基礎(chǔ)模型，可為這些應(yīng)用領(lǐng)域快速孵化出適用性更強(qiáng)的專用網(wǎng)絡(luò)模型。

SAM的變革性可能會(huì)顛覆一批原有的AI技術(shù)優(yōu)勢(shì)。汪齊齊表示，視覺(jué)大模型會(huì)在相當(dāng)多的領(lǐng)域抵消技術(shù)壁壘，這在任何一次產(chǎn)業(yè)技術(shù)升級(jí)中都多次出現(xiàn)，也是無(wú)法避免的。

羅訓(xùn)表示，通用大模型就相當(dāng)于AI的能力開(kāi)放平臺(tái)，之前頭部企業(yè)的AI能力優(yōu)勢(shì)，會(huì)因?yàn)橥ㄓ么竽Ｐ偷呐d起而被一定程度削弱。但是這些企業(yè)是否本身會(huì)變?nèi)?，取決于它們的轉(zhuǎn)型。

羅訓(xùn)舉例稱，回顧移動(dòng)計(jì)算在本世紀(jì)前十年的變化，iOS和安卓的能力開(kāi)放平臺(tái)在賦能長(zhǎng)尾創(chuàng)新者方面起到了非常重要的作用，極大增加了移動(dòng)計(jì)算產(chǎn)業(yè)規(guī)模。在移動(dòng)計(jì)算領(lǐng)域，WindowsMobile和塞班的封閉平臺(tái)最終因?yàn)槿狈Ω?jìng)爭(zhēng)力而退出了市場(chǎng)。

汪齊齊表示，作為有核心技術(shù)儲(chǔ)備和深入理解的企業(yè)，首先是需要擁抱大模型，尤其是應(yīng)該感謝相對(duì)公開(kāi)的大模型，將自己對(duì)于產(chǎn)業(yè)的理解和領(lǐng)先部分，在大模型的加持下快速升級(jí)，演化出更新的形態(tài)。同時(shí)，計(jì)算機(jī)視覺(jué)領(lǐng)域也一定會(huì)有大模型目前還不擅長(zhǎng)的領(lǐng)域，仍然可以作為技術(shù)壁壘，并在這些方面繼續(xù)深挖獨(dú)有優(yōu)勢(shì)。

“AIGC帶來(lái)知識(shí)和技術(shù)的平權(quán)？

此前有科技企業(yè)表示，AIGC的本質(zhì)是技術(shù)平權(quán)和知識(shí)平權(quán)，這在很大程度上將大廠與小廠拉到了同一起跑線上。

羅訓(xùn)就該觀點(diǎn)對(duì)記者表示，技術(shù)和知識(shí)平權(quán)的說(shuō)法并不是很準(zhǔn)確，因?yàn)橹安](méi)有系統(tǒng)性的歧視。AIGC帶來(lái)的是“易得”，本質(zhì)上是市場(chǎng)規(guī)模急劇擴(kuò)大后的成本降低。AIGC會(huì)促進(jìn)整個(gè)社會(huì)對(duì)算力和計(jì)算模式使用的轉(zhuǎn)型升級(jí)，大規(guī)模提高AI使用者的生產(chǎn)效率，同時(shí)利好AI軟硬件設(shè)施生態(tài)企業(yè)。過(guò)程中，巨頭和大廠是技術(shù)進(jìn)步的先期投入者，它們?cè)谄渲芷趦?nèi)獲取回報(bào)也是合理的，因?yàn)樗鼈兏冻隽烁叩某杀荆渤袚?dān)了更大的風(fēng)險(xiǎn)。

汪齊齊認(rèn)為，AIGC確實(shí)帶來(lái)了一定的技術(shù)平權(quán)，但技術(shù)本身是有一個(gè)價(jià)值屬性的。例如，曾經(jīng)做網(wǎng)頁(yè)可以帶來(lái)不菲的收入，隨著工具升級(jí)和模板的完善，一個(gè)漂亮網(wǎng)頁(yè)制作難度數(shù)量級(jí)地下降，但是他帶來(lái)的價(jià)值也產(chǎn)生數(shù)量級(jí)地下降。

同樣，AIGC將一個(gè)需要大量技術(shù)和知識(shí)儲(chǔ)備才能產(chǎn)生優(yōu)質(zhì)內(nèi)容的時(shí)代，帶入輕易產(chǎn)生的優(yōu)質(zhì)內(nèi)容的時(shí)代，這會(huì)讓原有定義的“優(yōu)質(zhì)內(nèi)容”的平均價(jià)值急速下降。

汪齊齊表示，AIGC是否帶來(lái)了知識(shí)平權(quán)仍然有待商榷。長(zhǎng)期來(lái)看，AIGC可能會(huì)使人們更容易獲取到真實(shí)有用的知識(shí)。但是今天，人們還處于“技術(shù)帶來(lái)了前所未有的體量的知識(shí)，也同時(shí)讓篩選這些知識(shí)的可用度達(dá)到了前所未有的高成本”。

汪齊齊表示，盡管AIGC可以產(chǎn)生大量的知識(shí)和內(nèi)容，但其準(zhǔn)確性和可信度是個(gè)挑戰(zhàn)，相當(dāng)部分AIGC是基于老的訓(xùn)練數(shù)據(jù)，“一本正經(jīng)供應(yīng)錯(cuò)誤知識(shí)”的案例已經(jīng)有很多。目前在大量、無(wú)法辨別真?zhèn)蔚臄?shù)據(jù)和內(nèi)容的情況下，是否真正達(dá)到了知識(shí)平權(quán)，是要打問(wèn)號(hào)的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

SAM

SAM

+關(guān)注

關(guān)注
0

文章
112

瀏覽量
33519
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1558

瀏覽量
7595
AIGC

AIGC

+關(guān)注

關(guān)注
1

文章
361

瀏覽量
1539
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640

原文標(biāo)題：對(duì)話三位IEEE專家：如何理解SAM視覺(jué)大模型

文章出處：【微信號(hào)：IEEE_China，微信公眾號(hào)：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

訓(xùn)練模型如BERT、GPT等。這些模型在理解自然語(yǔ)言、生成文本、處理對(duì)話等方面具有不同的能力。因此，在選擇模型時(shí)，需要了解每個(gè)

發(fā)表于 12-17 16:53

ADS1284數(shù)據(jù)采集時(shí)，只要24位數(shù)據(jù)，是取高三位還是低三位？

ADS1284數(shù)據(jù)采集時(shí)，只要24位數(shù)據(jù)，是取高三位還是低三位？高位是MSB，低位是LSB。

發(fā)表于 11-29 08:21

NVIDIA榮登《財(cái)富》“100家最適合工作的公司”榜單第三位

NVIDIA 在《財(cái)富》雜志和卓越職場(chǎng)（Great Place to Work）最新評(píng)選出的“100 家最適合工作的公司”榜單上躍居第三位。

發(fā)表于 10-10 09:27 ?359次閱讀

英偉達(dá)推出Eagle系列模型

英偉達(dá)最新推出的Eagle系列模型，以其1024×1024像素的高分辨率處理能力，重新定義了視覺(jué)信息處理的邊界。該模型通過(guò)多專家視覺(jué)編碼器架

發(fā)表于 09-03 16:13 ?450次閱讀

計(jì)算機(jī)視覺(jué)技術(shù)的AI算法模型

計(jì)算機(jī)視覺(jué)技術(shù)作為人工智能領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實(shí)現(xiàn)這一目標(biāo)，計(jì)算機(jī)視覺(jué)技術(shù)依賴于多種先進(jìn)的AI算法模型。以下將詳細(xì)介紹幾種常

發(fā)表于 07-24 12:46 ?802次閱讀

三位半和四位半萬(wàn)用表的區(qū)別

三位半和四位半萬(wàn)用表是電子測(cè)量領(lǐng)域中常用的兩種數(shù)字萬(wàn)用表，它們?cè)跍y(cè)量精度、顯示方式、應(yīng)用范圍等方面存在一定的差異。本文將從多個(gè)方面詳細(xì)分析這兩種萬(wàn)用表的區(qū)別。一、基本概念三位半萬(wàn)用表三位

發(fā)表于 07-14 14:23 ?5579次閱讀

極化繼電器的三位置式的特點(diǎn)是什么

極化繼電器是一種特殊類型的繼電器，它具有三個(gè)位置：正常位置、極化位置和反極化位置。這種繼電器廣泛應(yīng)用于電力系統(tǒng)、自動(dòng)化控制、通信設(shè)備等領(lǐng)域。本文將詳細(xì)介紹極化繼電器的三位置式的特點(diǎn)，包括其工作原理

發(fā)表于 06-24 09:34 ?457次閱讀

聆思CSK6視覺(jué)語(yǔ)音大模型AI開(kāi)發(fā)板入門(mén)資源合集（硬件資料、大模型語(yǔ)音/多模態(tài)交互/英語(yǔ)評(píng)測(cè)SDK合集）

+ 文生圖 + 設(shè)備控制該示例展示了如何通過(guò)大模型實(shí)現(xiàn)語(yǔ)音輸入意圖的理解，實(shí)現(xiàn)對(duì)話、繪圖和控制開(kāi)發(fā)板屏幕顏色進(jìn)行切換，用戶可參考代碼與教程自行修改。 4接入自定義應(yīng)用講解如何在云端快速建立一個(gè)

發(fā)表于 06-18 17:33

大語(yǔ)言模型(LLM)快速理解

自2022年，ChatGPT發(fā)布之后，大語(yǔ)言模型（LargeLanguageModel），簡(jiǎn)稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開(kāi)始，先來(lái)整體理解一下大語(yǔ)言模型。一、發(fā)展歷史大

發(fā)表于 06-04 08:27 ?960次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

和產(chǎn)品化提供了有力的數(shù)據(jù)支持。對(duì)于生活閑聊類評(píng)測(cè)任務(wù)，模型的回答主要從人性化程度、內(nèi)容質(zhì)量和社交適應(yīng)性三個(gè)方面進(jìn)行考察。這些方面共同反映了模型在日常對(duì)話中的自然度、流暢度和應(yīng)變能力

發(fā)表于 05-07 17:12

蘋(píng)果與谷歌探索iOS/iPadOS引入Gemini模型

確認(rèn)Apple與Google確已開(kāi)啟會(huì)談，下一代iPhone或?qū)⒋钶dGemini的生成式AI模型。三位知情人士表示，如今的談判尚屬初級(jí)階段，潛在交易的具體細(xì)節(jié)暫未確定。

發(fā)表于 03-20 10:38 ?482次閱讀

三位三通電磁閥基本結(jié)構(gòu)及工作原理

三位三通電磁閥是一種常用的控制執(zhí)行元件，廣泛應(yīng)用于各種自動(dòng)化領(lǐng)域。它們通常用于控制液壓、氣動(dòng)系統(tǒng)中的液體和氣體的流動(dòng)，并實(shí)現(xiàn)各種不同的控制功能。本文將詳細(xì)介紹三位三通電磁閥的基本結(jié)構(gòu)和

發(fā)表于 01-24 11:00 ?5403次閱讀

一種新的分割模型Stable-SAM

SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時(shí)的性能比較，Stable-SAM明顯優(yōu)于其他算法。這里也推薦工坊推出的新課程《如何將深度學(xué)習(xí)

發(fā)表于 12-29 14:35 ?665次閱讀

matlab怎么取三位數(shù)的每一位

在MATLAB中，可以使用一些基本的算術(shù)和邏輯運(yùn)算來(lái)取得一個(gè)三位數(shù)的每一位。下面是一種基本的方法：步驟1: 輸入一個(gè)三位數(shù) 首先，需要在MATLAB中輸入一個(gè)三位數(shù)?？梢允褂?inp

發(fā)表于 12-28 14:44 ?2194次閱讀

請(qǐng)問(wèn)ADXL355 0X24 REGISTER中的ACT_Z ACT_Y ACT_X位是干么用的，測(cè)量三軸加速度值時(shí)需要將這三位都設(shè)置為1嗎？

請(qǐng)問(wèn)ADXL3550X24 REGISTER中的ACT_ZACT_YACT_X位是干么用的，測(cè)量三軸加速度值時(shí)需要將這三位都設(shè)置為1嗎？謝謝！

發(fā)表于 12-28 07:21

RM新时代网站-首页

搜索歷史

對(duì)話三位IEEE專家：如何理解SAM視覺(jué)大模型

評(píng)論

【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

ADS1284數(shù)據(jù)采集時(shí)，只要24位數(shù)據(jù)，是取高三位還是低三位？

NVIDIA榮登《財(cái)富》“100家最適合工作的公司”榜單第三位

英偉達(dá)推出Eagle系列模型

計(jì)算機(jī)視覺(jué)技術(shù)的AI算法模型

三位半和四位半萬(wàn)用表的區(qū)別

極化繼電器的三位置式的特點(diǎn)是什么

聆思CSK6視覺(jué)語(yǔ)音大模型AI開(kāi)發(fā)板入門(mén)資源合集（硬件資料、大模型語(yǔ)音/多模態(tài)交互/英語(yǔ)評(píng)測(cè)SDK合集）

大語(yǔ)言模型(LLM)快速理解

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

蘋(píng)果與谷歌探索iOS/iPadOS引入Gemini模型

三位三通電磁閥基本結(jié)構(gòu)及工作原理

一種新的分割模型Stable-SAM

matlab怎么取三位數(shù)的每一位

請(qǐng)問(wèn)ADXL355 0X24 REGISTER中的ACT_Z ACT_Y ACT_X位是干么用的，測(cè)量三軸加速度值時(shí)需要將這三位都設(shè)置為1嗎？