RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

計(jì)算機(jī)視覺(jué)技術(shù)的概念及應(yīng)用領(lǐng)域

傳感器技術(shù) ? 來(lái)源:cg ? 2018-12-24 15:49 ? 次閱讀

如果有人朝你扔過(guò)來(lái)一個(gè)球,通常你會(huì)怎么辦?——當(dāng)然是馬上把它接住。

這個(gè)問(wèn)題是不是很弱智?但實(shí)際上,這一過(guò)程是最復(fù)雜的處理過(guò)程之一,實(shí)際上的過(guò)程大概如下:首先球進(jìn)入人類的視網(wǎng)膜,一番元素分析后,發(fā)送到大腦,視覺(jué)皮層會(huì)更加徹底地去分析圖像,把它發(fā)送到剩余的皮質(zhì),與已知的任何物體相比較,進(jìn)行物體和緯度的歸類,最終決定你下一步的行動(dòng):舉起雙手、拿起球(之前已經(jīng)預(yù)測(cè)到它的行進(jìn)軌跡)。

上述過(guò)程只在零點(diǎn)幾秒內(nèi)發(fā)生,幾乎都是完全下意識(shí)的行為,也很少會(huì)出差錯(cuò)。因此,重塑人類的視覺(jué)并不只是單一一個(gè)困難的課題,而是一系列、環(huán)環(huán)相扣的過(guò)程。

計(jì)算機(jī)視覺(jué)技術(shù)的概念

正像其它學(xué)科一樣,一個(gè)大量人員研究了多年的學(xué)科,卻很難給出一個(gè)嚴(yán)格的定義,模式識(shí)別如此,目前火熱的人工智能如此,計(jì)算機(jī)視覺(jué)亦如此。與計(jì)算機(jī)視覺(jué)密切相關(guān)的概念有視覺(jué)感知(visual perception),視覺(jué)認(rèn)知(visual cognition),圖像和視頻理解( image and video understanding)。這些概念有一些共性之處,也有本質(zhì)不同。

從廣義上說(shuō),計(jì)算機(jī)視覺(jué)就是“賦予機(jī)器自然視覺(jué)能力”的學(xué)科。自然視覺(jué)能力,就是指生物視覺(jué)系統(tǒng)體現(xiàn)的視覺(jué)能力。一則生物自然視覺(jué)無(wú)法嚴(yán)格定義,在加上這種廣義視覺(jué)定義又“包羅萬(wàn)象”,同時(shí)也不太符合40多年來(lái)計(jì)算機(jī)視覺(jué)的研究狀況,所以這種“廣義計(jì)算機(jī)視覺(jué)定義”,雖無(wú)可挑剔,但也缺乏實(shí)質(zhì)性內(nèi)容,不過(guò)是一種“循環(huán)式游戲定義”而已。

實(shí)際上,計(jì)算機(jī)視覺(jué)本質(zhì)上就是研究視覺(jué)感知問(wèn)題。視覺(jué)感知,根據(jù)維科百基(Wikipedia)的定義, 是指對(duì)“環(huán)境表達(dá)和理解中,對(duì)視覺(jué)信息的組織、識(shí)別和解釋的過(guò)程”。根據(jù)這種定義,計(jì)算機(jī)視覺(jué)的目標(biāo)是對(duì)環(huán)境的表達(dá)和理解,核心問(wèn)題是研究如何對(duì)輸入的圖像信息進(jìn)行組織,對(duì)物體和場(chǎng)景進(jìn)行識(shí)別,進(jìn)而對(duì)圖像內(nèi)容給予解釋。

計(jì)算機(jī)視覺(jué)(ComputerVision,CV)是一門研究如何讓計(jì)算機(jī)達(dá)到人類那樣“看”的學(xué)科。更準(zhǔn)確點(diǎn)說(shuō),它是利用攝像機(jī)和電腦代替人眼使得計(jì)算機(jī)擁有類似于人類的那種對(duì)目標(biāo)進(jìn)行分割、分類、識(shí)別、跟蹤、判別決策的功能。

計(jì)算機(jī)視覺(jué)是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,是人工智能領(lǐng)域的一個(gè)重要部分,它的研究目標(biāo)是使計(jì)算機(jī)具有通過(guò)二維圖像認(rèn)知三維環(huán)境信息的能力。計(jì)算機(jī)視覺(jué)是以圖象處理技術(shù)、信號(hào)處理技術(shù)、概率統(tǒng)計(jì)分析、計(jì)算幾何、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)理論和計(jì)算機(jī)信息處理技術(shù)等為基礎(chǔ),通過(guò)計(jì)算機(jī)分析與處理視覺(jué)信息。

通常來(lái)說(shuō),計(jì)算機(jī)視覺(jué)定義應(yīng)當(dāng)包含以下三個(gè)方面:

1、對(duì)圖像中的客觀對(duì)象構(gòu)建明確而有意義的描述;

2、從一個(gè)或多個(gè)數(shù)字圖像中計(jì)算三維世界的特性;

3、基于感知圖像做出對(duì)客觀對(duì)象和場(chǎng)景有用的決策。

作為一個(gè)新興學(xué)科,計(jì)算機(jī)視覺(jué)是通過(guò)對(duì)相關(guān)的理論和技術(shù)進(jìn)行研究,從而試圖建立從圖像或多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。計(jì)算機(jī)視覺(jué)是一門綜合性的學(xué)科,其中包括計(jì)算機(jī)科學(xué)和工程、信號(hào)處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué),神經(jīng)生理學(xué)和認(rèn)知科學(xué)等,同時(shí)與圖像處理,模式識(shí)別,投影幾何,統(tǒng)計(jì)推斷,統(tǒng)計(jì)學(xué)習(xí)等學(xué)科密切相關(guān),近年來(lái),與計(jì)算機(jī)圖形學(xué),三維表現(xiàn)等學(xué)科也發(fā)生了很強(qiáng)的聯(lián)系。

人工智能與計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)與人工智能有密切聯(lián)系,但也有本質(zhì)的不同。人工智能的目的是讓計(jì)算機(jī)去看、去聽(tīng)和去讀。圖像、語(yǔ)音和文字的理解,這三大部分基本構(gòu)成了我們現(xiàn)在的人工智能。而在人工智能的這些領(lǐng)域中,視覺(jué)又是核心。大家知道,視覺(jué)占人類所有感官輸入的80%,也是最困難的一部分感知。如果說(shuō)人工智能是一場(chǎng)革命,那么它將發(fā)軔于計(jì)算機(jī)視覺(jué),而非別的領(lǐng)域。

人工智能更強(qiáng)調(diào)推理和決策,但至少計(jì)算機(jī)視覺(jué)目前還主要停留在圖像信息表達(dá)和物體識(shí)別階段?!拔矬w識(shí)別和場(chǎng)景理解”也涉及從圖像特征的推理與決策,但與人工智能的推理和決策有本質(zhì)區(qū)別。

計(jì)算機(jī)視覺(jué)和人工智能的關(guān)系:

第一, 它是一個(gè)人工智能需要解決的很重要的問(wèn)題。

第二, 它是目前人工智能的很強(qiáng)的驅(qū)動(dòng)力。因?yàn)樗泻芏鄳?yīng)用,很多技術(shù)是從計(jì)算機(jī)視覺(jué)誕生出來(lái)以后,再反運(yùn)用到AI領(lǐng)域中去。

第三, 計(jì)算機(jī)視覺(jué)擁有大量的量子AI的應(yīng)用基礎(chǔ)。

計(jì)算機(jī)視覺(jué)技術(shù)的原理

計(jì)算機(jī)視覺(jué)就是用各種成象系統(tǒng)代替視覺(jué)器官作為輸入敏感手段,由計(jì)算機(jī)來(lái)代替大腦完成處理和解釋。計(jì)算機(jī)視覺(jué)的最終研究目標(biāo)就是使計(jì)算機(jī)能象人那樣通過(guò)視覺(jué)觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。在實(shí)現(xiàn)最終目標(biāo)以前,人們努力的中期目標(biāo)是建立一種視覺(jué)系統(tǒng),這個(gè)系統(tǒng)能依據(jù)視覺(jué)敏感和反饋的某種程度的智能完成一定的任務(wù)。例如,計(jì)算機(jī)視覺(jué)的一個(gè)重要應(yīng)用領(lǐng)域就是自主車輛的視覺(jué)導(dǎo)航,還沒(méi)有條件實(shí)現(xiàn)象人那樣能識(shí)別和理解任何環(huán)境,完成自主導(dǎo)航的系統(tǒng)。因此,人們努力的研究目標(biāo)是實(shí)現(xiàn)在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺(jué)輔助駕駛系統(tǒng)。

這里要指出的一點(diǎn)是在計(jì)算機(jī)視覺(jué)系統(tǒng)中計(jì)算機(jī)起代替人腦的作用,但并不意味著計(jì)算機(jī)必須按人類視覺(jué)的方法完成視覺(jué)信息的處理。計(jì)算機(jī)視覺(jué)可以而且應(yīng)該根據(jù)計(jì)算機(jī)系統(tǒng)的特點(diǎn)來(lái)進(jìn)行視覺(jué)信息的處理。但是,人類視覺(jué)系統(tǒng)是迄今為止,人們所知道的功能最強(qiáng)大和完善的視覺(jué)系統(tǒng),對(duì)人類視覺(jué)處理機(jī)制的研究將給計(jì)算機(jī)視覺(jué)的研究提供啟發(fā)和指導(dǎo)。因此,用計(jì)算機(jī)信息處理的方法研究人類視覺(jué)的機(jī)理,建立人類視覺(jué)的計(jì)算理論,也是一個(gè)非常重要和信人感興趣的研究領(lǐng)域。

這一領(lǐng)域的深入研究是從20世紀(jì)50年代開(kāi)始的,走的是三個(gè)方向——即復(fù)制人眼;復(fù)制視覺(jué)皮層;以及復(fù)制大腦剩余部分。

復(fù)制人眼——讓計(jì)算機(jī)“去看”

目前做出最多成效的領(lǐng)域就是在“復(fù)制人眼”這一領(lǐng)域。在過(guò)去的幾十年,科學(xué)家已經(jīng)打造了傳感器和圖像處理器,這些與人類的眼睛相匹配,甚至某種程度上已經(jīng)超越。通過(guò)強(qiáng)大、光學(xué)上更加完善的鏡頭,以及納米級(jí)別制造的半導(dǎo)體像素,現(xiàn)代攝像機(jī)的精確性和敏銳度達(dá)到了一個(gè)驚人的地步。它們同樣可以拍下每秒數(shù)千張的圖像,并十分精準(zhǔn)地測(cè)量距離。

但是問(wèn)題在于,雖然我們已經(jīng)能夠?qū)崿F(xiàn)輸出端極高的保真度,但是在很多方面來(lái)說(shuō),這些設(shè)備并不比19世紀(jì)的針孔攝像機(jī)更為出色:它們充其量記錄的只是相應(yīng)方向上光子的分布,而即便是最優(yōu)秀的攝像頭傳感器也無(wú)法去“識(shí)別”一個(gè)球,遑論將它抓住。

換而言之,在沒(méi)有軟件的基礎(chǔ)上,硬件是相當(dāng)受限制的。因此這一領(lǐng)域的軟件才是要投入解決的更加棘手的問(wèn)題。不過(guò)現(xiàn)在攝像頭的先進(jìn)技術(shù),的確為這軟件提供了豐富、靈活的平臺(tái)就是了。

復(fù)制視覺(jué)皮層——讓計(jì)算機(jī)“去描述”

要知道,人的大腦從根本上就是通過(guò)意識(shí)來(lái)進(jìn)行“看”的動(dòng)作的。比起其他的任務(wù),在大腦中相當(dāng)?shù)牟糠侄际菍iT用來(lái)“看”的,而這一專長(zhǎng)是由細(xì)胞本身來(lái)完成的——數(shù)十億的細(xì)胞通力合作,從嘈雜、不規(guī)則的視網(wǎng)膜信號(hào)中提取模式。

如果在特定角度的一條沿線上出現(xiàn)了差異,或是在某個(gè)方向上出現(xiàn)了快速運(yùn)動(dòng),那么神經(jīng)元組就會(huì)興奮起來(lái)。較高級(jí)的網(wǎng)絡(luò)會(huì)將這些模式歸納進(jìn)元模式(meta-pattern)中:它是一個(gè)朝上運(yùn)動(dòng)的圓環(huán)。同時(shí),另一個(gè)網(wǎng)絡(luò)也相應(yīng)而成:這次是帶紅線的白色圓環(huán)。而還有一個(gè)模式則會(huì)在大小上增長(zhǎng)。從這些粗糙但是補(bǔ)充性的描述中,開(kāi)始生成具體的圖像。

使用人腦視覺(jué)區(qū)域相似的技術(shù),定位物體的邊緣和其他特色,從而形成的“方向梯度直方圖”

由于這些網(wǎng)絡(luò)一度被認(rèn)為是“深不可測(cè)的復(fù)雜”,因此在計(jì)算機(jī)視覺(jué)研究的早期,采用的是別的方式:即“自上而下的推理”模式——比如一本書(shū)看起來(lái)是“這樣”,那么就要注意與“這個(gè)”類似的模式。而一輛車看起來(lái)是“這樣”,動(dòng)起來(lái)又是“這樣”。

在某些受控的情況下,確實(shí)能夠?qū)ι贁?shù)幾個(gè)物體完成這一過(guò)程,但如果要描述身邊的每個(gè)物體,包括所有的角度、光照變化、運(yùn)動(dòng)和其他上百個(gè)要素,即便是咿呀學(xué)語(yǔ)的嬰兒級(jí)別的識(shí)別,也需要難以想象的龐大數(shù)據(jù)。

而如果不用“自上而下”,改用“自下而上”的辦法,即去模擬大腦中的過(guò)程,則看上去前景更加美好:計(jì)算機(jī)可以在多張圖中,對(duì)一張圖片進(jìn)行一系列的轉(zhuǎn)換,從而找到物體的邊緣,發(fā)現(xiàn)圖片上的物體、角度和運(yùn)動(dòng)。就像人類的大腦一樣,通過(guò)給計(jì)算機(jī)觀看各種圖形,計(jì)算機(jī)會(huì)使用大量的計(jì)算和統(tǒng)計(jì),試著把“看到的”形狀與之前訓(xùn)練中識(shí)別的相匹配。

科學(xué)家正在研究的,是讓智能手機(jī)和其他的設(shè)備能夠理解、并迅速識(shí)別出處在攝像頭視場(chǎng)里的物體。如上圖,街景中的物體都被打上了用于描述物體的文本標(biāo)簽,而完成這一過(guò)程的處理器要比傳統(tǒng)手機(jī)處理器快上120倍。

隨著近幾年并行計(jì)算領(lǐng)域的進(jìn)步,相關(guān)的屏障逐漸被移除。目前出現(xiàn)了關(guān)于模仿類似大腦機(jī)能研究和應(yīng)用的爆發(fā)性增長(zhǎng)。模式識(shí)別的過(guò)程正在獲得數(shù)量級(jí)的加速,我們每天都在取得更多的進(jìn)步。

復(fù)制大腦剩余部分——讓計(jì)算機(jī)“去理解”

當(dāng)然,光是“識(shí)別”“描述”是不夠的。一臺(tái)系統(tǒng)能夠識(shí)別蘋(píng)果,包括在任何情況、任何角度、任何運(yùn)動(dòng)狀態(tài),甚至是否被咬等等等等。但它仍然無(wú)法識(shí)別一個(gè)橘子。并且它甚至都不能告訴人們:啥是蘋(píng)果?是否可以吃?尺寸如何?或者具體的用途。

前面說(shuō)過(guò),沒(méi)有軟件,硬件的發(fā)揮非常受限。但現(xiàn)在的問(wèn)題是,即便是有了優(yōu)秀的軟硬件,沒(méi)有出色的操作系統(tǒng),也“然并卵”。

對(duì)于人們來(lái)說(shuō),大腦的剩余部分由這些組成,包括長(zhǎng)短期記憶、其他感官的輸入、注意力和認(rèn)知力、從世界中萬(wàn)億級(jí)別的交互中收獲的十億計(jì)知識(shí),這些知識(shí)將通過(guò)我們很難理解的方式,被寫(xiě)入互聯(lián)的神經(jīng)。而要復(fù)制它,比起我們遇到過(guò)的任何事情都要更加復(fù)雜。

計(jì)算機(jī)視覺(jué)技術(shù)的圖像處理方法

計(jì)算機(jī)視覺(jué)系統(tǒng)中,視覺(jué)信息的處理技術(shù)主要依賴于圖像處理方法,它包括圖像增強(qiáng)、數(shù)據(jù)編碼和傳輸、平滑、邊緣銳化、分割、特征抽取、圖像識(shí)別與理解等內(nèi)容。經(jīng)過(guò)這些處理后,輸出圖像的質(zhì)量得到相當(dāng)程度的改善,既改善了圖像的視覺(jué)效果,又便于計(jì)算機(jī)對(duì)圖像進(jìn)行分析、處理和識(shí)別。

圖像的增強(qiáng)

圖像的增強(qiáng)用于調(diào)整圖像的對(duì)比度,突出圖像中的重要細(xì)節(jié),改善視覺(jué)質(zhì)量。通常采用灰度直方圖修改技術(shù)進(jìn)行圖像增強(qiáng)。圖像的灰度直方圖是表示一幅圖像灰度分布情況的統(tǒng)計(jì)特性圖表,與對(duì)比度緊密相連。通過(guò)灰度直方圖的形狀,能判斷該圖像的清晰度和黑白對(duì)比度。如果獲得一幅圖像的直方圖效果不理想,可以通過(guò)直方圖均衡化處理技術(shù)作適當(dāng)修改,即把一幅已知灰度概率分布圖像中的像素灰度作某種映射變換,使它變成一幅具有均勻灰度概率分布的新圖像,實(shí)現(xiàn)使圖像清晰的目的。

圖像的平滑

圖像的平滑處理技術(shù)即圖像的去噪聲處理,主要是為了去除實(shí)際成像過(guò)程中因成像設(shè)備和環(huán)境所造成的圖像失真,提取有用信息。眾所周知,實(shí)際獲得的陶像在形成、傳輸、接收和處理的過(guò)程中,不可避免地存在著外部干擾和內(nèi)部干擾,如光電轉(zhuǎn)換過(guò)程中敏感元件靈敏度的不均勻性、數(shù)字化過(guò)程的量化噪聲、傳輸過(guò)程中的誤差以及人為因素等.均會(huì)使圖像變質(zhì)。因此,去除噪聲,恢復(fù)原始圖像是圖像處理中的一個(gè)重要內(nèi)容。

圖像的數(shù)據(jù)編碼和傳輸

數(shù)字圖像的數(shù)據(jù)量是相當(dāng)龐大的,一幅512。512個(gè)像素的數(shù)字圖像的數(shù)據(jù)量為256 K字節(jié),若假設(shè)每秒傳輸25幀圖像,則傳輸?shù)男诺浪俾蕿?2.4M比特/秒。高信道速率意味瞢高投資,也意味著普及難度的增加,因此。傳輸過(guò)程中,對(duì)圖像數(shù)據(jù)進(jìn)行壓縮顯得非常重要。數(shù)據(jù)的壓縮主要通過(guò)圖像數(shù)據(jù)的編霄和變換壓縮完成。圖像數(shù)據(jù)編碼一般采用預(yù)測(cè)編碼.即將圖像數(shù)據(jù)的空間變化規(guī)律和序列變化規(guī)律用一個(gè)預(yù)測(cè)公式表示.如果知道了,某一像素的前面各相鄰像素值之后.可以用公式預(yù)測(cè)該像素值。該方法可將一幅圖像的數(shù)據(jù)壓縮到為數(shù)不多的幾十個(gè)特傳輸,在接收端再變換回去即可。

邊緣銳化

圖像邊緣銳化處理主要是加強(qiáng)圖像中的輪廓邊緣和細(xì)節(jié),形成完整的物體邊界.達(dá)到將物體從圖像中分離出來(lái)或?qū)⒈硎就晃矬w表面的區(qū)域檢測(cè)出來(lái)的目的。它是早期視覺(jué)理論和算法中的基本問(wèn)題.也是中期和后期視覺(jué)成敗的重要因素之一。

圖像的分割

圖像分割是將圖像分成若干部分,每一部分對(duì)應(yīng)于某一物體表面.在進(jìn)行分割時(shí).每一部分的灰度或紋理符合某一種均勻測(cè)度度量。某本質(zhì)是將像素進(jìn)行分類。分類的依據(jù)是像素的灰度值、顏色、頻譜特性、空間特性或紋理特性等。圖像分割是圖像處理技術(shù)的基本方法之一,應(yīng)用于諸如染色體分類、景物理解系統(tǒng)、機(jī)器視覺(jué)等方面。圖像分割主要有兩種方法:一是鑒于度量宅問(wèn)的灰度閭值分割法。它是根據(jù)圖像灰度直方圖來(lái)決定圖像空間域像素聚類。二是空間域區(qū)域增長(zhǎng)分割方法。它是對(duì)在某種意義上(如灰度級(jí)、組織、梯度等)具有相似性質(zhì)的像素連通集構(gòu)成分割區(qū)域,該方法有很好的分割效果,但缺點(diǎn)是運(yùn)算復(fù)雜.處理速度慢。

數(shù)據(jù)驅(qū)動(dòng)的分割

常見(jiàn)的數(shù)據(jù)驅(qū)動(dòng)分割包括基于邊緣檢測(cè)的分割、基于區(qū)域的分割、邊緣與區(qū)域相結(jié)合的分割等。對(duì)于基于邊緣檢測(cè)的分割,其基本思想是先檢測(cè)圖像中的邊緣點(diǎn),再按一定策略連接成輪廓,從而構(gòu)成分割區(qū)域。難點(diǎn)在于邊緣檢測(cè)時(shí)抗噪聲性能和檢測(cè)精度的矛盾,若提高檢測(cè)精度,則噪聲產(chǎn)生的偽邊緣會(huì)導(dǎo)致不合理的輪廓;若提高抗噪聲性能,則會(huì)產(chǎn)生輪廓漏檢和位置偏差。為此,人們提出各種多尺度邊緣檢測(cè)方法,根據(jù)實(shí)際問(wèn)題設(shè)計(jì)多尺度邊緣信息的結(jié)合方案,以較好地兼顧抗噪聲性能和檢測(cè)精度。

基于區(qū)域的分割的基本思想是根據(jù)圖像數(shù)據(jù)的特征將圖像空間劃分成不同的區(qū)域。常用的特征包括:直接來(lái)自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征。方法有閾值法、區(qū)域生長(zhǎng)法、聚類法、松弛法等。

邊緣檢測(cè)能夠獲得灰度或彩色值的局部變化強(qiáng)度,區(qū)域分割能夠檢測(cè)特征的相似性與均勻性。將兩者結(jié)合起來(lái),通過(guò)邊緣點(diǎn)的限制,避免區(qū)域的過(guò)分割;同時(shí)通過(guò)區(qū)域分割補(bǔ)充漏檢的邊緣,使輪廓更加完整。例如,先進(jìn)行邊緣檢測(cè)與連接,再比較相鄰區(qū)域的特征(灰度均值、方差),若相近則合并;對(duì)原始圖像分別進(jìn)行邊緣檢測(cè)和區(qū)域生長(zhǎng),獲得邊緣圖和區(qū)域片段圖后,再按一定的準(zhǔn)則融合,得到最終分割結(jié)果。

模型驅(qū)動(dòng)的分割

常見(jiàn)的模型驅(qū)動(dòng)分割包括基于動(dòng)態(tài)輪廓(Snakes)模型、組合優(yōu)化模型、目標(biāo)幾何與統(tǒng)計(jì)模型。Snakes模型用于描述分割目標(biāo)的動(dòng)態(tài)輪廓。由于其能量函數(shù)采用積分運(yùn)算,具有較好的抗噪聲性,對(duì)目標(biāo)的局部模糊也不敏感,因而適用性很廣。但這種分割方法容易收斂到局部最優(yōu),因此要求初始輪廓應(yīng)盡可能靠近真實(shí)輪廓。

近年來(lái)對(duì)通用分割方法的研究?jī)A向于將分割看作一個(gè)組合優(yōu)化問(wèn)題,并采用一系列優(yōu)化策略完成圖像分割任務(wù)。主要思路是在分割定義的約束條件之外,根據(jù)具體任務(wù)再定義一個(gè)優(yōu)化目標(biāo)函數(shù),所求分割的解就是該目標(biāo)函數(shù)在約束條件下的全局最優(yōu)解。以組合優(yōu)化的觀點(diǎn)處理分割問(wèn)題,主要是利用一個(gè)目標(biāo)函數(shù)綜合表示分割的各種要求和約束,將分割變?yōu)槟繕?biāo)函數(shù)的優(yōu)化求解。由于目標(biāo)函數(shù)通常是一個(gè)多變量函數(shù),可采用隨機(jī)優(yōu)化方法。

基于目標(biāo)幾何與統(tǒng)計(jì)模型的分割是將目標(biāo)分割與識(shí)別集成在一起的方法,常稱作目標(biāo)檢測(cè)或提取?;舅枷胧菍⒂嘘P(guān)目標(biāo)的幾何與統(tǒng)計(jì)知識(shí)表示成模型,將分割與識(shí)別變?yōu)槠ヅ浠虮O(jiān)督分類。常用的模型有模板、特征矢量模型、基于連接的模型等。這種分割方法能夠同時(shí)完成部分或全部識(shí)別任務(wù),具有較高的效率。然而由于成像條件變化,實(shí)際圖像中的目標(biāo)往往與模型有一定的區(qū)別,需要面對(duì)誤檢與漏檢的矛盾,匹配時(shí)的搜索步驟也頗為費(fèi)時(shí)。

圖像的識(shí)別

圖像的識(shí)別過(guò)程實(shí)際上可以看作是一個(gè)標(biāo)記過(guò)程,即利用識(shí)別算法來(lái)辨別景物中已分割好的各個(gè)物體.給這螳物體賦予特定的標(biāo)記,它是汁算機(jī)視覺(jué)系統(tǒng)必須完成的一個(gè)任務(wù)。按照網(wǎng)像識(shí)別從易到難.町分為i類問(wèn)題?第一類識(shí)別問(wèn)題中.圖像中的像素表達(dá)了某一物體的某種特定信息。第二類問(wèn)題中,待識(shí)別物是有形的整體。二維圖像信息已經(jīng)足夠識(shí)別該物體.如文字識(shí)別、某些具有穩(wěn)定可視表面的三維體識(shí)別等。第三類問(wèn)題是由輸入的二維圖、要素圖、2x5維圖等.得出被測(cè)物體的三維表示。這里存著如何將隱含的三維信息提取出來(lái)的問(wèn)題.當(dāng)是今研究的熱點(diǎn)。

目前用于圖像識(shí)別的方法主要分為決策理論和結(jié)構(gòu)方法。決策理論方法的基礎(chǔ)是決策函數(shù),利用它對(duì)模式向量進(jìn)行分類識(shí)別.是以定時(shí)描述(如統(tǒng)計(jì)紋理)為基礎(chǔ)的:結(jié)構(gòu)方法的核心是將物體分解成』'模式或模式基元,而不同的物體結(jié)構(gòu)有不同的基元串(或稱字符串),通過(guò)對(duì)未知物體利用給定的模式基元求出編碼邊界,得到字符串,冉根據(jù)字符串判斷它的屬類。這是一種依賴于符號(hào)描述被測(cè)物體之間關(guān)系的方法。

計(jì)算機(jī)視覺(jué)的應(yīng)用領(lǐng)域

計(jì)算機(jī)視覺(jué)的應(yīng)用領(lǐng)域主要包括對(duì)照片、視頻資料如航空照片、衛(wèi)星照片、視頻片段等的解釋、精確制導(dǎo)、移動(dòng)機(jī)器人視覺(jué)導(dǎo)航、醫(yī)學(xué)輔助診斷、工業(yè)機(jī)器人的手眼系統(tǒng)、地圖繪制、物體三維形狀分析與識(shí)別及智能人機(jī)接口等。

早期進(jìn)行數(shù)字圖像處理的目的之一就是要通過(guò)采用數(shù)字技術(shù)提高照片的質(zhì)量,輔助進(jìn)行航空照片和衛(wèi)星照片的讀取判別與分類。由于需要判讀的照片數(shù)量很多,于是希望有自動(dòng)的視覺(jué)系統(tǒng)進(jìn)行判讀解釋,在這樣的背景下,產(chǎn)生了許多航空照片和衛(wèi)星照片判讀系統(tǒng)與方法。自動(dòng)判讀的進(jìn)一步應(yīng)用就是直接確定目標(biāo)的性質(zhì),進(jìn)行實(shí)時(shí)的自動(dòng)分類,并與制導(dǎo)系統(tǒng)相結(jié)合。目前常用的制導(dǎo)方式包括激光制導(dǎo)、電視制導(dǎo)和圖像制導(dǎo),在導(dǎo)彈系統(tǒng)中常常將慣性制導(dǎo)與圖像制導(dǎo)結(jié)合,利用圖像進(jìn)行精確的末制導(dǎo)。

工業(yè)機(jī)器人的手眼系統(tǒng)是計(jì)算機(jī)視覺(jué)應(yīng)用最為成功的領(lǐng)域之一,由于工業(yè)現(xiàn)場(chǎng)的諸多因素,如光照條件、成像方向均是可控的,因此使得問(wèn)題大為簡(jiǎn)化,有利于構(gòu)成實(shí)際的系統(tǒng)。與工業(yè)機(jī)器人不同,對(duì)于移動(dòng)機(jī)器人而言,由于它具有行為能力,于是就必須解決行為規(guī)劃問(wèn)題,即是對(duì)環(huán)境的了解。隨著移動(dòng)式機(jī)器人的發(fā)展,越來(lái)越多地要求提供視覺(jué)能力,包括道路跟蹤、回避障礙、特定目標(biāo)識(shí)別等。目前移動(dòng)機(jī)器人視覺(jué)系統(tǒng)研究仍處于實(shí)驗(yàn)階段,大多采用遙控和遠(yuǎn)視方法。

在醫(yī)學(xué)上采用的圖像處理技術(shù)大致包括壓縮、存儲(chǔ)、傳輸和自動(dòng)/輔助分類判讀,此外還可用于醫(yī)生的輔助訓(xùn)練手段。與計(jì)算機(jī)視覺(jué)相關(guān)的工作包括分類、判讀和快速三維結(jié)構(gòu)的重建等方面。長(zhǎng)期以來(lái),地圖繪制是一件耗費(fèi)人力、物力和時(shí)間的工作。以往的做法是人工測(cè)量,現(xiàn)在更多的是利用航測(cè)加上立體視覺(jué)中恢復(fù)三維形狀的方法繪制地圖,大大提高了地圖繪制的效率。同時(shí),通用物體三維形狀分析與識(shí)別一直是計(jì)算機(jī)視覺(jué)的重要研究目標(biāo),并在景物的特征提取、表示、知識(shí)的存儲(chǔ)、檢索以及匹配識(shí)別等方面都取得了一定的進(jìn)展,構(gòu)成了一些用于三維景物分析的系統(tǒng)。

近年來(lái),基于生物特征(biometrics)的鑒別技術(shù)得到了廣泛重視,主要集中在對(duì)人臉、虹膜、指紋、聲音等特征上,這其中大多都與視覺(jué)信息有關(guān)。與生物特征識(shí)別密切相關(guān)的另一個(gè)重要應(yīng)用是用于構(gòu)成智能人機(jī)接口?,F(xiàn)在計(jì)算機(jī)與人的交流還是機(jī)械式的,計(jì)算機(jī)無(wú)法識(shí)別用戶的真實(shí)身份,除鍵盤、鼠標(biāo)外,其他輸入手段還不成熟。利用計(jì)算機(jī)視覺(jué)技術(shù)可以使計(jì)算機(jī)檢測(cè)到用戶是否存在、鑒別用戶身份、識(shí)別用戶的體勢(shì)(如點(diǎn)頭、搖頭)。此外,這種人機(jī)交互方式還可推廣到一切需要人機(jī)交互的場(chǎng)合,如入口安全控制、過(guò)境人員的驗(yàn)放等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:深度解讀計(jì)算機(jī)視覺(jué)技術(shù)

文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的關(guān)系簡(jiǎn)述

    初涉機(jī)器視覺(jué)領(lǐng)域,總是容易將其與計(jì)算機(jī)視覺(jué)這一概念混淆。實(shí)際上兩者確實(shí)存在一定的相同之處,但也不能因此而將這兩者視為同一
    發(fā)表于 05-13 14:57

    深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域圖像應(yīng)用總結(jié) 精選資料下載

    突破的領(lǐng)域,真正讓大家大吃一驚的顛覆傳統(tǒng)方法的應(yīng)用領(lǐng)域是語(yǔ)音識(shí)別,做出來(lái)的公司是微軟,而不是當(dāng)時(shí)如日中天的谷歌。計(jì)算機(jī)視覺(jué)應(yīng)用深度學(xué)習(xí)堪稱突破的成功點(diǎn)是2012年ImageNet比賽,
    發(fā)表于 07-28 08:22

    淺析計(jì)算機(jī)接口與控制技術(shù)

    :3適用專業(yè):鉆井、機(jī)電、工業(yè)自動(dòng)化課程性質(zhì):學(xué)位課先修課程:模擬數(shù)字電路、自動(dòng)控一、課程目的與要求:工業(yè)控制是計(jì)算機(jī)的一個(gè)重要應(yīng)用領(lǐng)域,計(jì)算機(jī)控制正是為了適...
    發(fā)表于 09-10 06:45

    計(jì)算機(jī)應(yīng)用領(lǐng)域的劃分

    計(jì)算機(jī)應(yīng)用領(lǐng)域的劃分小型專用型:玩具,汽車桌面通用型:電腦高端服務(wù)型:服務(wù)器**嵌入式系統(tǒng)的含義:**將計(jì)算機(jī)的硬件或者軟件嵌入到其他機(jī)電設(shè)備或者應(yīng)用系統(tǒng)中去,構(gòu)成的新的系統(tǒng)構(gòu)造原則:以應(yīng)用為中心
    發(fā)表于 10-27 07:08

    基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)

    基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)OpencV是用來(lái)實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)的開(kāi)放源碼工作庫(kù),是
    發(fā)表于 11-23 21:06 ?0次下載
    基于OpenCV的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>技術(shù)</b>實(shí)現(xiàn)

    計(jì)算機(jī)視覺(jué)與機(jī)器視覺(jué)區(qū)別

     “計(jì)算機(jī)視覺(jué)”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺(jué)功能,對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。計(jì)算機(jī)視覺(jué)
    的頭像 發(fā)表于 12-08 09:27 ?1.3w次閱讀

    計(jì)算機(jī)的主要應(yīng)用領(lǐng)域

    本視頻主要詳細(xì)介紹了計(jì)算機(jī)的主要應(yīng)用領(lǐng)域,分別是科學(xué)計(jì)算、過(guò)程檢控、信息管理、輔助系統(tǒng)、人工智能、語(yǔ)言翻譯。
    的頭像 發(fā)表于 12-25 16:09 ?20.5w次閱讀

    計(jì)算機(jī)視覺(jué)技術(shù)簡(jiǎn)介

    由于“計(jì)算機(jī)視覺(jué)”反映了對(duì)視覺(jué)環(huán)境及其上下文的相對(duì)理解,因此,一些科學(xué)家認(rèn)為,該領(lǐng)域為人工智能領(lǐng)域鋪平了道路。那么什么是
    發(fā)表于 07-11 11:24 ?4458次閱讀

    深度學(xué)習(xí)后的計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域解析

    計(jì)算機(jī)視覺(jué)是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,是人工智能領(lǐng)域的一個(gè)重要部分,它主要任務(wù)是通過(guò)對(duì)采集的圖片或視頻進(jìn)行處理以獲得相應(yīng)場(chǎng)景
    發(fā)表于 07-22 16:49 ?1858次閱讀

    計(jì)算機(jī)視覺(jué)技術(shù)概念

    正像其它學(xué)科一樣,一個(gè)大量人員研究了多年的學(xué)科,卻很難給出一個(gè)嚴(yán)格的定義,模式識(shí)別如此,目前火熱的人工智能如此,計(jì)算機(jī)視覺(jué)亦如此。與計(jì)算機(jī)視覺(jué)密切相關(guān)的
    的頭像 發(fā)表于 03-10 14:19 ?4514次閱讀

    計(jì)算機(jī)視覺(jué)主要應(yīng)用領(lǐng)域有哪些

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)在人工智能技術(shù)中,計(jì)算機(jī)視覺(jué)較早發(fā)展并取得突破,目前應(yīng)用場(chǎng)景也較為明確。計(jì)算機(jī)視覺(jué)在人工智能中占據(jù)重要市場(chǎng)地位
    的頭像 發(fā)表于 03-31 10:02 ?1.6w次閱讀

    計(jì)算機(jī)視覺(jué)的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用

    本文將介紹計(jì)算機(jī)視覺(jué)的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用,對(duì)任何聽(tīng)說(shuō)過(guò)計(jì)算機(jī)視覺(jué)但不確定它是什么以及如何應(yīng)用的人,本文是了解
    的頭像 發(fā)表于 11-08 10:10 ?1532次閱讀

    計(jì)算機(jī)視覺(jué)概念和主要任務(wù)

    作為人工智能的關(guān)鍵領(lǐng)域之一的計(jì)算機(jī)視覺(jué)近期再次成為了熱點(diǎn),那么你真的了解什么是計(jì)算機(jī)視覺(jué)嗎?
    的頭像 發(fā)表于 07-17 11:20 ?1364次閱讀

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的區(qū)別

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的區(qū)別 機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)是兩個(gè)相關(guān)但不同的
    的頭像 發(fā)表于 08-09 16:51 ?2010次閱讀

    計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域有哪些主要應(yīng)用?

    計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支,它主要研究如何讓計(jì)算機(jī)能夠像人類一樣理解和處理圖像和視頻數(shù)據(jù)。計(jì)算機(jī)
    的頭像 發(fā)表于 07-09 09:14 ?1316次閱讀
    RM新时代网站-首页