rm新时代是什么时候开始的,rm官网怎么登录

這是一篇計(jì)算機(jī)視覺(jué)入門(mén)指南，從概念、原理、用例等角度介紹了計(jì)算機(jī)視覺(jué)。

「機(jī)器能夠模擬人類視覺(jué)系統(tǒng)」的幻想已經(jīng)過(guò)時(shí)了。自 1960 年代第一批學(xué)術(shù)論文出現(xiàn)以來(lái)，計(jì)算機(jī)視覺(jué)已經(jīng)走了很遠(yuǎn)，現(xiàn)代系統(tǒng)已經(jīng)出現(xiàn)，且它們可以集成到移動(dòng)應(yīng)用中。

今天，由于其廣泛應(yīng)用和巨大潛力，計(jì)算機(jī)視覺(jué)成為最熱的人工智能和機(jī)器學(xué)習(xí)子領(lǐng)域之一。其目標(biāo)是：復(fù)制人類視覺(jué)的強(qiáng)大能力。

但是，到底什么是計(jì)算機(jī)視覺(jué)？它在不同行業(yè)中的應(yīng)用現(xiàn)狀如何？知名的商業(yè)用例有哪些？典型的計(jì)算機(jī)視覺(jué)任務(wù)是什么？

本文將介紹計(jì)算機(jī)視覺(jué)的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用，對(duì)任何聽(tīng)說(shuō)過(guò)計(jì)算機(jī)視覺(jué)但不確定它是什么以及如何應(yīng)用的人，本文是了解計(jì)算機(jī)視覺(jué)這一復(fù)雜問(wèn)題的便捷途徑。

你可以通讀本文，或者直接跳至某個(gè)章節(jié)。

什么是計(jì)算機(jī)視覺(jué)？

計(jì)算機(jī)視覺(jué)解決什么問(wèn)題

區(qū)分計(jì)算機(jī)視覺(jué)與其相關(guān)領(lǐng)域

行業(yè)應(yīng)用

零售業(yè)

制造業(yè)

醫(yī)療行業(yè)

自動(dòng)駕駛

保險(xiǎn)業(yè)

農(nóng)業(yè)

安防

典型的計(jì)算機(jī)視覺(jué)任務(wù)

圖像分類

定位

目標(biāo)檢測(cè)

目標(biāo)識(shí)別

實(shí)例分割

目標(biāo)追蹤

計(jì)算機(jī)視覺(jué)運(yùn)行原理

通用策略

現(xiàn)有數(shù)據(jù)集

訓(xùn)練目標(biāo)檢測(cè)模型

商業(yè)用例

視覺(jué)搜索引擎

Facebook 人臉識(shí)別

Amazon Go

特斯拉自動(dòng)駕駛

微軟 InnerEye

計(jì)算機(jī)視覺(jué)在小公司的應(yīng)用現(xiàn)狀

如何實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)項(xiàng)目

什么是計(jì)算機(jī)視覺(jué)？

計(jì)算機(jī)視覺(jué)解決什么問(wèn)題

人類能夠理解和描述圖像中的場(chǎng)景。以下圖為例，人類能做到的不僅僅是檢測(cè)到圖像前景中有四個(gè)人、一條街道和幾輛車。

除了這些基本信息，人類還能夠看出圖像前景中的人正在走路，其中一人赤腳，我們甚至知道他們是誰(shuí)。我們可以理性地推斷出圖中人物沒(méi)有被車撞擊的危險(xiǎn)，白色的大眾汽車沒(méi)有停好。人類還可以描述圖中人物的穿著，不止是衣服顏色，還有材質(zhì)與紋理。

這也是計(jì)算機(jī)視覺(jué)系統(tǒng)需要的技能。簡(jiǎn)單來(lái)說(shuō)，計(jì)算機(jī)視覺(jué)解決的主要問(wèn)題是：

給出一張二維圖像，計(jì)算機(jī)視覺(jué)系統(tǒng)必須識(shí)別出圖像中的對(duì)象及其特征，如形狀、紋理、顏色、大小、空間排列等，從而盡可能完整地描述該圖像。

區(qū)分計(jì)算機(jī)視覺(jué)與其相關(guān)領(lǐng)域

計(jì)算機(jī)視覺(jué)完成的任務(wù)遠(yuǎn)超其他領(lǐng)域，如圖像處理、機(jī)器視覺(jué)，盡管它們存在一些共同點(diǎn)。接下來(lái)，我們就來(lái)了解一下這些領(lǐng)域之間的差異。

圖像處理

圖像處理旨在處理原始圖像以應(yīng)用某種變換。其目標(biāo)通常是改進(jìn)圖像或?qū)⑵渥鳛槟稠?xiàng)特定任務(wù)的輸入，而計(jì)算機(jī)視覺(jué)的目標(biāo)是描述和解釋圖像。例如，降噪、對(duì)比度或旋轉(zhuǎn)操作這些典型的圖像處理組件可以在像素層面執(zhí)行，無(wú)需對(duì)圖像整體具備全面的了解。

機(jī)器視覺(jué)

機(jī)器視覺(jué)是計(jì)算機(jī)視覺(jué)用于執(zhí)行某些（生產(chǎn)線）動(dòng)作的特例。在化工行業(yè)中，機(jī)器視覺(jué)系統(tǒng)可以檢查生產(chǎn)線上的容器（是否干凈、空置、無(wú)損）或檢查成品是否恰當(dāng)封裝，從而幫助產(chǎn)品制造。

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)可以解決更復(fù)雜的問(wèn)題，如人臉識(shí)別、詳細(xì)的圖像分析（可幫助實(shí)現(xiàn)視覺(jué)搜索，如 Google Images），或者生物識(shí)別方法。

行業(yè)應(yīng)用

人類不僅能夠理解圖像中的場(chǎng)景，稍加訓(xùn)練，還能解釋書(shū)法、印象派畫(huà)家、抽象畫(huà)，以及胎兒的二維超聲圖像。

從這個(gè)角度來(lái)看，計(jì)算機(jī)視覺(jué)領(lǐng)域尤其復(fù)雜，它擁有大量的實(shí)際應(yīng)用。

從電商到傳統(tǒng)行業(yè)，各種類型和規(guī)模的公司現(xiàn)在都可以利用計(jì)算機(jī)視覺(jué)的強(qiáng)大能力，這是依賴于人工智能和機(jī)器學(xué)習(xí)（更具體地說(shuō)是計(jì)算機(jī)視覺(jué)）的創(chuàng)新所帶來(lái)的利好。

下面我們就來(lái)看看，近年來(lái)受計(jì)算機(jī)視覺(jué)影響最大的行業(yè)應(yīng)用。

零售業(yè)

近年來(lái)，計(jì)算機(jī)視覺(jué)在零售業(yè)的應(yīng)用已成為最重要的技術(shù)趨勢(shì)之一。下文將介紹一些常見(jiàn)的用例。如果你想對(duì)計(jì)算機(jī)視覺(jué)在零售業(yè)的潛在應(yīng)用有更詳細(xì)的了解，請(qǐng)參考：https://tryolabs.com/resources/retail-innovations-machine-learning/。

行為追蹤

實(shí)體零售店利用計(jì)算機(jī)視覺(jué)算法和攝像頭，了解顧客及其行為。

計(jì)算機(jī)視覺(jué)算法能夠識(shí)別人臉，確定人物特征，如性別或年齡范圍。此外，零售店還可以利用計(jì)算機(jī)視覺(jué)技術(shù)追蹤顧客在店內(nèi)的移動(dòng)軌跡，分析其移動(dòng)路線，檢測(cè)行走模式，并統(tǒng)計(jì)零售店店面受到行人注意的次數(shù)。

添加視線方向檢測(cè)后，零售店能夠回答這一重要問(wèn)題：將店內(nèi)商品放在哪個(gè)位置可以提升消費(fèi)者體驗(yàn)，最大化銷售額。

計(jì)算機(jī)視覺(jué)還是開(kāi)發(fā)防盜竊機(jī)制的強(qiáng)大工具。人臉識(shí)別算法可用于識(shí)別已知的商店扒手，或檢測(cè)出某位顧客將商品放入自己的背包。

庫(kù)存管理

計(jì)算機(jī)視覺(jué)在庫(kù)存管理方面有兩個(gè)主要的應(yīng)用。

通過(guò)安防攝像頭圖像分析，計(jì)算機(jī)視覺(jué)算法可以對(duì)店內(nèi)剩余商品生成非常準(zhǔn)確的估計(jì)。對(duì)于店鋪管理者來(lái)說(shuō)，這是非常寶貴的信息，它可以幫助管理者立即察覺(jué)不尋常的貨物需求，并及早作出反應(yīng)。

另一個(gè)常見(jiàn)應(yīng)用是：分析貨架空間利用情況，識(shí)別次優(yōu)配置。除了發(fā)現(xiàn)被浪費(fèi)的空間以外，此類算法還可以提供更好的貨品擺放方案。

制造業(yè)

生產(chǎn)線上的主要問(wèn)題是機(jī)器中斷或殘次品，這些問(wèn)題會(huì)導(dǎo)致生產(chǎn)延遲和利潤(rùn)損失。

計(jì)算機(jī)視覺(jué)算法被證實(shí)是實(shí)施預(yù)測(cè)性維護(hù)的好方法。算法通過(guò)分析（來(lái)自機(jī)器人身上攝像頭等的）視覺(jué)信息，預(yù)先發(fā)現(xiàn)機(jī)器的潛在問(wèn)題。此類系統(tǒng)可以預(yù)測(cè)包裝或汽車裝配機(jī)器人是否會(huì)中斷，這是一項(xiàng)巨大的貢獻(xiàn)。

這同樣可用于降低不良率，系統(tǒng)可以檢測(cè)出整個(gè)生產(chǎn)線上各個(gè)組件中的缺陷。這使得制造商實(shí)時(shí)響應(yīng)，采取解決辦法。缺陷可能不那么嚴(yán)重，生產(chǎn)流程可以繼續(xù)，但是產(chǎn)品以某種方式被標(biāo)記，或者被指向特定的生產(chǎn)路徑。但是，有時(shí)停止生產(chǎn)線是必要的。為了進(jìn)一步的利益，此類系統(tǒng)可以針對(duì)每個(gè)用例進(jìn)行訓(xùn)練，按類型和嚴(yán)重程度對(duì)缺陷進(jìn)行分類。

醫(yī)療行業(yè)

在醫(yī)療行業(yè)中，現(xiàn)有計(jì)算機(jī)視覺(jué)應(yīng)用的數(shù)量非常龐大。

毫無(wú)疑問(wèn)，醫(yī)療圖像分析是最著名的例子，它可以顯著提升醫(yī)療診斷流程。此類系統(tǒng)對(duì) MRI 圖像、CT 掃描圖像和 X 光圖像進(jìn)行分析，找出腫瘤等異常，或者搜索神經(jīng)系統(tǒng)疾病的癥狀。

在很多情況下，圖像分析技術(shù)從圖像中提取特征，從而訓(xùn)練能夠檢測(cè)異常的分類器。但是，一些特定應(yīng)用需要更細(xì)化的圖像處理。例如，對(duì)結(jié)腸鏡檢查圖像進(jìn)行分析時(shí)，分割圖像是必要的，這樣才能找出腸息肉，防止結(jié)直腸癌。

胸腔 3D 渲染 CT 掃描圖像的體分割。（圖源：https://en.wikipedia.org/wiki/Image_segmentation）

上圖是觀察胸腔元素所需的圖像分割結(jié)果。該系統(tǒng)分割每個(gè)重要部分并著色：肺動(dòng)脈（藍(lán)色）、肺靜脈（紅色）、縱膈（黃色）和橫膈（紫色）。

目前大量此類應(yīng)用已經(jīng)投入使用，如估計(jì)產(chǎn)后出血量、量化冠狀動(dòng)脈鈣化情況、在沒(méi)有 MRI 的情況下測(cè)定人體內(nèi)的血流量。

但是，醫(yī)療圖像并非計(jì)算機(jī)視覺(jué)在醫(yī)療行業(yè)中唯一的用武之地。比如，計(jì)算機(jī)視覺(jué)技術(shù)為視障人士提供室內(nèi)導(dǎo)航幫助。這些系統(tǒng)可以在樓層平面圖中定位行人和周圍事物等，以便實(shí)時(shí)提供視覺(jué)體驗(yàn)。視線追蹤和眼部分析可用于檢測(cè)早期認(rèn)知障礙，如兒童自閉癥或閱讀障礙，這些疾病與異常注視行為高度相關(guān)。

自動(dòng)駕駛

你是否思考過(guò)，自動(dòng)駕駛汽車如何「看」路？計(jì)算機(jī)視覺(jué)在其中扮演核心角色，它幫助自動(dòng)駕駛汽車感知和了解周圍環(huán)境，進(jìn)而恰當(dāng)運(yùn)行。

計(jì)算機(jī)視覺(jué)最令人興奮的挑戰(zhàn)之一是圖像和視頻目標(biāo)檢測(cè)。這包括對(duì)不同數(shù)量的對(duì)象進(jìn)行定位和分類，以便區(qū)分某個(gè)對(duì)象是交通信號(hào)燈、汽車還是行人，如下圖所示：

自動(dòng)駕駛汽車目標(biāo)檢測(cè)。（圖源：https://cdn-images-1.medium.com/max/1600/1*q1uVc-MU-tC-WwFp2yXJow.gif）

此類技術(shù)，加上對(duì)來(lái)自傳感器和/或雷達(dá)等來(lái)源的數(shù)據(jù)進(jìn)行分析，使得汽車能夠「看見(jiàn)」。

圖像目標(biāo)檢測(cè)是一項(xiàng)復(fù)雜的強(qiáng)大任務(wù)，之前我們?cè)?jīng)討論過(guò)，參見(jiàn)：https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。

另一篇文章從人類-圖像交互的角度探討這一主題，參見(jiàn)：https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。

保險(xiǎn)業(yè)

計(jì)算機(jī)視覺(jué)在保險(xiǎn)業(yè)中的應(yīng)用影響很大，尤其是在理賠處理中。

計(jì)算機(jī)視覺(jué)應(yīng)用可以指導(dǎo)客戶以視覺(jué)形式進(jìn)行理賠文件處理。它可以實(shí)時(shí)分析圖像并發(fā)送至適合的保險(xiǎn)經(jīng)紀(jì)人。同時(shí)，它可以估計(jì)和調(diào)整維護(hù)費(fèi)用，確定是否在保險(xiǎn)覆蓋范圍內(nèi)，甚至檢測(cè)是否存在保險(xiǎn)欺詐。所有這些最大程度上縮短了索賠流程，為客戶提供更好的體驗(yàn)。

從預(yù)防的角度來(lái)看，計(jì)算機(jī)視覺(jué)在避免意外事故方面用處極大。大量可用于阻止碰撞的計(jì)算機(jī)視覺(jué)應(yīng)用被整合到工業(yè)機(jī)械、汽車和無(wú)人機(jī)中。這是風(fēng)險(xiǎn)管理的新時(shí)代，可能改變整個(gè)保險(xiǎn)業(yè)。

農(nóng)業(yè)

計(jì)算機(jī)視覺(jué)對(duì)農(nóng)業(yè)有極大影響，尤其是精準(zhǔn)農(nóng)業(yè)。

在糧食生產(chǎn)這一全球經(jīng)濟(jì)活動(dòng)中，存在一系列寶貴的計(jì)算機(jī)視覺(jué)應(yīng)用。糧食生產(chǎn)面臨一些反復(fù)出現(xiàn)的問(wèn)題，之前這些問(wèn)題通常由人類監(jiān)控。而現(xiàn)在，計(jì)算機(jī)視覺(jué)算法可以檢測(cè)或合理預(yù)測(cè)病蟲(chóng)害。此類早期診斷可幫助農(nóng)民快速采取合適措施，減少損失，保證生產(chǎn)質(zhì)量。

另一項(xiàng)長(zhǎng)期挑戰(zhàn)是除草，因?yàn)殡s草對(duì)除草劑產(chǎn)生抗藥性，可能給農(nóng)民帶來(lái)嚴(yán)重?fù)p失。現(xiàn)在出現(xiàn)了配備有計(jì)算機(jī)視覺(jué)技術(shù)的機(jī)器人，它們可以監(jiān)控整片農(nóng)田，精準(zhǔn)噴灑除草劑。這極大地節(jié)約了使用農(nóng)藥量，為地球環(huán)境和生產(chǎn)成本均帶來(lái)了極大的益處。

土壤質(zhì)量也是農(nóng)業(yè)中的一大主要因素。一些計(jì)算機(jī)視覺(jué)應(yīng)用可以從手機(jī)拍攝的照片中識(shí)別出土壤的潛在缺陷和營(yíng)養(yǎng)缺乏問(wèn)題。分析之后，這些應(yīng)用會(huì)針對(duì)檢測(cè)出的土壤問(wèn)題，提供土壤恢復(fù)技術(shù)和可能的解決方案。

計(jì)算機(jī)視覺(jué)還可用于分類。一些算法通過(guò)識(shí)別水果、蔬菜甚至花卉的主要特性（如大小、質(zhì)量、重量、顏色、紋理等），對(duì)其進(jìn)行分類。這些算法還能夠檢測(cè)缺陷，估計(jì)出哪些農(nóng)產(chǎn)品保鮮期較長(zhǎng)、哪些應(yīng)該放置在本地市場(chǎng)售賣(mài)。這極大延長(zhǎng)了農(nóng)產(chǎn)品的保鮮期，減少了農(nóng)產(chǎn)品上市前所需時(shí)間。

安防

與零售業(yè)類似，對(duì)安全具備高要求的企業(yè)（如銀行或賭場(chǎng)）可從計(jì)算機(jī)視覺(jué)應(yīng)用中獲益，這些應(yīng)用對(duì)安防攝像頭拍攝的圖像進(jìn)行分析，從而識(shí)別顧客。

而從另一個(gè)層面上來(lái)講，計(jì)算機(jī)視覺(jué)是國(guó)土安全任務(wù)中的強(qiáng)大工具。它可用于改進(jìn)港口貨物檢驗(yàn)，或者監(jiān)控敏感場(chǎng)所，如大使館、發(fā)電站、醫(yī)院、鐵路和體育場(chǎng)。這里，計(jì)算機(jī)視覺(jué)不僅能夠分析和分類圖像，還能對(duì)場(chǎng)景提供詳細(xì)且有意義的描述，為決策實(shí)時(shí)提供關(guān)鍵因素。

通常，計(jì)算機(jī)視覺(jué)廣泛應(yīng)用于國(guó)防任務(wù)，如偵察敵軍地形、自動(dòng)確認(rèn)圖像中的敵軍、自動(dòng)化車輛和機(jī)器移動(dòng)，以及搜索援救。

典型的計(jì)算機(jī)視覺(jué)任務(wù)

高度復(fù)制人類視覺(jué)系統(tǒng)，這是如何做到的呢？

計(jì)算機(jī)視覺(jué)基于大量不同任務(wù)，并組合在一起實(shí)現(xiàn)高度復(fù)雜的應(yīng)用。計(jì)算機(jī)視覺(jué)中最常見(jiàn)的任務(wù)是圖像和視頻識(shí)別，涉及確定圖像包含的不同對(duì)象。

圖像分類

計(jì)算機(jī)視覺(jué)中最知名的任務(wù)可能就是圖像分類了，它對(duì)給定圖像進(jìn)行分類。我們看一個(gè)簡(jiǎn)單的二分類例子：我們想根據(jù)圖像是否包含旅游景點(diǎn)對(duì)其進(jìn)行分類。假設(shè)我們?yōu)榇巳蝿?wù)構(gòu)建了一個(gè)分類器，并提供了一張圖像（見(jiàn)下圖）。

埃菲爾鐵塔（圖源：https://cdn.pariscityvision.com/media/wysiwyg/tour-eiffel.jpg）

該分類器認(rèn)為上述圖像屬于包含旅游景點(diǎn)的圖像類別。但這并不意味著分類器認(rèn)出埃菲爾鐵塔了，它可能只是曾經(jīng)見(jiàn)過(guò)這座塔的照片，并且當(dāng)時(shí)被告知圖像中包含旅游景點(diǎn)。

巴黎旅游景點(diǎn)明信片。（圖源：http://toyworldgroup.com/image/cache/catalog/Ecuda%20Puzzles/Postcard%20Form%20Paris%20/14840-500x500.jpg）

該分類器的更強(qiáng)大版本可以處理不止兩個(gè)類別。例如，分類器將圖像分類為旅游景點(diǎn)的特定類型，如埃菲爾鐵塔、凱旋門(mén)、圣心大教堂等。那么在此類場(chǎng)景中，每個(gè)圖像輸入可能有多個(gè)答案，就像上面那張明信片一樣。

定位

假設(shè)，現(xiàn)在我們不僅想知道圖像中出現(xiàn)的旅游景點(diǎn)名稱，還對(duì)其在圖像中的位置感興趣。定位的目標(biāo)就是找出圖像中單個(gè)對(duì)象的位置。例如，下圖中埃菲爾鐵塔的位置就被標(biāo)記出來(lái)了。

被紅色邊界框標(biāo)記出的埃菲爾鐵塔。（圖源：https://cdn.pariscityvision.com/media/wysiwyg/tour-eiffel.jpg）

執(zhí)行定位的標(biāo)準(zhǔn)方式是，在圖像中定義一個(gè)將對(duì)象圍住的邊界框。

定位是一個(gè)很有用的任務(wù)。比如，它可以對(duì)大量圖像執(zhí)行自動(dòng)對(duì)象剪裁。將定位與分類任務(wù)結(jié)合起來(lái)，就可以快速構(gòu)建著名旅游景點(diǎn)（剪裁）圖像數(shù)據(jù)集。

目標(biāo)檢測(cè)

我們想象一個(gè)同時(shí)包含定位和分類的動(dòng)作，對(duì)一張圖像中的所有感興趣對(duì)象重復(fù)執(zhí)行該動(dòng)作，這就是目標(biāo)檢測(cè)。該場(chǎng)景中，圖像中的對(duì)象數(shù)量是未知的。因此，目標(biāo)檢測(cè)的目標(biāo)是找出圖像中的對(duì)象，并進(jìn)行分類。

目標(biāo)檢測(cè)結(jié)果（圖源：http://research.ibm.com/artificial-intelligence/computer-vision/images/cv-research-areas-object-detection.jpg）

在這個(gè)密集圖像中，我們可以看到計(jì)算機(jī)視覺(jué)系統(tǒng)識(shí)別出大量不同對(duì)象：汽車、人、自行車，甚至包含文本的標(biāo)志牌。

這個(gè)問(wèn)題對(duì)人類來(lái)說(shuō)都算困難的。一些對(duì)象只顯示出一部分，因?yàn)樗鼈冇幸徊糠衷趫D像外，或者彼此重疊。此外，相似對(duì)象的大小差別極大。

目標(biāo)檢測(cè)的一個(gè)直接應(yīng)用是計(jì)數(shù)，它在現(xiàn)實(shí)生活中應(yīng)用廣泛，從計(jì)算收獲水果的種類到計(jì)算公眾集會(huì)或足球賽等活動(dòng)的人數(shù)，不一而足。

目標(biāo)識(shí)別

目標(biāo)識(shí)別與目標(biāo)檢測(cè)略有不同，盡管它們使用類似的技術(shù)。給出一個(gè)特定對(duì)象，目標(biāo)識(shí)別的目標(biāo)是在圖像中找出該對(duì)象的實(shí)例。這并不是分類，而是確定該對(duì)象是否出現(xiàn)在圖像中，如果出現(xiàn)，則執(zhí)行定位。搜索包含某公司 logo 的圖像就是一個(gè)例子。另一個(gè)例子是監(jiān)控安防攝像頭拍攝的實(shí)時(shí)圖像以識(shí)別某個(gè)人的面部。

實(shí)例分割

我們可以把實(shí)例分割看作是目標(biāo)檢測(cè)的下一步。它不僅涉及從圖像中找出對(duì)象，還需要為檢測(cè)到的每個(gè)對(duì)象創(chuàng)建一個(gè)盡可能準(zhǔn)確的掩碼。

（圖注）實(shí)例分割結(jié)果。

你可以從上圖中看到，實(shí)例分割算法為四位披頭士成員和一些汽車創(chuàng)建掩碼（不過(guò)該結(jié)果并不完整，尤其是列儂）。

人工執(zhí)行此類任務(wù)的成本很高，而實(shí)例分割技術(shù)使得此類任務(wù)的實(shí)現(xiàn)變得簡(jiǎn)單。在法國(guó)，法律禁止媒體在未經(jīng)監(jiān)護(hù)人明確同意的情況下暴露兒童形象。使用實(shí)例分割技術(shù)，可以模糊電視或電影中的兒童面部。

目標(biāo)追蹤

目標(biāo)追蹤旨在追蹤隨著時(shí)間不斷移動(dòng)的對(duì)象，它使用連續(xù)視頻幀作為輸入。該功能對(duì)于機(jī)器人來(lái)說(shuō)是必要的，以守門(mén)員機(jī)器人舉例，它們需要執(zhí)行從追球到擋球等各種任務(wù)。目標(biāo)追蹤對(duì)于自動(dòng)駕駛汽車而言同樣重要，它可以實(shí)現(xiàn)高級(jí)空間推理和路徑規(guī)劃。類似地，目標(biāo)追蹤在多人追蹤系統(tǒng)中也很有用，包括用于理解用戶行為的系統(tǒng)（如零售店的計(jì)算機(jī)視覺(jué)系統(tǒng)），以及在游戲中監(jiān)控足球或籃球運(yùn)動(dòng)員的系統(tǒng)。

執(zhí)行目標(biāo)追蹤的一種相對(duì)直接的方式是，對(duì)視頻序列中的每張圖像執(zhí)行目標(biāo)追蹤并對(duì)比每個(gè)對(duì)象實(shí)例，以確定它們的移動(dòng)軌跡。該方法的缺陷是為每張圖像執(zhí)行目標(biāo)檢測(cè)通常成本高昂。另一種替換方式僅需捕捉被追蹤對(duì)象一次（通常是該對(duì)象出現(xiàn)的第一次），然后在不明確識(shí)別該對(duì)象的情況下在后續(xù)圖像中辨別它的移動(dòng)軌跡。最后，目標(biāo)追蹤方法未必就能檢測(cè)出對(duì)象，它可以在不知道追蹤對(duì)象是什么的情況下，僅查看目標(biāo)的移動(dòng)軌跡。

計(jì)算機(jī)視覺(jué)運(yùn)行原理

如前所示，計(jì)算機(jī)視覺(jué)的目標(biāo)是模仿人類視覺(jué)系統(tǒng)的工作方式。算法如何實(shí)現(xiàn)這一目標(biāo)呢？本文將介紹其中最重要的幾個(gè)概念。

通用策略

深度學(xué)習(xí)方法和技術(shù)深刻改變了計(jì)算機(jī)視覺(jué)以及其他人工智能領(lǐng)域，對(duì)于很多任務(wù)而言，使用深度學(xué)習(xí)方法已經(jīng)成為標(biāo)準(zhǔn)操作。尤其是，卷積神經(jīng)網(wǎng)絡(luò)（CNN）的性能超過(guò)了使用傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)所能達(dá)到的最優(yōu)結(jié)果。

以下四步展示了利用 CNN 構(gòu)建計(jì)算機(jī)視覺(jué)模型的通用方法：

創(chuàng)建一個(gè)包含標(biāo)注圖像的數(shù)據(jù)集或者使用現(xiàn)有的數(shù)據(jù)集。標(biāo)注可以是圖像類別（適用于分類任務(wù)）、邊界框和類別對(duì)（適用于目標(biāo)檢測(cè)問(wèn)題），或者對(duì)圖像中每個(gè)感興趣對(duì)象進(jìn)行像素級(jí)分割（適用于實(shí)例分割問(wèn)題）。

從每張圖像中提取與待處理任務(wù)相關(guān)的特征，這是建模的重點(diǎn)。例如，用來(lái)識(shí)別人臉的特征、基于人臉標(biāo)準(zhǔn)的特征與用來(lái)識(shí)別旅游景點(diǎn)或人體器官的特征存在顯著區(qū)別。

基于特征訓(xùn)練深度學(xué)習(xí)模型。訓(xùn)練意味著向機(jī)器學(xué)習(xí)模型輸入很多圖像，然后模型基于特征學(xué)習(xí)如何解決任務(wù)。

使用不同于訓(xùn)練所用數(shù)據(jù)的圖像評(píng)估模型，從而測(cè)試訓(xùn)練模型的準(zhǔn)確率。

該策略非?；A(chǔ)，但效果不錯(cuò)。這類方法叫做監(jiān)督機(jī)器學(xué)習(xí)，它需要包含模型待學(xué)習(xí)現(xiàn)象的數(shù)據(jù)集。

現(xiàn)有數(shù)據(jù)集

構(gòu)建數(shù)據(jù)集通常成本高昂，但是它們對(duì)于開(kāi)發(fā)計(jì)算機(jī)視覺(jué)應(yīng)用至關(guān)重要。幸運(yùn)的是，目前有一些現(xiàn)成的數(shù)據(jù)集。其中規(guī)模最大、最著名的是 ImageNet，該數(shù)據(jù)集包含 1400 萬(wàn)人工標(biāo)注圖像。該數(shù)據(jù)集包含 100 萬(wàn)張具備邊界框標(biāo)注的圖像。

帶有邊界框的 ImageNet 圖像（圖源：http://www.image-net.org/bbox_fig/kit_fox.JPG）

具備對(duì)象屬性標(biāo)注的 ImageNet 圖像（圖源：http://www.image-net.org/attribute_fig/pullfigure.jpg）

另一個(gè)著名數(shù)據(jù)集是 Microsoft Common Objects in Context (COCO) 數(shù)據(jù)集，它包含 328,000 張圖像、91 個(gè)對(duì)象類別（這些類別很容易識(shí)別，4 歲孩童也可以輕松識(shí)別出來(lái)），以及 250 萬(wàn)標(biāo)注實(shí)例。

COCO 數(shù)據(jù)集中的標(biāo)注圖像示例。（圖源：https://arxiv.org/abs/1405.0312）

盡管該領(lǐng)域可用數(shù)據(jù)集并不是特別多，但仍然有一些適合不同的任務(wù)，如 CelebFaces Attributes Dataset（CelebA 數(shù)據(jù)集，該人臉屬性數(shù)據(jù)集包含超過(guò) 20 萬(wàn)張名人圖像）、Indoor Scene Recognition 數(shù)據(jù)集（包含 15,620 張室內(nèi)場(chǎng)景圖像）、Plant Image Analysis 數(shù)據(jù)集（包括屬于 11 個(gè)不同類別的 100 萬(wàn)張植物圖像）。

訓(xùn)練目標(biāo)檢測(cè)模型

Viola–Jones 方法

有很多種方法可以解決目標(biāo)檢測(cè)問(wèn)題。很多年來(lái)，Paul Viola 和 Michael Jones 在論文《Robust Real-time Object Detection》中提出的方法成為流行的方法。

盡管該方法可用來(lái)檢測(cè)大量對(duì)象類別，但它最初是受人臉檢測(cè)目標(biāo)的啟發(fā)。該方法快速、直接，是傻瓜相機(jī)中所使用的算法，它可以在幾乎不浪費(fèi)處理能力的情況下執(zhí)行實(shí)時(shí)人臉檢測(cè)。

該方法的核心特征是：基于哈爾特征與大量二分類器一起訓(xùn)練。哈爾特征表示邊和線，計(jì)算簡(jiǎn)單。

哈爾特征（圖源：https://docs.opencv.org/3.4.3/haar_features.jpg）

盡管比較基礎(chǔ)，但在人臉檢測(cè)這一特定案例下，這些特征可以捕捉到重要元素，如鼻子、嘴或眉間距。該監(jiān)督方法需要很多正類和負(fù)類樣本。

檢測(cè)蒙娜麗莎的面部。

本文暫不討論算法細(xì)節(jié)。不過(guò)，上圖展示了該算法檢測(cè)蒙娜麗莎面部的過(guò)程。

基于 CNN 的方法

深度學(xué)習(xí)變革了機(jī)器學(xué)習(xí)，尤其是計(jì)算機(jī)視覺(jué)。目前基于深度學(xué)習(xí)的方法已經(jīng)成為很多計(jì)算機(jī)視覺(jué)任務(wù)的前沿技術(shù)。

其中，R-CNN 易于理解，其作者提出了一個(gè)包含三個(gè)階段的流程：

利用區(qū)域候選（region proposal）方法提取可能的對(duì)象。

使用 CNN 識(shí)別每個(gè)區(qū)域中的特征。

利用支持向量機(jī)（SVM）對(duì)每個(gè)區(qū)域進(jìn)行分類。

R-CNN 架構(gòu)（圖源：https://arxiv.org/abs/1311.2524）

該區(qū)域候選方法最初由論文《Selective Search for Object Recognition》提出，盡管 R-CNN 算法并不在意使用哪種區(qū)域候選方法。步驟 3 非常重要，因?yàn)樗鼫p少了候選對(duì)象的數(shù)量，降低了計(jì)算成本。

這里提取的特征沒(méi)有哈爾特征那么直觀?？傊珻NN 可用于從每個(gè)區(qū)域候選中提取 4096 維的特征向量。鑒于 CNN 的本質(zhì)，輸入應(yīng)該具備同樣的維度。這也是 CNN 的弱點(diǎn)之一，很多方法解決了這個(gè)問(wèn)題?；氐?R-CNN 方法，訓(xùn)練好的 CNN 架構(gòu)要求輸入為 227 × 227 像素的固定區(qū)域。由于候選區(qū)域的大小各有不同，R-CNN 作者通過(guò)扭曲圖像的方式使其維度滿足要求。

滿足 CNN 輸入維度要求的扭曲圖像示例。

盡管該方法取得了很好的結(jié)果，但訓(xùn)練過(guò)程中存在一些困難，并且該方法最終被其他方法超越。其中一些方法在這篇文章中有深入介紹：https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。

商業(yè)用例

計(jì)算機(jī)視覺(jué)應(yīng)用被越來(lái)越多的公司部署，用于回答業(yè)務(wù)問(wèn)題或提升產(chǎn)品性能。它們或許已經(jīng)成為人們?nèi)粘Ｉ畹囊徊糠?，你甚至都沒(méi)有注意到它。以下是一些常見(jiàn)的使用案例。

視覺(jué)搜索引擎

2001 年，Google Images 的出現(xiàn)意味著視覺(jué)搜索技術(shù)可被大眾使用。視覺(jué)搜索引擎能夠基于特定內(nèi)容標(biāo)準(zhǔn)檢索圖像。常見(jiàn)用例是搜索關(guān)鍵詞，不過(guò)有時(shí)候我們會(huì)提供源圖像，要求引擎找出相似圖像。在某些案例中，可以指定更詳細(xì)的搜索條件，如沙灘的圖像、夏天拍攝、至少包含 10 個(gè)人。

現(xiàn)在有很多視覺(jué)搜索引擎，有的可以網(wǎng)站形式直接使用，有的需要通過(guò) API 調(diào)用，有的則是移動(dòng)應(yīng)用。

最著名的視覺(jué)搜索網(wǎng)站無(wú)疑是 Google Images、Bing 和 Yahoo。前兩個(gè)網(wǎng)站均可使用多個(gè)關(guān)鍵詞或者單張圖像作為搜索輸入，以圖像作為搜索輸入又名「反向圖像搜索」（以圖搜圖）。Yahoo 僅支持關(guān)鍵詞搜索，搜索結(jié)果同樣不錯(cuò)，如下圖所示。

Yahoo 圖像搜索。

還有一些視覺(jué)搜索網(wǎng)站同樣值得關(guān)注，如僅支持反向圖像搜索的 TinEye，以及僅支持文本搜索但覆蓋范圍極大的 Picsearch。

在移動(dòng)應(yīng)用方面，由于視覺(jué)搜索技術(shù)逐漸成為標(biāo)準(zhǔn)特征，此類應(yīng)用之間的區(qū)別較大。

此類實(shí)現(xiàn)包括 Google Goggles（后被 Google Lens 取代），它可從圖像中獲取詳細(xì)信息。例如，從一張貓照片中得到其品種信息，或者提供博物館中藝術(shù)作品的信息。

在電商市場(chǎng)中，Pinterest 開(kāi)發(fā)了 Pinterest Lens。如果你需要現(xiàn)有衣物的新穿搭想法，你可以為這件衣服拍張照，之后 Pinterest Lens 會(huì)返回穿搭建議，該建議包括你可以購(gòu)買(mǎi)的搭配單品。近年來(lái)，針對(duì)網(wǎng)購(gòu)的視覺(jué)搜索成為增長(zhǎng)最快的趨勢(shì)之一。

最后，視覺(jué)搜索的更高階案例是視覺(jué)問(wèn)答系統(tǒng)，參見(jiàn)：https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。

Facebook 人臉識(shí)別

盡管早在 2000 年代中期，出于自動(dòng)對(duì)焦目的而使用人臉檢測(cè)技術(shù)的相機(jī)已經(jīng)普遍，但近年來(lái)人臉識(shí)別領(lǐng)域出現(xiàn)了很多更優(yōu)秀的成績(jī)。最常見(jiàn)（也最具爭(zhēng)議）的應(yīng)用或許就是識(shí)別圖像或視頻中的人物。這通常用于安防系統(tǒng)，但也出現(xiàn)在社交媒體中：人臉管理系統(tǒng)為人臉添加過(guò)濾器，以便按人臉執(zhí)行搜索，甚至在選舉過(guò)程中阻止選民多次投票。人臉識(shí)別還可用到更復(fù)雜的場(chǎng)景，如識(shí)別面部表情中的情緒。

其中同時(shí)引發(fā)了興趣和擔(dān)憂的用例是 Facebook 的人臉識(shí)別系統(tǒng)。開(kāi)發(fā)團(tuán)隊(duì)的一個(gè)主要目標(biāo)是阻止陌生人使用出現(xiàn)用戶人臉的圖像（見(jiàn)下圖的示例），或者向視障用戶告知圖像或視頻中出現(xiàn)的人物。

Facebook 人臉識(shí)別。（圖源：https://cdn0.tnwcdn.com/wp-content/blogs.dir/1/files/2017/12/Facebook-Tagging-796x428.jpg）

除了那些令人擔(dān)憂的部分以外，這項(xiàng)技術(shù)在很多場(chǎng)景中是有益的，比如對(duì)抗網(wǎng)絡(luò)騷擾。

Amazon Go

厭倦了超市和雜貨店的排隊(duì)等待？Amazon Go 商店提供別樣的體驗(yàn)。在計(jì)算機(jī)視覺(jué)的幫助下，這里不用排隊(duì)，也沒(méi)有包裝箱。

其思路很簡(jiǎn)單：顧客進(jìn)入商店，選擇所需商品，離開(kāi)商店，不用排隊(duì)結(jié)賬。

這是如何實(shí)現(xiàn)的呢？多虧了 Amazon 的「Just Walk Out」技術(shù)。顧客必須下載一個(gè)移動(dòng) app，該 app 可以幫助 Amazon 識(shí)別他們的身份。當(dāng)他們想進(jìn)入 Amazon Go 商店時(shí)，該 app 提供一個(gè)二維碼。商店入口處有一些閘機(jī)供顧客出入商店，顧客進(jìn)入商店時(shí)，閘機(jī)讀取顧客的二維碼。一個(gè)有趣的功能是，其他人可以陪伴該顧客一起進(jìn)入商店，且陪伴者無(wú)需安裝該應(yīng)用程序。

顧客可以在商店內(nèi)自由移動(dòng)，而這也是計(jì)算機(jī)視覺(jué)發(fā)揮作用之處。商店內(nèi)安裝有一系列傳感器，包括攝像頭、運(yùn)動(dòng)傳感器和商品上的重量傳感器。這些設(shè)備收集了每個(gè)人的行為信息。它們實(shí)時(shí)檢測(cè)顧客從貨架上拿取的貨品。顧客可以取下某個(gè)貨品，改變主意的話再放回去。系統(tǒng)最終會(huì)向第一個(gè)拿起它的顧客收費(fèi)，即使它被遞給另一位想要購(gòu)買(mǎi)的顧客，第一位拿起它的顧客仍然需要支付費(fèi)用。于是系統(tǒng)創(chuàng)建了一個(gè)包含所有拿起貨品的虛擬購(gòu)物車，并進(jìn)行實(shí)時(shí)維護(hù)。這使得顧客的購(gòu)物流程非常順利。

當(dāng)顧客完成購(gòu)物，即可走出商店。當(dāng)他們經(jīng)過(guò)閘機(jī)時(shí)，系統(tǒng)不會(huì)讓顧客掃描貨品或二維碼，而是記錄交易額并向顧客發(fā)送確認(rèn)通知。

Amazon Go 是計(jì)算機(jī)視覺(jué)對(duì)現(xiàn)實(shí)世界和人類日常生活產(chǎn)生積極影響的一個(gè)案例。

特斯拉 Autopilot

讓汽車自動(dòng)行駛不只是一個(gè)遙遠(yuǎn)的夢(mèng)。特斯拉 Autopilot 技術(shù)提供非常方便的自動(dòng)駕駛功能。這并不是全自動(dòng)駕駛系統(tǒng)，而是可在特定路段上駕駛汽車的駕駛助手。這是特斯拉強(qiáng)調(diào)的重點(diǎn)：在所有情況下，控制汽車都是駕駛員的責(zé)任。

自動(dòng)駕駛通過(guò)目標(biāo)檢測(cè)和追蹤技術(shù)實(shí)現(xiàn)。

要想使 Autopilot 工作，特斯拉汽車必須「高度武裝」：八個(gè)全景攝像頭提供 250 米范圍內(nèi)的 360 度圖像、超聲波傳感器用于檢測(cè)對(duì)象、雷達(dá)用來(lái)處理周圍環(huán)境信息。這樣，特斯拉汽車才能夠根據(jù)交通條件調(diào)整行駛速度，在遇到障礙物時(shí)及時(shí)剎車，保持或變換車道，拐彎以及流暢地停車。

特斯拉 Autopilot 技術(shù)是計(jì)算機(jī)視覺(jué)對(duì)人類日?；顒?dòng)帶來(lái)積極影響的另一個(gè)精彩案例。

微軟 InnerEye

在醫(yī)療行業(yè)中，微軟的 InnerEye 是幫助放射科醫(yī)生、腫瘤專家和外科醫(yī)生處理放射圖像的寶貴工具。其主要目的是從惡性腫瘤的 3D 圖像中準(zhǔn)確識(shí)別出腫瘤。

癌性腫瘤的 3D 圖像。

基于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)，InnerEye 輸出非常詳細(xì)的腫瘤 3D 建模圖像。以上截圖展示了 InnerEye 創(chuàng)建的對(duì)腦部腫瘤的完整 3D 分割。從上述視頻中，你可以看到專家控制 InnerEye 工具，指引它執(zhí)行任務(wù)，InnerEye 像助手一樣運(yùn)行。

在放射療法中，InnerEye 結(jié)果使得不傷害重要器官直接針對(duì)目標(biāo)腫瘤進(jìn)行放射成為可能。

這些結(jié)果還幫助放射科醫(yī)生更好地理解圖像序列，基于腫瘤大小的變化，判斷疾病是否有進(jìn)一步發(fā)展、穩(wěn)定，或者對(duì)治療反應(yīng)良好。這樣，醫(yī)療圖像就成為一種重要的追蹤和衡量方式。

最后，InnerEye 可用于規(guī)劃精準(zhǔn)手術(shù)。

計(jì)算機(jī)視覺(jué)在小公司的應(yīng)用現(xiàn)狀

計(jì)算機(jī)視覺(jué)在大公司的實(shí)現(xiàn)常被大家談?wù)摚@不意味著所有公司必須是谷歌或亞馬遜那種量級(jí)才能從該機(jī)器學(xué)習(xí)技術(shù)中受益。任何規(guī)模的公司都可以利用數(shù)據(jù)和計(jì)算機(jī)視覺(jué)技術(shù)變得更加高效，制定更好的決策。

我們來(lái)看一些小公司的現(xiàn)實(shí)案例：

Tryolabs 曾幫助一家位于舊金山的小型風(fēng)險(xiǎn)管理公司構(gòu)建和實(shí)現(xiàn)了一個(gè)計(jì)算機(jī)視覺(jué)系統(tǒng)，用于擴(kuò)展對(duì)屋頂檢查圖像的處理。

在使用計(jì)算機(jī)視覺(jué)技術(shù)之前，公司專家人工分析無(wú)人機(jī)拍攝的照片，檢測(cè)屋頂建設(shè)中的損傷。盡管分析結(jié)果很準(zhǔn)確，但由于服務(wù)耗時(shí)且人力資源有限，該服務(wù)無(wú)法得到有效擴(kuò)展。

為了解決這個(gè)問(wèn)題，我們構(gòu)建了一個(gè)能夠理解圖像并自動(dòng)識(shí)別屋頂問(wèn)題（如積水、電纜松散和鐵銹）的深度學(xué)習(xí)系統(tǒng)。為此，我們開(kāi)發(fā)了一個(gè)能夠基于屋頂圖像檢測(cè)問(wèn)題的深度神經(jīng)網(wǎng)絡(luò)、分析輸入圖像的流程，以及使檢測(cè)結(jié)果可用于外部工具的 API。

因此，這家公司的訂單量和收益都有所增長(zhǎng)。

如何實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)項(xiàng)目

和在組織內(nèi)值得進(jìn)行的所有創(chuàng)新一樣，你應(yīng)該選擇一種有策略的方式來(lái)實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)項(xiàng)目。

利用計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)成功創(chuàng)新取決于整體業(yè)務(wù)策略、資源和數(shù)據(jù)。

以下問(wèn)題可以幫助你為計(jì)算機(jī)視覺(jué)項(xiàng)目構(gòu)建戰(zhàn)略路線圖。

1、計(jì)算機(jī)視覺(jué)解決方案應(yīng)該降低成本還是增加收益？

成功的計(jì)算機(jī)視覺(jué)項(xiàng)目要么降低成本要么提高收益（或者二者兼顧），你應(yīng)該定義該項(xiàng)目的目標(biāo)。只有這樣，它才能對(duì)組織及其發(fā)展產(chǎn)生重要影響。

2、如何衡量項(xiàng)目的成功？

每個(gè)計(jì)算機(jī)視覺(jué)項(xiàng)目都是不同的，你需要定義一個(gè)特定于該項(xiàng)目的成功指標(biāo)。設(shè)置好指標(biāo)后，你應(yīng)該確保它被業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家等認(rèn)可。

3、能否保證信息的獲?。?/p>

開(kāi)啟計(jì)算機(jī)視覺(jué)項(xiàng)目時(shí)，數(shù)據(jù)科學(xué)家應(yīng)該能夠輕松訪問(wèn)數(shù)據(jù)。他們需要和來(lái)自不同部門(mén)（如 IT 部門(mén)）的重要同事合作。這些同事應(yīng)以其業(yè)務(wù)知識(shí)提供支持，內(nèi)部官僚主義則會(huì)成為主要約束。

4、組織收集的數(shù)據(jù)是否合適？

計(jì)算機(jī)視覺(jué)算法并非魔法。它們需要數(shù)據(jù)才能運(yùn)作，輸入數(shù)據(jù)的質(zhì)量決定其性能。有多種不同方法和來(lái)源可供收集合適數(shù)據(jù)，這取決于你的目標(biāo)。無(wú)論如何，擁有的輸入數(shù)據(jù)越多，計(jì)算機(jī)視覺(jué)模型性能優(yōu)秀的可能性越大。如果你對(duì)數(shù)據(jù)的量和質(zhì)存在疑慮，你可以請(qǐng)數(shù)據(jù)科學(xué)家?guī)兔υu(píng)估數(shù)據(jù)集質(zhì)量，必要情況下，找到獲取第三方數(shù)據(jù)的最優(yōu)方式。

5. 組織是否以恰當(dāng)格式收集數(shù)據(jù)？

除了擁有合適量和類型的數(shù)據(jù)以外，你還需要確保數(shù)據(jù)的格式。假設(shè)你使用數(shù)千張完美的手機(jī)照片（分辨率高，背景為白色）訓(xùn)練目標(biāo)檢測(cè)算法。然后發(fā)現(xiàn)算法無(wú)法運(yùn)行，因?yàn)閷?shí)際用例是在不同光照/對(duì)比度/背景條件下檢測(cè)持有手機(jī)的人，而不是檢測(cè)手機(jī)本身。這樣你之前的數(shù)據(jù)收集努力基本上就作廢了，你還需要重頭再來(lái)。此外，你應(yīng)該了解，如果數(shù)據(jù)存在偏見(jiàn)，算法會(huì)學(xué)到該偏見(jiàn)。

關(guān)于如何開(kāi)啟成功的計(jì)算機(jī)視覺(jué)項(xiàng)目，參見(jiàn)博客：https://tryolabs.com/blog/2019/02/13/11-questions-to-ask-before-starting-a-successful-machine-learning-project/。

希望本文能夠幫助讀者了解計(jì)算機(jī)視覺(jué)概念、運(yùn)作原理以及現(xiàn)實(shí)應(yīng)用。

原文鏈接：

https://tryolabs.com/resources/introductory-guide-computer-vision/

責(zé)任編輯：xj

原文標(biāo)題：計(jì)算機(jī)視覺(jué)基礎(chǔ)概念、運(yùn)行原理和應(yīng)用案例詳解

文章出處：【微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器視覺(jué)

機(jī)器視覺(jué)

+關(guān)注

關(guān)注
161

文章
4369

瀏覽量
120278
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
45972

原文標(biāo)題：計(jì)算機(jī)視覺(jué)基礎(chǔ)概念、運(yùn)行原理和應(yīng)用案例詳解

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

計(jì)算機(jī)視覺(jué)有哪些優(yōu)缺點(diǎn)

計(jì)算機(jī)視覺(jué)作為人工智能領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動(dòng)了多個(gè)行業(yè)的變革，也帶來(lái)了諸多優(yōu)勢(shì)，但同時(shí)也伴隨著一些挑戰(zhàn)和局限性。以下是對(duì)

發(fā)表于 08-14 09:49 ?916次閱讀

機(jī)器視覺(jué)和計(jì)算機(jī)視覺(jué)有什么區(qū)別

機(jī)器視覺(jué)和計(jì)算機(jī)視覺(jué)是兩個(gè)密切相關(guān)但又有所區(qū)別的概念。一、定義機(jī)器視覺(jué) 機(jī)器視覺(jué)，又稱為計(jì)算機(jī)

發(fā)表于 07-16 10:23 ?517次閱讀

計(jì)算機(jī)視覺(jué)的五大技術(shù)

計(jì)算機(jī)視覺(jué)作為深度學(xué)習(xí)領(lǐng)域最熱門(mén)的研究方向之一，其技術(shù)涵蓋了多個(gè)方面，為人工智能的發(fā)展開(kāi)拓了廣闊的道路。以下是對(duì)計(jì)算機(jī)視覺(jué)五大技術(shù)的詳細(xì)解析，包括圖像分類、對(duì)象檢測(cè)、目標(biāo)跟蹤、語(yǔ)義分割

發(fā)表于 07-10 18:26 ?1330次閱讀

計(jì)算機(jī)視覺(jué)的工作原理和應(yīng)用

計(jì)算機(jī)視覺(jué)（Computer Vision，簡(jiǎn)稱CV）是一門(mén)跨學(xué)科的研究領(lǐng)域，它利用計(jì)算機(jī)和數(shù)學(xué)算法來(lái)模擬人類視覺(jué)系統(tǒng)對(duì)圖像和視頻進(jìn)行識(shí)別、理解、分析和處理。其核心目標(biāo)在于使

發(fā)表于 07-10 18:24 ?1903次閱讀

計(jì)算機(jī)視覺(jué)與人工智能的關(guān)系是什么

引言 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)能夠理解和解釋視覺(jué)信息的學(xué)科。它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的知識(shí)。人工智能則是研究如何使計(jì)算

發(fā)表于 07-09 09:25 ?617次閱讀

計(jì)算機(jī)視覺(jué)與智能感知是干嘛的

引言 計(jì)算機(jī)視覺(jué)（Computer Vision）是一門(mén)研究如何使計(jì)算機(jī)能夠理解和解釋視覺(jué)信息的學(xué)科。它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域，是人工智能的重要組成部分。智能

發(fā)表于 07-09 09:23 ?913次閱讀

計(jì)算機(jī)視覺(jué)和機(jī)器視覺(jué)區(qū)別在哪

計(jì)算機(jī)視覺(jué)和機(jī)器視覺(jué)是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。一、定義 計(jì)算機(jī)視覺(jué) 計(jì)算機(jī)

發(fā)表于 07-09 09:22 ?445次閱讀

計(jì)算機(jī)視覺(jué)和圖像處理的區(qū)別和聯(lián)系

計(jì)算機(jī)視覺(jué)和圖像處理是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計(jì)算機(jī)視覺(jué) 計(jì)算機(jī)視覺(jué)

發(fā)表于 07-09 09:16 ?1281次閱讀

計(jì)算機(jī)視覺(jué)屬于人工智能嗎

屬于，計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支。引言 計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使計(jì)算機(jī)具有視覺(jué)能

發(fā)表于 07-09 09:11 ?1284次閱讀

深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)作為其中的核心技術(shù)之一，已經(jīng)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著的成果。計(jì)算機(jī)視覺(jué)，作為計(jì)算機(jī)科學(xué)的一個(gè)重要分支，

發(fā)表于 07-01 11:38 ?776次閱讀

機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)的區(qū)別

在人工智能和自動(dòng)化技術(shù)的快速發(fā)展中，機(jī)器視覺(jué)（Machine Vision, MV）和計(jì)算機(jī)視覺(jué)（Computer Vision, CV）作為兩個(gè)重要的分支領(lǐng)域，都扮演著至關(guān)重要的角色。盡管它們?cè)?/div>
發(fā)表于 06-06 17:24 ?1319次閱讀

計(jì)算機(jī)視覺(jué)的主要研究方向

計(jì)算機(jī)視覺(jué)（Computer Vision, CV）作為人工智能領(lǐng)域的一個(gè)重要分支，致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展，計(jì)算機(jī)

發(fā)表于 06-06 17:17 ?947次閱讀

計(jì)算機(jī)視覺(jué)的十大算法

隨著科技的不斷發(fā)展，計(jì)算機(jī)視覺(jué)領(lǐng)域也取得了長(zhǎng)足的進(jìn)步。本文將介紹計(jì)算機(jī)視覺(jué)領(lǐng)域的十大算法，包括它們的基本原理、應(yīng)用場(chǎng)景和優(yōu)缺點(diǎn)。這些算法在圖像處理、目標(biāo)檢測(cè)、人臉識(shí)別等領(lǐng)域有著廣泛的應(yīng)

發(fā)表于 02-19 13:26 ?1235次閱讀

機(jī)器視覺(jué)、工業(yè)視覺(jué)和計(jì)算機(jī)視覺(jué)這三者的關(guān)系

機(jī)器視覺(jué)、工業(yè)視覺(jué)和計(jì)算機(jī)視覺(jué)這三者的關(guān)系

發(fā)表于 01-24 10:51 ?1268次閱讀

工業(yè)視覺(jué)與計(jì)算機(jī)視覺(jué)的區(qū)別

工業(yè)視覺(jué)主要解決以往需要人眼進(jìn)行的工件的定位、測(cè)量、檢測(cè)等重復(fù)性勞動(dòng)；計(jì)算機(jī)視覺(jué)的主要任務(wù)是賦予智能機(jī)器人視覺(jué)，利用測(cè)距、物體標(biāo)定與識(shí)別等功能實(shí)現(xiàn)對(duì)于外界位置信息、圖像信息等的識(shí)別與判

發(fā)表于 01-16 10:06 ?575次閱讀