視覺是人類認(rèn)知世界的重要組成部分,而計(jì)算機(jī)視覺作為人工智能的核心技術(shù)之一,近幾年的發(fā)展現(xiàn)狀如何?
在目前的人類生活中有這樣的應(yīng)用?是否已經(jīng)超越人類的眼睛?未來又將有怎樣的發(fā)展前景?
近日,騰訊優(yōu)圖與《科學(xué)》(Science)雜志共同發(fā)布《Seeing is believing: R&D applications of computer vision》(眼見為實(shí):計(jì)算機(jī)視覺的研發(fā)和應(yīng)用)主題報(bào)告,通過全球計(jì)算機(jī)視覺領(lǐng)域的專家訪談,為大眾帶來當(dāng)下計(jì)算機(jī)視覺技術(shù)發(fā)展的全面解讀,也為即將到來的計(jì)算機(jī)視覺峰會(huì)拉開序幕。
眼見為實(shí):計(jì)算機(jī)視覺研發(fā)和應(yīng)用
人工智能 (AI) 曾經(jīng)只是一種存在于科幻領(lǐng)域的科技,而現(xiàn)在,研究實(shí)驗(yàn)室已經(jīng)不斷研發(fā)出了各種應(yīng)用AI 的日常產(chǎn)品。
AI技術(shù)的進(jìn)步很大程度上得益于計(jì)算機(jī)視覺的發(fā)展。計(jì)算機(jī)視覺技術(shù)關(guān)注的是構(gòu)建能夠收集和處理視覺信息的軟件。應(yīng)用計(jì)算機(jī)視覺可以識(shí)別照片中的人物、讀取X光片、進(jìn)行工廠機(jī)器人系統(tǒng)的智能升級(jí),但它的影響范圍遠(yuǎn)不止于此。
大多數(shù)人都對(duì)自己的視覺習(xí)以為常,殊不知要拿起叉子或接住球,我們的大腦要進(jìn)行大量的運(yùn)算。計(jì)算機(jī)變得足夠快速、強(qiáng)大和小巧來實(shí)現(xiàn)計(jì)算機(jī)視覺的實(shí)際應(yīng)用,不過是這幾年的事情。
最先進(jìn)的計(jì)算機(jī)視覺技術(shù)要運(yùn)用到深度學(xué)習(xí),而深度學(xué)習(xí)是AI的一大領(lǐng)域,靈感來自于人腦。深度學(xué)習(xí)算法使用的人工神經(jīng)網(wǎng)絡(luò)(ANN),是指能夠分析并相互傳遞信息的互相連接的節(jié)點(diǎn)層,與神經(jīng)元的通信機(jī)制類似。
如果我們向神經(jīng)網(wǎng)絡(luò)展示一張自拍照,一層神經(jīng)元將會(huì)識(shí)別類似于面部輪廓的粗線條;另一層神經(jīng)元會(huì)關(guān)注五官之間的區(qū)域,例如眼睛到嘴巴的距離;還有其他神經(jīng)元會(huì)負(fù)責(zé)觀察耳朵的形狀。藉此,該算法可判斷出這是不是一張人物照片,甚至看出這人是誰。
“在大多數(shù)計(jì)算機(jī)視覺任務(wù)當(dāng)中,神經(jīng)網(wǎng)絡(luò)都能輕而易舉地生成最佳算法,”騰訊優(yōu)圖實(shí)驗(yàn)室杰出科學(xué)家賈佳亞說道。騰訊總部位于中國深圳,是互聯(lián)網(wǎng)服務(wù)和產(chǎn)品、娛樂及人工智能的全球領(lǐng)導(dǎo)者。
像人工神經(jīng)網(wǎng)絡(luò)一樣,計(jì)算機(jī)視覺技術(shù)工程師也在試圖模仿人類視覺系統(tǒng)的運(yùn)作機(jī)制。但是機(jī)器比人更有優(yōu)勢(shì)的一處是,它不需要像人類那樣依賴可見光,還能使用傳感器更清楚地看到世界。
“在人臉識(shí)別、圖像分類等眾多任務(wù)中,計(jì)算機(jī)視覺能比人類視覺完成的更優(yōu)秀。但在其他需要推理的任務(wù),計(jì)算機(jī)視覺還有很長(zhǎng)的路要走?!辟Z佳亞表示,“人類能輕易明白物體彼此之間的關(guān)聯(lián),我們看到一張圖就能編出一個(gè)故事。但計(jì)算機(jī)還遠(yuǎn)不能達(dá)到這種程度的理解能力和想象力?!?/p>
隨著計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,它將會(huì)帶來更多新的發(fā)現(xiàn)。計(jì)算機(jī)視覺和 AI 都處于各自發(fā)展的初始階段,還有很多東西值得探索。
計(jì)算機(jī)視覺技術(shù)的進(jìn)步可能會(huì)推動(dòng)AI 的迅猛發(fā)展,把科幻小說的情節(jié)全部變成現(xiàn)實(shí)——比如無人車、機(jī)器人管家,甚至遠(yuǎn)距離太空旅行。
在實(shí)踐中學(xué)習(xí):AI的工作原理
跟大多數(shù) AI 系統(tǒng)類似,計(jì)算機(jī)視覺需要學(xué)習(xí)浩如煙海的數(shù)據(jù)。研究人員查閱數(shù)據(jù)并根據(jù)其特征仔細(xì)為數(shù)據(jù)添加標(biāo)簽,這些特征就是他們希望 AI 去理解的東西。
就計(jì)算機(jī)視覺的任務(wù)而言,研究人員會(huì)收集成百上千的照片用于分析。加標(biāo)簽的數(shù)據(jù)會(huì)成為范例,據(jù)此訓(xùn)練 AI 進(jìn)行分類或?qū)ふ乙?guī)律。為了測(cè)試 AI 的學(xué)習(xí)效果,研究人員會(huì)展示新的、未加標(biāo)簽的圖像,測(cè)試其是否能夠正確分類。
除了要在收集、標(biāo)注和籌備龐大資料的工作中投入人力外,另一個(gè)重要障礙就是運(yùn)行訓(xùn)練算法需要的大量計(jì)算能力。
費(fèi)用低廉的在線服務(wù),讓研究人員可以在云端訓(xùn)練算法,而無需為強(qiáng)大的計(jì)算機(jī)投入數(shù)千美元,不過,要得出訓(xùn)練結(jié)果仍需數(shù)小時(shí)甚至數(shù)日。
對(duì)著鏡頭微笑:圖像和視頻識(shí)別
人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域最重要的進(jìn)展之一出自 ImageNet。ImageNet收集了 1400 萬標(biāo)簽圖像并于2009年發(fā)布。
ImageNet挑戰(zhàn)賽要求參賽者設(shè)計(jì)一個(gè)能夠跟人類一樣對(duì)照片進(jìn)行分類的算法,但一直沒有出現(xiàn)獲勝者。直到2012年,一個(gè)使用深度學(xué)習(xí)算法的參賽隊(duì)伍取得了顯著優(yōu)于以往嘗試的結(jié)果。
人們與計(jì)算機(jī)視覺產(chǎn)生交互的最常見的幾種方式包括圖像自動(dòng)標(biāo)記和拍照面部識(shí)別等,都是基于ImageNet獲勝的技術(shù)。這些應(yīng)用有助進(jìn)行網(wǎng)上購物可視化搜索、自動(dòng)標(biāo)注社交媒體照片等特定任務(wù)。
除了圖像識(shí)別外,這項(xiàng)新科技也推動(dòng)了照片編輯技術(shù)的發(fā)展。圖像分割算法是計(jì)算機(jī)視覺的組成部分,可以幫助機(jī)器將一張圖片分成不同的部分,例如識(shí)別背景和前景中的人物。用戶可迅速編輯照片,達(dá)到專業(yè)修圖的效果。
視覺識(shí)別能力目前也應(yīng)用于視頻。計(jì)算機(jī)視覺算法可以查看攝像機(jī)的視頻流,并且標(biāo)記重要部分,這樣人們就無需反復(fù)回看長(zhǎng)達(dá)數(shù)小時(shí)的視頻。
了解視頻中人物的情緒是一項(xiàng)研究人員正在開展的工作,不過有些機(jī)構(gòu)已經(jīng)率先采用了這類技術(shù)。例如坐落在中國東部浙江省的杭州第十一中學(xué),正在嘗試用攝像頭追蹤學(xué)生的課堂行為,這些攝像頭被稱為“慧眼”。
讓機(jī)器人擁有正常視力
將2D 圖像轉(zhuǎn)化成3D 數(shù)據(jù),帶來了一系列不同的挑戰(zhàn)以及眾多的新機(jī)遇。給機(jī)器人賦予計(jì)算機(jī)視覺就是一個(gè)正在展現(xiàn)出前景的領(lǐng)域。機(jī)器人在 20世紀(jì) 60年代開始投入制造業(yè)使用,這些裝置可以提升重物,執(zhí)行重復(fù)性任務(wù),并且可以一次進(jìn)行數(shù)小時(shí)的精確測(cè)量,從而輕松地勝過人類。
斯德哥爾摩 KTH 皇家理工學(xué)院的機(jī)器人學(xué)教授 Danica Kragic 說:“這一領(lǐng)域始終關(guān)注的是建造出那些可以完成人類無法完成任務(wù)的機(jī)器人?!?span style="text-indent: 2em; font-size: 12px;">Kragic表示,因?yàn)槿祟愑?0% 的大腦致力于處理視覺信息,如果要?jiǎng)?chuàng)造能夠模仿并參與我們世界的機(jī)器,了解它們?cè)诙啻蟪潭壬闲枰曈X信息是非常重要的?!拔覀?nèi)祟愒谧鋈魏问虑闀r(shí)都會(huì)自然而然地使用視覺反饋,” Kargic說。
能夠處理視覺信息的機(jī)器可以在工廠中完成更復(fù)雜的工作,甚至進(jìn)入了我們的家庭。某些技能(例如,拾取會(huì)因壓力而改變形狀的柔軟物品)對(duì)機(jī)器人來說仍然是遙不可及的。這是因?yàn)槿祟愒谟^察時(shí),獲得的不僅僅是視覺信息;我們還會(huì)獲得有關(guān)物體物理屬性的線索,以及與之交互所需要的物理知識(shí)。機(jī)器需要能夠收集這類信息,才能像人類一樣毫不費(fèi)力地穿行在物理世界中。
“在五官感覺當(dāng)中,視覺是最重要的,因?yàn)樗x予了人類理解這個(gè)復(fù)雜世界的能力。”賈佳亞說,“同樣地,計(jì)算機(jī)視覺就是為了讓計(jì)算機(jī)能夠像人類一樣觀察環(huán)境并能跟環(huán)境互動(dòng)?!?span style="text-indent: 2em; font-size: 12px;">賦予機(jī)器人能夠更好地了解世界的傳感器是該技術(shù)的下一個(gè)迭代,它可能讓機(jī)器人完成在今天尚無法實(shí)現(xiàn)的任務(wù)。
即將上路:自動(dòng)駕駛汽車
自動(dòng)駕駛汽車是 AI 開發(fā)領(lǐng)域中獲得資金最充裕、最受關(guān)注的領(lǐng)域之一,全面了解世界對(duì)于自動(dòng)駕駛汽車(AV) 也是至關(guān)重要的。除了攝像頭,大多數(shù)無人駕駛汽車使用激光雷達(dá)、雷達(dá)、GPS 和感知算法進(jìn)行導(dǎo)航。“我們使用的許多算法都來自計(jì)算機(jī)視覺,但現(xiàn)在它不僅僅是關(guān)于攝像頭數(shù)據(jù),”多倫多大學(xué)副教授兼優(yōu)步多倫多高級(jí)技術(shù)集團(tuán)負(fù)責(zé)人 Raquel Urtasun 介紹說?!拔覀兿虢o汽車裝上的,不僅僅是我們的眼睛?!?/span>
像優(yōu)步這樣的公司希望到 2020 年前能實(shí)現(xiàn)自動(dòng)駕駛汽車上路和載客。這些汽車只會(huì)在預(yù)先選定的路線上行駛,或需要有人坐在駕駛員座位上,以便在出現(xiàn)任何問題時(shí)能夠手動(dòng)接管。
這項(xiàng)技術(shù)最終的目標(biāo)是實(shí)現(xiàn)真正自主,使得乘坐者除了注意路況外,還可以做其他活動(dòng)。Urtasun 表示,為了實(shí)現(xiàn)這一目標(biāo),需要在硬件和軟件兩方面都取得進(jìn)步。在硬件方面,激光雷達(dá)可能花費(fèi)數(shù)萬美元,這使得大規(guī)模部署成本太高;在軟件方面,工程師需要找到一種方法來使 AI 具備歸納、區(qū)分不同物體的能力。
如果一個(gè)人類駕駛員在道路上看到一些出乎意料的東西(比如一條墜落的電源線),他們會(huì)知道應(yīng)該繞過電線。而如果一輛自動(dòng)駕駛汽車遇到訓(xùn)練中沒有經(jīng)歷過的事情,它可能無法安全地做出反應(yīng)。
Urtasun 表示,雖然自動(dòng)駕駛汽車現(xiàn)在尚未迎來發(fā)展的黃金期,但她對(duì)自己在改進(jìn)傳感器和訓(xùn)練算法上的努力能夠有效應(yīng)用仍然充滿希望。
Urtasun進(jìn)一步介紹,幸運(yùn)的是,“這項(xiàng)技術(shù)能夠解決許多其他問題?!备倪M(jìn)的激光雷達(dá)可以使地圖測(cè)繪和土地調(diào)查更加準(zhǔn)確,甚至配備傳感器的非自動(dòng)駕駛汽車也可以幫助改善交通狀況。
特快專遞:無人機(jī)
汽車不是研究人員唯一希望能夠自動(dòng)駕駛的東西:無人駕駛飛機(jī)也正在接受自動(dòng)飛行的訓(xùn)練。無人機(jī)研究與自動(dòng)駕駛汽車研究面臨著同樣的難題。高質(zhì)量的訓(xùn)練數(shù)據(jù)既困難又昂貴,不同的飛行方式意味著無人機(jī)需要接受不同的新場(chǎng)景訓(xùn)練,而且法規(guī)使得在某些領(lǐng)域難以進(jìn)行測(cè)試。即使是曾經(jīng)受過訓(xùn)練,飛行過程仍然會(huì)非常困難。
“任何嘗試過控制無人機(jī)的人都知道這不是件容易的事情,”比利時(shí)研究型大學(xué)天主教魯汶大學(xué)的教授 Tinne Tuytelaars 說道。不過,與自動(dòng)駕駛汽車不同,無人機(jī)犯錯(cuò)的成本更低?!叭绻患軣o人機(jī)墜毀,”Tuytelaars 聳了聳肩,“也不是件什么大不了的事?!?/span>
無人機(jī)已經(jīng)可以投入到諸如協(xié)助救災(zāi)和管道檢查等的應(yīng)用。有朝一日它們將會(huì)可以進(jìn)行送貨并提供載客服務(wù)。像亞馬遜和波音這樣的公司已經(jīng)在測(cè)試無人機(jī),未來它們可能會(huì)像現(xiàn)在的郵遞員那樣投遞包裹。在某些情況下,多架無人機(jī)可能出現(xiàn)在同一個(gè)空域內(nèi),并且可以比人類飛行員更好地實(shí)現(xiàn)彼此間飛行的協(xié)調(diào)。使它們自動(dòng)飛行意味著可以降低成本,將技術(shù)帶到全世界更多人和公司的手中。
機(jī)器人醫(yī)生
除了交通工具,計(jì)算機(jī)視覺給醫(yī)療領(lǐng)域帶來的變化是最顯著的。AI 算法已經(jīng)可以比放射科醫(yī)生更好地從醫(yī)學(xué)影像中識(shí)別出病癥,例如骨折和肺炎。“大數(shù)據(jù)的爆發(fā),尤其在醫(yī)療領(lǐng)域的爆發(fā),意味著我們能獲得更多的數(shù)據(jù)來進(jìn)行研究?!蔽靼嘌缞W維耶多大學(xué)計(jì)算機(jī)學(xué)系助理教授 BeatrizRemeseiro表示,“我們正在利用數(shù)據(jù)去解決比以往更復(fù)雜的難題?!?/span>
去年,谷歌宣布開發(fā)出新的圖像識(shí)別算法,可用于檢測(cè)糖尿病視網(wǎng)膜病變的跡象,這種病變?nèi)绻患皶r(shí)治療會(huì)導(dǎo)致失明。這種算法能媲美人類專家,可以在患者視網(wǎng)膜的照片中發(fā)現(xiàn)小動(dòng)脈瘤,這種動(dòng)脈瘤是病變的早期跡象。2017年,騰訊也發(fā)布了一款用于醫(yī)學(xué)領(lǐng)域的AI產(chǎn)品——騰訊覓影,能夠通過掃描上消化道內(nèi)鏡圖片篩查食管癌,對(duì)早期食管癌的識(shí)別準(zhǔn)確率高達(dá) 90%。
目前,騰訊覓影已經(jīng)應(yīng)用于中國100多家醫(yī)院,未來也將輔助診斷糖尿病視網(wǎng)膜病變、肺結(jié)節(jié)、宮頸癌及乳腺癌等。其他運(yùn)用 AI 技術(shù)的工具也被用來更早地發(fā)現(xiàn)中風(fēng),為患者提供更好的生存機(jī)會(huì)。美國食品和藥物管理局最近宣布將簡(jiǎn)化流程,以便幫助 AI 產(chǎn)品更快地獲得批準(zhǔn)。
當(dāng)然,這些工具并不會(huì)很快就替代醫(yī)生,它們起到更多是顧問的作用,而非取代從業(yè)醫(yī)師。計(jì)算機(jī)視覺可以提高工作效率,并使醫(yī)生短缺地區(qū)的人們能得到更多醫(yī)療服務(wù)。這些創(chuàng)新技術(shù)也正在被用來最大限度地減少對(duì)人體的侵入性危害。
例如,CT 掃描比 X 射線能獲取更多信息,但會(huì)使患者暴露在更大的輻射中。AI 則可以對(duì)X光片進(jìn)行分析后,給醫(yī)生提供相當(dāng)于CT掃描的信息。“醫(yī)學(xué)影像是通過計(jì)算機(jī)視覺可以提供更多信息從而真正產(chǎn)生影響的領(lǐng)域,”康奈爾大學(xué)計(jì)算機(jī)科學(xué)系教授、谷歌研究所研究科學(xué)家 Ramin Zabih 表示。
“醫(yī)學(xué)史已經(jīng)證明,如果醫(yī)師可以獲得更多的數(shù)據(jù),這可能意味著能更好地幫助到患者?!?/p>
遠(yuǎn)和近:邊緣設(shè)備和航天器
所有這些領(lǐng)域都令人印象深刻,計(jì)算機(jī)視覺的未來會(huì)更加光明。即將開始影響該行業(yè)的最大變化之一,就是邊緣設(shè)備——在兩個(gè)網(wǎng)絡(luò)的邊界控制數(shù)據(jù)流轉(zhuǎn)的硬件。大多數(shù) AI 處理需要在大型遠(yuǎn)程云服務(wù)器上完成,因?yàn)檫\(yùn)行這些算法的計(jì)算密集程度很高。另一方面,人們制造了邊緣設(shè)備,從而具有足夠的處理能力能在本地完成工作。
隨著像 Nvidia和Facebook這樣的公司開始制造專門用于運(yùn)行 AI的芯片,邊緣設(shè)備正在變得越來越普遍。
這將可以實(shí)現(xiàn)更快、更安全的數(shù)據(jù)處理,并且能讓用戶通過自己的數(shù)據(jù)進(jìn)行更多 AI 自定義訓(xùn)練,增加個(gè)人結(jié)果的定制程度。“它將推動(dòng)更多的創(chuàng)新,”總部位于加利福尼亞的 Movidius 公司前首席執(zhí)行官 Remi El-Ouazzane表示,該公司為計(jì)算機(jī)視覺設(shè)計(jì)專用的低功耗處理器芯片。
目前 Remi El-Ouazzane也擔(dān)任英特爾 AI 產(chǎn)品集團(tuán)首席運(yùn)營官,這是另一家生產(chǎn)半導(dǎo)體芯片和微處理器的加州科技公司。El-Ouazzane 表示,從智能家居設(shè)備和監(jiān)控?cái)z像頭到自動(dòng)駕駛汽車,數(shù)十億臺(tái)設(shè)備都可以運(yùn)用 AI 技術(shù)并在邊緣設(shè)備上工作。
這還將創(chuàng)造能夠找到失蹤人員的技術(shù)(例如,通過掃描人群圖像),或者可以在孩子睡覺前沒有刷牙的時(shí)候能夠提醒父母。“問題不是‘能不能實(shí)現(xiàn)’,而是‘什么時(shí)候?qū)崿F(xiàn)’。”他說。
在邊緣設(shè)備的微世界之外,天文學(xué)家們也對(duì)計(jì)算機(jī)視覺特別感興趣,他們從無盡太空中收集到大量數(shù)據(jù)集并進(jìn)行研究。
Kaggle 是一個(gè)用于預(yù)測(cè)建模和分析競(jìng)賽的在線平臺(tái),在Kaggle上就有一個(gè)比賽利用深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)讓研究人員能夠通過觀察天文圖像發(fā)現(xiàn)更多關(guān)于支配我們宇宙的暗物質(zhì)的相關(guān)信息。此外,還有一個(gè)致力于通過 AI 促進(jìn)探索太空的研究孵化器。前沿開發(fā)實(shí)驗(yàn)室 (FDL) 是美國航空航天局 (NASA) 與英特爾 AI、谷歌云、洛克希德和 IBM 等公司共同建立的合伙機(jī)構(gòu)。
FDL將天文學(xué)家和計(jì)算機(jī)科學(xué)家?guī)У搅思永D醽喼莨韫裙餐ぷ?周,解決諸如了解太陽耀斑、繪制月球地圖和尋找小行星等問題。
根據(jù) FDL 創(chuàng)始人之一 James Parr 的說法,如果沒有計(jì)算機(jī)視覺,計(jì)劃就無法成功。事實(shí)上,位于美國加州帕薩迪納的NASA 噴氣推進(jìn)實(shí)驗(yàn)室 (JPL) 對(duì)于攝像技術(shù)的發(fā)明起到了至關(guān)重要的作用,該技術(shù)影響了如今的大部分計(jì)算機(jī)視覺軟件。
“計(jì)算機(jī)視覺與太空計(jì)劃之間存在共生關(guān)系,” Parr 說?!暗@個(gè)議題在太空行業(yè)的討論度還不足夠?!?/p>
太空探索將同樣受到影響,因?yàn)锳I 對(duì)于前往火星以及更遠(yuǎn)的地方至關(guān)重要。太空旅行者和地球指揮中心之間的通信滯后意味著系統(tǒng)必須要能夠做出自主決定,而這些決策很多都是由視覺數(shù)據(jù)來推動(dòng)的。“隨著我們不斷向外探索,我們需要機(jī)器人和自治系統(tǒng)為宇航員做好準(zhǔn)備并提供協(xié)助、建造結(jié)構(gòu)、定位并提取資源,” Parr 說?!斑@是發(fā)現(xiàn)和探索過程中激動(dòng)人心的時(shí)刻?!?/span>
探索計(jì)算機(jī)視覺將如何改變地球上的生活,同樣令人激動(dòng)。隨著 AI 擴(kuò)展到更多領(lǐng)域并發(fā)展出新功能,它可能會(huì)遇到新的技術(shù)難題。但是,當(dāng)我們回顧 AI 的歷史時(shí),給計(jì)算機(jī)提供視覺的能力可能是最重要的一項(xiàng)進(jìn)步。擁有視力的機(jī)器將帶領(lǐng)我們走向更光明的未來。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238246 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45974
原文標(biāo)題:計(jì)算機(jī)視覺已超越人類眼睛?騰訊優(yōu)圖與《科學(xué)》雜志全面解讀
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論