最近,科大訊飛在國際自動駕駛領(lǐng)域權(quán)威評測任務(wù)Cityscapes中,以明顯優(yōu)勢刷新了像素級圖像場景分割任務(wù)、實例級圖像場景分割任務(wù)全部兩項子任務(wù)的世界紀(jì)錄,拿下了2018年獲得的第七個世界第一。
科大訊飛又拿下一個世界第一,而且是在計算機(jī)視覺領(lǐng)域。
近日,科大訊飛在國際自動駕駛領(lǐng)域權(quán)威評測任務(wù)Cityscapes中,以明顯優(yōu)勢刷新了像素級圖像場景分割任務(wù)、實例級圖像場景分割任務(wù)全部兩項子任務(wù)的世界紀(jì)錄。
2018年,在計算機(jī)視覺領(lǐng)域,訊飛已連續(xù)在IDRiD眼底圖分析競賽、ICPR MTWI圖文識別挑戰(zhàn)賽中斬獲桂冠,這次拿下Cityscapes第一名,也再次佐證科大訊飛在計算機(jī)視覺領(lǐng)域也有技術(shù)實力。
Cityscapes評測數(shù)據(jù)集:多維度考量自動駕駛圖像語義分割,近百家機(jī)構(gòu)“群雄逐鹿”
Cityscapes評測任務(wù)是由奔馳主推,提供在駕駛領(lǐng)域進(jìn)行效果和性能測試的圖像分割數(shù)據(jù)集。該評測任務(wù)關(guān)注真實場景下的道路環(huán)境理解,用于評估參與測試的算法在城區(qū)場景語義理解方面的性能。
相比其他自動駕駛領(lǐng)域的測試數(shù)據(jù)集,Cityscapes任務(wù)難度更高,更加貼近自動駕駛等當(dāng)下熱門需求,近年來的熱度也不斷攀升。截至目前,評測已經(jīng)吸引了包括谷歌、英偉達(dá)、三星、騰訊和香港中文大學(xué)等近百家國內(nèi)外優(yōu)秀創(chuàng)新企業(yè)和頂尖學(xué)術(shù)機(jī)構(gòu)的參與。
在Cityscapes任務(wù)所應(yīng)用的數(shù)據(jù)集中,包含了5000張精細(xì)標(biāo)注的圖像和20000張粗略標(biāo)注的圖像,這些圖像包含50個城市的不同場景、不同背景、不同街景,以及30類涵蓋地面、建筑、交通標(biāo)志、自然、天空、人和車輛等的物體標(biāo)注。
Cityscapes評測集有兩項任務(wù):像素級(Pixel-level)圖像場景分割(以下簡稱語義分割)與實例級(Instance-level)圖像場景分割(以下簡稱實例分割)。去年10月,科大訊飛曾參與前者并刷新記錄;此次科大訊飛同時參與全部兩項任務(wù)的測評,不僅再次刷新了語義分割任務(wù)的世界紀(jì)錄,同時以較大優(yōu)勢刷新了實例分割任務(wù)的世界紀(jì)錄。
包攬兩項第一背后的秘密:基于圖像檢測和分割基礎(chǔ)算法創(chuàng)新
Cityscapes評測集中,語義分割任務(wù)(Pixel-Level Semantic Labeling Task)使用標(biāo)準(zhǔn)的PASCAL VOC IoU(intersection-over-union)得分來評估預(yù)測結(jié)果與真實場景之間的匹配準(zhǔn)確度,要求參賽算法能夠?qū)D像中的每一個像素點進(jìn)行準(zhǔn)確的類別預(yù)測, 每個像素點的預(yù)測結(jié)果都會直接影響到最終得分。
像素級圖像場景分割任務(wù)榜單
實例分割任務(wù)(Instance-Level Semantic Labeling Task)則是同時對每個目標(biāo)進(jìn)行定位和語義分割,每個目標(biāo)即為實例,該任務(wù)最終以每個實例的分割準(zhǔn)確度進(jìn)行評估。
實例級圖像場景分割任務(wù)榜單
這兩個任務(wù)的主要區(qū)別在于,在對某些類別目標(biāo)進(jìn)行像素級的分類基礎(chǔ)上,實例分割還需要進(jìn)行不同實例間的區(qū)分,例如需要區(qū)分圖像中的車輛和行人,還要將車輛中不同的汽車進(jìn)行區(qū)分和標(biāo)注。
(結(jié)果示意圖:左-原圖,中-語義分割結(jié)果圖,右-實例分割結(jié)果圖)
針對Cityscapes數(shù)據(jù)集“尺寸變化大、相互遮擋多、目標(biāo)辨識難”的特點,訊飛團(tuán)隊基于圖像檢測和分割基礎(chǔ)算法的多年研究積累,引入了多項創(chuàng)新性技術(shù)。在設(shè)計語義分割模型方案時,基于Encoder-Decoder框架,融合注意力機(jī)制、可變形卷積操作等思想,創(chuàng)新性地增加了一組尺度自適應(yīng)矯正網(wǎng)絡(luò),使得模型能夠充分地利用各層級特征和上下文信息來有效地應(yīng)對場景中類別尺寸的變化,同時通過目標(biāo)函數(shù)的設(shè)計對圖像各像素點進(jìn)行加權(quán)編碼及梯度規(guī)整,提升難以辨識的“難例”像素點尤其是各類別邊緣相交區(qū)域像素點的預(yù)測準(zhǔn)確度,進(jìn)一步提升整幅圖像場景中每一個像素點的預(yù)測準(zhǔn)確性。
在實例分割方案的設(shè)計上,訊飛團(tuán)隊將級聯(lián)式檢測方案遷移到實例分割任務(wù)的定位模塊中,并針對駕駛場景下的一些特定的空間位置共生關(guān)系(比如:汽車出現(xiàn)在道路上,騎車者出現(xiàn)在自行車或摩托車上)引入一種空間注意力機(jī)制,逐步提升模型的定位性能,同時在分割模塊的設(shè)計上還成功借鑒語義分割模型成熟方案,精細(xì)化每個實例對象的分割結(jié)果,最終達(dá)到更好的實例分割性能。
計算機(jī)視覺技術(shù)落地,產(chǎn)品打開車載市場
科大訊飛并沒有把語音作為唯一的“寶”來押注,去年年會上,科大訊飛的車載產(chǎn)品飛魚2.0版本問世,除了語音交互外,還增加了一雙“眼鏡”——訊飛正式把計算機(jī)視覺做落地。
語音+視覺,是飛魚2.0打開車載市場的利器,這個產(chǎn)品結(jié)合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機(jī)交互解決方案,訊飛也傾注了大量的技術(shù)力量。去年10月,科大訊飛在Cityscapes評測集圖像場景分割任務(wù)中獲得了第一名,展示出了在視覺上的實力。
連續(xù)兩年刷新Cityscapes評測集記錄后,科大訊飛在自動駕駛和車聯(lián)網(wǎng)技術(shù)重要賽道不斷加速。目前,訊飛為不同工作模式和不同傳感器配置的智能化車輛提供了“看得清、認(rèn)得準(zhǔn)”的核心能力:
1、可行駛區(qū)域的判斷更加精準(zhǔn)
意味著車輛在做出駕駛路線決策時有精度更高的依據(jù),可以更好地將圖像和激光雷達(dá)等感知設(shè)備返回的結(jié)果進(jìn)行綜合校驗判斷,從而避免因單一傳感器缺陷而產(chǎn)生交通事故的可能性。
2、物體類別和形狀判斷更加精準(zhǔn)
意味著車輛對于當(dāng)前駕駛環(huán)境中其他交通參與者的屬性和具體形狀有更精確的判斷,在面對有些激光雷達(dá)難以識別的物體屬性和難以區(qū)分的物體實例時,車輛可以通過視覺感知這一更加直觀且完整的方案來大幅度地降低事故出現(xiàn)的概率。
對科大訊飛而言,在從單純的智能語音能力提供商積極轉(zhuǎn)型為整車智能化方案提供商的進(jìn)程中,Cityscapes評測恰好成為了考驗科大訊飛在計算機(jī)視覺領(lǐng)域算法水平的“試金石”。而通過了檢驗的領(lǐng)先核心算法技術(shù)不僅可以更好地為訊飛保駕護(hù)航,還能進(jìn)一步加速機(jī)器視覺能力的產(chǎn)品落地應(yīng)用。
除了智能汽車領(lǐng)域,與之緊密相關(guān)的智慧城市領(lǐng)域中則涉及到道路交通流量統(tǒng)計、安防等多個實際業(yè)務(wù)場景。此次參與Cityscapes評測任務(wù)所帶來的核心算法能力的提升和拓展,將持續(xù)助力未來產(chǎn)品效能提升,推動音視頻智慧交通產(chǎn)品領(lǐng)域邁向一體化。
訊飛今年拿下的七個世界第一
這是訊飛2018年獲得的第七個世界第一,之前的有:
2018年1月,機(jī)器閱讀理解SQuAD閱讀理解大賽再次刷新世界紀(jì)錄,EM得分超過人類平均水平(參賽者包括微軟、谷歌、Facebook、IBM、Salesforce、斯坦福大學(xué)、卡耐基梅隆大學(xué)、清華、北大等國內(nèi)外企業(yè)和科研機(jī)構(gòu));
2018年2月,在由國際計算語言學(xué)協(xié)會(ACL)下屬組織主辦的第十二屆國際語義評測比賽(SemEval2018)中,斬獲基于常識的機(jī)器閱讀理解全球第一;
2018年3月,在由醫(yī)學(xué)影像領(lǐng)域的國際頂級會議The IEEE InternationalSymposium on Biomedical Imaging (ISBI)舉辦的IDRiD糖網(wǎng)病挑戰(zhàn)賽上,取得微動脈瘤分割任務(wù)第一名、其余三項任務(wù)前三名的佳績;
2018年6月,在由模式識別領(lǐng)域國際學(xué)術(shù)頂會ICPR舉辦的MTWI(Multi-Type Web Images,多樣式網(wǎng)絡(luò)圖像)國際識別挑戰(zhàn)賽中,榮膺“文字識別”、“文字檢測”和“端到端識別”全部三項冠軍;
2018年7月,在國際權(quán)威英文語音合成比賽中連續(xù)13年蟬聯(lián)世界第一,仍然是語音合成自然度指標(biāo)全球唯一超過真人說話水平的公司(獲得10個測評項目中的9項第一,在最關(guān)鍵的自然度和相似度評測指標(biāo)上均大幅領(lǐng)先第二名);
2018年9月,國際權(quán)威英文語音識別大賽“CHiME-5”中,科大訊飛包攬全部四個項目的第一名。
-
計算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45974 -
科大訊飛
+關(guān)注
關(guān)注
19文章
800瀏覽量
61239 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13784瀏覽量
166384
原文標(biāo)題:科大訊飛再刷新計算機(jī)視覺評測兩項任務(wù)世界紀(jì)錄,連奪七項世界第一!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論