人工智能的熱潮驅動了整個行業(yè)的發(fā)展,智能語音作為最天然的交互手段,自然備受關注。在語音交互引起傳統(tǒng)交互變革的今天,智能車載領域成為了變革的先鋒,尤其是后裝市場,智能語音似乎已經成為了車載場景交互的標配。
國內專注智能語音的企業(yè)競爭越來越膠著。阿里,語音客服儼然已成為剛需;百度,強大的搜索資源庫成為了百度語音的后備力量;科大訊飛,依托政府項目,在教育、醫(yī)療、智慧城市等領域也占據著市場優(yōu)勢;樂視推出樂樂語音,改變著樂視超級電視的交互方式;愛奇藝、360、等也都在紛紛涉足語音技術。專業(yè)的語音公司更是憑借著特色的解決方案,風頭正盛。在這其中,交互方式的簡單便捷,成為幾乎所有語音交互方案追求的一大效果。
講到語音交互的簡單與便捷,思必馳于2016年10月20日升級版的AIO3.1新增的one-shot功能吸引了行業(yè)極大的關注。AIOS For Car是思必馳于2015年10月針對智能車載后裝市場推出的一款對話操作系統(tǒng),主要應用在車機、智能后視鏡、HUD,以及互聯(lián)網汽車等產品上。2016年6月,思必馳將其升級至AIOS3.0版本,新增7大功能, 10月20日,思必馳再次發(fā)力,升級至AIOS3.1版本,積淀許久的one-shot功能也終于揭開神秘面紗。
one-shot一語即達
思必馳將one-shot功能描述為“一把說”,這一描述也十分的生動形象,貼近實際。
圖1 思必馳one-shot一把說
one-shot一把說,采用“喚醒詞+語音語義識別”一體化方式,實現喚醒詞與語音操控之間零間隔、零延遲、無縫對接,摒棄傳統(tǒng)的一問一答的形式,極大減少用戶語音操控的步驟,實現信息反饋,化繁為簡,實現簡便操作,但這樣的簡便在設計之初卻并不簡單。
one-shot的一大特點是識別喚醒與語義理解一體化,保證語音交互的統(tǒng)一性與連貫性,完成操控。舉個簡單的例子來講,過去智能語音的交互方式為一問一答,用戶發(fā)出喚醒詞指令,需要設備反饋待機信息,然后才能開始交互,例如:
用戶:你好小馳(喚醒詞指令)
設備:有什么可以幫您?(設備反饋,表示處于信息接收狀態(tài))
用戶:我要去機場
設備:開始為您導航去機場
one-shot功能卻可以一語即中,實現“喚醒詞+語音語義識別”一體化,比如實現這樣的交互:
用戶:你好小馳,我要去機場
設備:開始為您導航去機場
相比傳統(tǒng),這樣的體驗似乎更具效率。或許未來,在人機交互中,機器通過采集用戶的行為習慣數據,追蹤用戶意圖,實現如下的對話,也并非不可能:
甲:我一直有個問題想問你
乙:愛過….
系統(tǒng)響應速度及精準度始終是用戶關心的一大問題。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。語音喚醒和常用的語音指令識別存儲在本地,系統(tǒng)接收反應靈敏,語音識別能夠準確及時的響應。與此同時,連續(xù)語音識別和語義理解進行云端處理,基于場景,收集用戶習慣數據,通過深度學習,分析并追蹤用戶意圖,保證語義理解精準性。本地加云端的混合引擎處理,既保證了響應速度也確保了交互的精準,即使在沒有網絡的情況下,依然可以使用基本語音交互功能。
GUI圖形交互界面必然會繼續(xù)前進變革,VUI語音交互界面是一大發(fā)展趨勢。思必馳one-shot功能的發(fā)布,展示了其在VUI產品交互設計的深度思考。相信,通過不斷的提升語音交互體驗,VUI必然會在未來IOT行業(yè)的人機交互中引起越來越多的變革。
用技術說話:研發(fā)實力是關鍵
很多車載后裝產品用戶反映一個問題,就是使用車載語音時,說“我要去天安門”,系統(tǒng)可以響應,但是說“去天安門”時,系統(tǒng)無反應,這是為什么呢?實際上,這是因為一些語音方案商將“我要去”三個字固化為喚醒詞,而“去”、“我想去”這類詞與“我要去”不完全匹配,所以系統(tǒng)自然無法識別。這種交互方式,表面上被宣傳為“免喚醒”,實際上恰恰相反,系統(tǒng)通過采用大量喚醒詞來實現,這樣做導致誤喚醒率極高、增加系統(tǒng)資源占用、可擴展性差,同時強迫用戶記憶,為用戶的安全駕駛帶來隱患。
就此問題,思必馳產品總監(jiān)雷雄國表示“思必馳用one-shot功能來解決這一問題,用戶想怎么說系統(tǒng)都可以理解,基于對應用場景的深度學習,系統(tǒng)能夠通過后臺用戶數據采集,分析用戶行為習慣,準確追蹤用戶意圖,克服刻板的關鍵詞識別,通過大詞匯數據,實現場景的流暢交互”。
實然,語音技術企業(yè)的核心競爭力在語音技術研發(fā)實力、產品化落地及市場應用著陸,成為企業(yè)生存之道。一些企業(yè)堅持自主研發(fā),一些企業(yè)善于使用國際開源工具,比如,Google開源深度學習系統(tǒng)Tensor Flow。該系統(tǒng)支持支持CNN、RNN和LSTM算法等流行的深度神經網絡模型,大大降低深度學習的應用難度,提升開發(fā)速度。但通用的開源工具有其效率和權限上的局限性,既無法滿足特定的前沿算法需求,也常常無法滿足用戶基于場景的個性化需求,不同專業(yè)領域的算法、數據、架構等都要依托實際應用進行搭建及優(yōu)化。
目前國內智能語音行業(yè)中,深耕技術研發(fā)的企業(yè)并不多,比如在深度學習方面,百度研究院推出Deep Speech系統(tǒng),科大訊飛推出FSMNN算法模型,思必馳與上海交大聯(lián)合實驗室則獨立擁有VDCNN算法模型和PSD解碼架構。擁有獨立自主研發(fā)實力,才能結合產品特性、應用場景,深度定制交互方案。
圖2 思必馳one-shot一語即達
無論是新奇的one-shot功能,還是說傳統(tǒng)的語音交互,在人工智能時代,只有技術落地轉化為良好的產品體驗才能更好的繪出未來智能生活的景象,我們期待著更多新技術的發(fā)布,也期待著新技術給我們帶來的驚喜。
-
人工智能
+關注
關注
1791文章
47183瀏覽量
238247 -
智能車載
+關注
關注
0文章
57瀏覽量
9085 -
語音交互
+關注
關注
3文章
286瀏覽量
28002
發(fā)布評論請先 登錄
相關推薦
評論