百度剛剛發(fā)布了2019年全年及第四季度財報,總營收1074億人民幣、單季營收289億人民幣,除了營收上繼續(xù)保持雙向增長,人工智能新業(yè)務(wù)也展露出一些新氣象,并首次對外披露了這樣一組數(shù)據(jù):
小度品牌第一方硬件的語音交互次數(shù)達(dá)到23億次(智能音箱、車載支架等),是去年同期的7倍多。
其實早在2018年第三季度財報時,百度就曾對外公開DuerOS(小度助手)的相關(guān)數(shù)據(jù),不過彼時的數(shù)據(jù)主體還是DuerOS生態(tài),TCL、vivo、索尼等合作伙伴的設(shè)備占了不小的比重。此時再看2019年12月的最新數(shù)據(jù),小度語音助手的交互次數(shù)已經(jīng)超過50億次,比去年同期增長了3倍多。
值得一提的是,百度特意在財報中單獨公布了以小度智能音箱為主的第一方交互數(shù)據(jù),或許可以從中讀出這樣兩個信號:
其一,小度智能音箱的市場銷量在公司層已經(jīng)得到了的認(rèn)可;
其二,智能音箱背后的語音交互或?qū)⑸仙搅斯菊w戰(zhàn)略。
對于第一個命題,諸如IDC、Canalys等市場研究機(jī)構(gòu)已經(jīng)在季度銷量報告中給出了答案。第二個命題似乎也不是什么新鮮話題,幾年前就出現(xiàn)了對語音交互價值的討論,但這一次似乎又有所不同。在“智能音箱大戰(zhàn)”的洪荒之力下,智能音箱正在以千萬級的季度出貨量走進(jìn)一線城市到偏遠(yuǎn)鄉(xiāng)鎮(zhèn)的家庭,“語音交互”不再是什么陌生詞匯。
也就是說,幾年前討論語音交互還屬于霧里看花,所有的觀點都建立在某種假想上,今天卻早已是一個現(xiàn)實的商業(yè)話題。
語音交互的遠(yuǎn)景和近況
關(guān)乎語音交互的想象似乎從未停止,科幻電影《Her》中對語音交互的設(shè)定,大抵就是多數(shù)人認(rèn)可的遠(yuǎn)景:
1、語音助手可以個性化定制,選擇自己喜歡的聲音和性格;2、在數(shù)據(jù)處理上幾乎是萬能的,可以得到任何想要的結(jié)果;3、語音助手有自己的情感和思維方式,并可以被賦予形體。
在這樣的設(shè)定中,人工智能脫去了科技冰冷的面紗,有著人性化和活色生香的情緒,甚至可以讓人機(jī)對話變成情人間的絮語。和許多黑科技的誕生一樣,有了美好遠(yuǎn)景的語音交互成了幾代“程序員”的奮斗方向。
特別是深度學(xué)習(xí)技術(shù)在2010年引入到語音識別領(lǐng)域后,蘋果Siri、Google Now、百度語音、微軟Cortana等“語音助手”類產(chǎn)品應(yīng)運而生,有問有答的人機(jī)對話逐漸成為現(xiàn)實,哪怕機(jī)器還處于被動接受人類輸入大量數(shù)據(jù)階段,不能深層次理解人的意思。
智能音箱時代的語音開始進(jìn)入到自然交互階段,不僅有問有答,人工智能還可以根據(jù)上下文邏輯和環(huán)境信息,作出個性化的決策或推薦。特別是百度等已經(jīng)在智能音箱中加入了多輪連續(xù)對話能力,人們和智能音箱的對話正越來越自然。
可即便如此,現(xiàn)階段的語音交互和《Her》中的“薩曼莎”,還有著286電腦和iPhone一樣的差距。但站在商業(yè)的視角上,看到的卻是樂觀的商業(yè)前景,而非感嘆技術(shù)上存在的鴻溝,原因同樣有二:
一是現(xiàn)階段的語音交互業(yè)已成為主流的人機(jī)交互方式,語音識別的正確率在97%以上,可以滿足大多數(shù)場景下的信息輸入,無異于十年前的觸摸屏。
二是語音交互用戶體驗的優(yōu)劣建立在已有的用戶數(shù)據(jù)上,很少有人會對智能手機(jī)產(chǎn)生依戀,對語音交互可能有不一樣的情感,商業(yè)基礎(chǔ)無疑更加穩(wěn)健。
那么,當(dāng)語音交互漸漸流行的時候,勢必會在商業(yè)上產(chǎn)生顛覆性的變化。
下一個BAT的“通關(guān)密碼”
事實似乎也是如此,互聯(lián)網(wǎng)的每一次繁榮都與人機(jī)交互方式的迭代不無關(guān)系。
比如PC時代的商業(yè)格局,幾乎是瀏覽器和搜索引擎主導(dǎo)的。
彼時用戶連接互聯(lián)網(wǎng)的行為被局限在鍵盤和鼠標(biāo)上,稍微極客一些的用戶可以通過瀏覽器輸入網(wǎng)址連接信息,大多數(shù)用戶是在搜索框中輸入關(guān)鍵詞,然后點擊鼠標(biāo)或回車鍵了解世界。在這樣的人機(jī)交互方式和用戶習(xí)慣下,信息的整合與輸出是“中心化”的,誰能掌握瀏覽器和搜索入口,誰就擁有信息分發(fā)的話語權(quán),
智能手機(jī)的出現(xiàn)在某種程度上淘汰了鼠標(biāo),進(jìn)一步催生了APP的產(chǎn)品形態(tài),直接導(dǎo)致搜索和瀏覽器的中心地位被削弱。
與之對應(yīng)的商業(yè)格局也迅速分化。早期的焦點是圍繞“應(yīng)用中心”的爭奪,誰拿到了APP的分發(fā)入口,誰就能搶到最大的一塊蛋糕,以至于左右一些APP的存亡。后期進(jìn)入到超級APP林立的時代,也就是我們現(xiàn)在熟悉的場景,微信、淘寶、百度、抖音等APP占據(jù)了大量的用戶時間,“時間”取代“入口”成為互聯(lián)網(wǎng)體系的“硬通貨”。
沿循這樣的邏輯,語音交互的流行可能讓信息的分發(fā)方式重新拐向中心化,商業(yè)格局也將走向新的轉(zhuǎn)折點。
一個直接的例子,當(dāng)你給智能音箱發(fā)出指令播放某首音樂時,或許并不關(guān)心內(nèi)容來自于哪家音樂平臺,被削弱的恰恰是APP的存在感。語音交互主導(dǎo)的信息分發(fā)可能比PC時代更加“大一統(tǒng)”,當(dāng)大多數(shù)需求只要說句話就能解決時,用戶習(xí)慣中不會再有APP和瀏覽器的概念,也必將催生出新的“統(tǒng)治者”。
百度在財報中著重提及小度智能音箱語音交互次數(shù)的謎題,也就不難解開:
短期內(nèi)的小度智能音箱為百度的內(nèi)容體系帶來了新的落地載體,比如有屏智能音箱已經(jīng)是愛奇藝重要的流量渠道之一,同時智能音箱與智能家居設(shè)備的無縫連接,也將百度的能力邊界從互聯(lián)網(wǎng)內(nèi)容延伸到了IoT領(lǐng)域;
長遠(yuǎn)價值則在于語音交互重構(gòu)的新規(guī)則,中心化的信息分發(fā)恰恰是百度最擅長的打法。正如觸摸屏引發(fā)的移動互聯(lián)網(wǎng)浪潮,語音交互大概率將催生出新的生態(tài),小度智能音箱的月交互次數(shù)和背后的用戶習(xí)慣,正是百度通往下一個時代的“通關(guān)密碼”。
簡而言之,下一個BAT出現(xiàn)的前提正是掌握語音交互的控制權(quán)。
新賽道開啟的“標(biāo)志符號”
不過百度并非是唯一對語音交互抱有野心的玩家。
2014年與WP8.1一同發(fā)布的Cortana,被賦予了一個美麗的中文名字“微軟小娜”,甚至與Bing、Azure一道成為微軟“云為先,移動為先”戰(zhàn)略的核心產(chǎn)品;2016年小娜的語音識別率正式超越人類,并且可以處理復(fù)雜的口語指令;2018年為了讓小娜的表達(dá)聽起來更人性化,微軟還收購了一家名為“語義機(jī)器”的人工智能初創(chuàng)公司……
但在2020年微軟卻選擇戰(zhàn)略性收縮小娜業(yè)務(wù),小娜移動版停止服務(wù),并在微軟桌面中被移除,最終被集成到M365辦公類型應(yīng)用中。
對于小娜的失敗,外界出現(xiàn)了各種各樣的解讀,比如微軟缺少移動終端的優(yōu)勢,導(dǎo)致小娜缺少用戶行為的數(shù)據(jù)滋養(yǎng);再比如微軟自身的固步自封,小娜缺少足夠的技能和應(yīng)用場景,被用戶拋棄可以說是必然的宿命。
這些解讀不無道理,可回到語音交互本身而言,微軟小娜的失利不可謂不是一種教訓(xùn):要么做出足夠爆款的產(chǎn)品,讓語音交互的落地有一個標(biāo)志性的符號,進(jìn)而在產(chǎn)品上持續(xù)迭代,品類上不斷拓寬;要么沒什么標(biāo)志性的產(chǎn)品出現(xiàn),語音交互以靜默的方式在垂直行業(yè)中滲透,然后探路者在某個時間點被后來者超越。
微軟不幸成了后者,亞馬遜正努力成為前者。
在手機(jī)、PC和操作系統(tǒng)上近乎空白的亞馬遜,選擇了“Echo+Alexa”模式。其中Echo在某種程度上扮演了“標(biāo)志性符號”的角色,以智能音箱的產(chǎn)品形式擺脫了用戶固有的習(xí)慣,逐漸接受了用語音喚醒設(shè)備的方式;Alexa被不少人定義為“數(shù)字助理”,確切的說應(yīng)該是語音交互在行業(yè)中加速滲透的基礎(chǔ)設(shè)施,比如Alexa已經(jīng)被內(nèi)置于智能汽車、智能電視等硬件產(chǎn)品,并且擁有1.5萬種以上的技能。
國內(nèi)的百度似乎有著相同的打算,同樣是一邊以智能音箱來培養(yǎng)用戶習(xí)慣,一邊以小度助手打造語音交互的應(yīng)用場景。
按照以往的經(jīng)驗,當(dāng)一個行業(yè)開始出現(xiàn)“領(lǐng)頭羊”的時候,整個市場就會在變量的影響下開始高速擴(kuò)張。智能音箱大抵就是語音交互歷史進(jìn)程中的“標(biāo)志符號”,在語音交互上領(lǐng)跑市場的亞馬遜、百度等互聯(lián)網(wǎng)玩家,已然是新賽道中的領(lǐng)頭羊。
寫在最后
除了百度在財報中披露的語音交互數(shù)據(jù),或許還有另外一個視角:
2010年中國網(wǎng)民規(guī)模為4.57億,到了2019年這個數(shù)字已經(jīng)增長為8.54億,智能手機(jī)的普及已然讓近4億人接入了互聯(lián)網(wǎng)世界。
但不可否認(rèn)的是,三線以下城市的不少網(wǎng)民還不能熟練的使用鍵鼠,在手機(jī)上的操作也局限于語音聊天、刷短視頻等基礎(chǔ)應(yīng)用。幾百塊的智能音箱正在創(chuàng)造新的聯(lián)網(wǎng)方式,哪怕是被輸入法阻隔在互聯(lián)網(wǎng)大門外的用戶,只要“說句話”就能搜索想要的信息。
一切美妙的化學(xué)反應(yīng)正在發(fā)生中,一個新的商業(yè)賽道正在被緩緩撬開,留待百度們的使命在于:如何為語音交互延伸出更多的技能,以及進(jìn)一步優(yōu)化方言的語音交互,在技術(shù)上徹底踏平互聯(lián)網(wǎng)的門檻。
責(zé)任編輯:ct
評論
查看更多