RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為研發(fā)語音喚醒方法及電子設(shè)備的語音交互技術(shù)

454398 ? 來源:搜狐 ? 作者:搜狐 ? 2021-01-09 09:07 ? 次閱讀

通常語音交互過程通常分為喚醒、響應(yīng)、輸入、理解、反饋幾個環(huán)節(jié),語音交互技術(shù)也一直是IBM、微軟、百度等遙遙領(lǐng)先。

幾個月前,華為消費者業(yè)務(wù)CEO余承東表示華為正在研發(fā)國際版的語音助手,同時建立自己的AI服務(wù),并將在未來擴展到國際市場。

人工智能的潮流推動下,智能化語音技術(shù)不斷發(fā)展,許多電子設(shè)備中都添加了語音助手,如Siri、小愛同學(xué)、天貓精靈等,用來協(xié)助用戶進行人機交互過程。為了使得語音助手能夠及時檢測并響應(yīng)用戶發(fā)出的語音交互指令,電子設(shè)備一般會預(yù)設(shè)一些喚醒詞,如“Hi Siri”等,當(dāng)檢測到用戶輸入喚醒詞時,可觸發(fā)電子設(shè)備與用戶進行交流。通常設(shè)備設(shè)置喚醒詞的聲強門限60dB,當(dāng)用戶輸入聲強大于60dB時,電子設(shè)備檢測成功,然而當(dāng)用戶距離設(shè)備較遠(yuǎn)時,由于輸入聲強的降低,電子設(shè)備往往難以檢測到輸入語音信號從喚醒失敗。在這種情況下,如何在遠(yuǎn)距離下提高語音助手喚醒成功率成為諸多企業(yè)競相研究的熱點。

華為公司于2019年7月25日提出了一項名為“一種語音喚醒方法及電子設(shè)備”的發(fā)明專利(申請?zhí)枺?01910677390 .9),申請人為華為技術(shù)有限公司。

此發(fā)明專利介紹了一種語音喚醒方法及相對應(yīng)的電子設(shè)備,可以在較廣的位置范圍內(nèi)保證電子設(shè)備被成功喚醒的幾率,從而提高用戶的使用體驗,而該種方法可以被應(yīng)用于諸如智能家居設(shè)備、PC、手機、音箱等具有語音交互功能的電子設(shè)備之中。

o4YBAF9uXB6ASSloAACJI4NT3Lc054.png

圖1 語音交互過程示意圖

通常語音交互過程可分為喚醒、響應(yīng)、輸入、理解、反饋幾個環(huán)節(jié)。當(dāng)設(shè)備處于待機狀態(tài)時,需要識別用戶輸入的語音喚醒信號,如果識別成功則切換到工作狀態(tài),此后則可以通過語音識別算法用戶對輸入的語義內(nèi)容進行識別并響應(yīng),整個過程如圖1所示。

從上述過程可以看出,成功喚醒電子設(shè)備是實現(xiàn)人機語音交互的基礎(chǔ),而喚醒設(shè)備的過程就是通過預(yù)設(shè)的喚醒參數(shù)檢測用戶的語音輸入。喚醒參數(shù)如喚醒門限、拾音方向、噪聲抑制參數(shù)、放大增益等的取值決定了電子設(shè)備在檢測喚醒輸入語音時喚醒率的高低。在實際使用過程中,用戶相對設(shè)備的位置差異導(dǎo)致了喚醒率的不同,因此根據(jù)用戶所在的位置動態(tài)設(shè)置喚醒參數(shù)可以使得電子設(shè)備在不同位置場景下保持較高的喚醒率。

pIYBAF9uXCCACWbGAAEKoHGuKwk742.png

圖2 語音喚醒方法應(yīng)用場景示意圖

圖2為上述提到的基于用戶位置信息來劃分區(qū)域,從而進行語音喚醒的示意圖。電子設(shè)備在待機狀態(tài)時可周期性地通過攝像頭采集用戶圖像信息,并根據(jù)圖像確定用戶所在的位置信息。對于不同區(qū)域,設(shè)備可預(yù)先設(shè)置對應(yīng)的喚醒參數(shù),以聲強為例,在近處的區(qū)域設(shè)置較大的門限,而在遠(yuǎn)處區(qū)域設(shè)置較小的門限,從而使各個區(qū)域都達(dá)到較高的喚醒率。如圖2所示的三個區(qū)域各自具有一套喚醒參數(shù),從而提高了語音交互場景下用戶的使用體驗。

o4YBAF9uXCGAUjaBAAITFAM0hTk601.png

圖3 語音喚醒方法流程圖

圖3是此專利提供的一種語音喚醒方法流程示意圖。以智能電視為例,首先設(shè)備通過攝像頭采集圖像,并通過采集的圖像確定其中是否包含用戶,如果包含則確定圖像中第一用戶所在的第一目標(biāo)位置,并獲取該位置下的喚醒參數(shù)。當(dāng)用戶輸入語音后,設(shè)備根據(jù)上述喚醒參數(shù)處理輸入語音信號。如果用戶從區(qū)域1切換到區(qū)域2,則設(shè)備獲取區(qū)域2中的喚醒參數(shù)并進行信號處理,包括模數(shù)轉(zhuǎn)換、降噪、放大等,因此該設(shè)備可根據(jù)用戶所在位置實時動態(tài)的對切換喚醒參數(shù),達(dá)到更好的人機交互效果。

在智能語音服務(wù)上,Google和亞馬遜的是目前公認(rèn)的業(yè)界巨頭,然而從此項專利可以推斷出華為在語音業(yè)務(wù)上也在不斷努力發(fā)展!

編輯:hfy
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    34411

    瀏覽量

    251496
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47183

    瀏覽量

    238247
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    286

    瀏覽量

    28002
收藏 人收藏

    評論

    相關(guān)推薦

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別和語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將語音識別
    的頭像 發(fā)表于 12-20 10:35 ?28次閱讀

    電子語音芯片方案,低功耗語音播報ic,NV256H

    隨著科技的不斷發(fā)展,電子鎖已成為現(xiàn)代社會中,安全性和便利性并存的必備設(shè)備。如何為電子鎖行業(yè)增添智能化、人性化的功能已成為行業(yè)內(nèi)的熱門話題。在這個迅速發(fā)展的市場中,廣州九芯電子推出了一款
    的頭像 發(fā)表于 12-06 01:01 ?85次閱讀
    <b class='flag-5'>電子</b>鎖<b class='flag-5'>語音</b>芯片方案,低功耗<b class='flag-5'>語音</b>播報ic,NV256H

    基于智能語音交互的智能呼叫中心工作機制

    作為實現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語音交互技術(shù),它通過集成自然語言處理(NLP)、語音識別(ASR)和
    的頭像 發(fā)表于 12-03 16:44 ?273次閱讀
    基于智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>的智能呼叫中心工作機制

    智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色

    語音技術(shù)滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設(shè)備語音功能核心,集成識別、合成、壓縮解碼等功能,實現(xiàn)精準(zhǔn)
    的頭像 發(fā)表于 12-02 14:23 ?144次閱讀

    車載電子設(shè)備功能喚醒利器-震動開關(guān)

    震動開關(guān)作為車載電子設(shè)備功能喚醒的利器,在智能汽車的發(fā)展中扮演著舉足輕重的角色。隨著智能汽車技術(shù)的不斷發(fā)展,震動開關(guān)的應(yīng)用范圍將進一步擴大。未來,震動開關(guān)將更加智能化、集成化,能夠同時感知多種類型的振動信號,并通過先進的算法進行
    的頭像 發(fā)表于 09-26 17:41 ?1436次閱讀
    車載<b class='flag-5'>電子設(shè)備</b>功能<b class='flag-5'>喚醒</b>利器-震動開關(guān)

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    大模型語音問答、拍照識圖、大模型繪圖等豐富供能示例,支持語音喚醒、多輪語音交互。 2智能對話除了大模型
    發(fā)表于 06-18 17:33

    智能語音交互技術(shù)如何助力設(shè)備實現(xiàn)人機自然對話

    隨著現(xiàn)代人工智能在各行業(yè)的普及,智能語音交互技術(shù)也越來越多的在日常工作、生活中應(yīng)用,智能語音交互的出現(xiàn)不僅僅大量節(jié)省了人工的工作時間提高了工
    的頭像 發(fā)表于 05-23 15:16 ?715次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>技術(shù)</b>如何助力<b class='flag-5'>設(shè)備</b>實現(xiàn)人機自然對話

    智能語音交互技術(shù)如何助力設(shè)備實現(xiàn)人機自然對話

    智能語音交互技術(shù)是指通過語音識別、語音合成和自然語言理解等技術(shù),實現(xiàn)人與機器之間自然語言的交流和
    的頭像 發(fā)表于 05-23 15:14 ?376次閱讀

    WTK6900G語音識別芯片在車載語音交互氛圍燈上的應(yīng)用案例解析

    隨著智能汽車的快速發(fā)展,車載語音交互技術(shù)逐漸成為提升駕駛體驗的關(guān)鍵技術(shù)之一。傳統(tǒng)的車載燈光控制系統(tǒng)往往依賴于手動操作,不僅操作繁瑣,而且在駕駛過程中容易分散駕駛員的注意力。因此,開發(fā)一
    的頭像 發(fā)表于 05-17 13:57 ?405次閱讀

    離線自然說,無需記固定喚醒詞也能語音控制設(shè)備!

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)離線語音識別是指不需要依賴網(wǎng)絡(luò),在本地設(shè)備實現(xiàn)語音識別的過程,通常以端側(cè)AI語音芯片作為載體來進行數(shù)據(jù)的采集、
    的頭像 發(fā)表于 04-29 09:12 ?4481次閱讀
    離線自然說,無需記固定<b class='flag-5'>喚醒</b>詞也能<b class='flag-5'>語音</b>控制<b class='flag-5'>設(shè)備</b>!

    設(shè)備更聰明 |離線自然說,開啟智能語音交互新體驗!

    離線語音識別是指不需要依賴網(wǎng)絡(luò),在本地設(shè)備實現(xiàn)語音識別的過程,通常以端側(cè)AI語音芯片作為載體來進行數(shù)據(jù)的采集、計算和決策。但是語音芯片的存儲
    的頭像 發(fā)表于 01-10 08:15 ?1005次閱讀
    讓<b class='flag-5'>設(shè)備</b>更聰明 |離線自然說,開啟智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新體驗!

    語音數(shù)據(jù)集:智能語音技術(shù)的燃料與推動力

    隨著人工智能技術(shù)的不斷進步,語音技術(shù)作為人機交互的重要方式,正在逐漸滲透到我們的日常生活中。而語音數(shù)據(jù)集作為智能
    的頭像 發(fā)表于 12-29 11:11 ?408次閱讀

    語音數(shù)據(jù)集:推動人工智能語音技術(shù)的關(guān)鍵要素

    隨著人工智能技術(shù)的飛速發(fā)展,語音技術(shù)已成為人機交互領(lǐng)域的重要一環(huán)。語音數(shù)據(jù)集作為支撐語音
    的頭像 發(fā)表于 12-29 11:00 ?635次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的基石與挑戰(zhàn)

    隨著人工智能技術(shù)的飛速發(fā)展,語音技術(shù)已成為人機交互領(lǐng)域的重要突破口。語音數(shù)據(jù)集作為支撐語音
    的頭像 發(fā)表于 12-28 11:28 ?716次閱讀

    科大訊飛語音控制模塊怎么用

    科大訊飛語音控制模塊是一種人機交互技術(shù),它利用語音識別和語音合成技術(shù),使用戶可以通過
    的頭像 發(fā)表于 12-25 13:58 ?1810次閱讀
    RM新时代网站-首页