9月16日,華為多媒體管線服務(wù)(AV Pipeline Kit)技術(shù)直播正式開啟。華為多媒體管線服務(wù)產(chǎn)品經(jīng)理Michelle、華為多媒體技術(shù)專家Salvatore、華為計算機視覺算法專家Ting、和華為AI技術(shù)專家Eric相聚直播間,深度解析了AV Pipeline Kit的技術(shù)要點和應(yīng)用場景,助力廣大音視頻開發(fā)者以更輕松更高效的方式,為用戶提供新玩法,新交互。
緣起:音視頻開發(fā)面臨諸多挑戰(zhàn),麒麟?yún)f(xié)同各團隊力量推AV Pipeline Kit
隨著寬帶提速,5G 普及,AI技術(shù)應(yīng)用,用戶對網(wǎng)絡(luò)視頻的內(nèi)容、互動性、播放速度和清晰度的要求越來越高。相應(yīng)的,多媒體開發(fā)呈現(xiàn)出實時化和智能化的趨勢,開發(fā)者在開發(fā)與管理過程中,面臨更高的技術(shù)門檻、更多的開發(fā)工作量等諸多挑戰(zhàn)。
其一,開發(fā)難度進一步加大,開發(fā)成本更高。很多視頻+AI的開發(fā),需要在傳統(tǒng)管線中加入AI處理技術(shù),這涉及到諸多數(shù)據(jù)處理能力,對于開發(fā)者來說技術(shù)門檻很高。
其二,端側(cè)實時化的智能視頻開發(fā)可能會遇到算力和功耗的限制。以端側(cè)超分為例,手機端算力比較受限,而視頻逐幀的超分實時處理對時延和功耗的要求是極高的。此外,視頻解碼后的數(shù)據(jù)要拿去做超分,就涉及到數(shù)據(jù)在不同IP之間的流轉(zhuǎn)和拷貝,會影響功耗,導(dǎo)致手機發(fā)燙。
以上諸多痛點,阻礙了開發(fā)者創(chuàng)新的腳步。為此,麒麟團隊整合了各個部門的能力,包括多媒體團隊、NPU團隊以及算法團隊,在今年7月份推出了華為多媒體管線服務(wù)(AV Pipeline Kit)。AV Pipeline Kit是一個面向安卓開發(fā)者的多媒體開放能力體系,它包含一個輕量級的多媒體開發(fā)框架和一系列高性能的音視頻處理插件,幫助開發(fā)者們降低開發(fā)難度,讓開發(fā)者們可以通過自定義流水線編排,將多種高性能插件快速集成到應(yīng)用中,輕松實現(xiàn)更加豐富的多媒體功能。
輕量化設(shè)計:“拼樂高”式的流水線編排,助力開發(fā)者高效開發(fā)
在AV Pipeline Kit多媒體開發(fā)框架中,包含了多個預(yù)置的流水線編排,即一些現(xiàn)成的開箱即用的業(yè)務(wù)場景,被封裝成了接口供直接調(diào)用;同時也支持自定義流水線編排,將不同插件按不同的連接關(guān)系串聯(lián)起來形成新的業(yè)務(wù)場景。
如何簡單理解流水線編排的過程呢?以視頻超分為例,按照插件之間的處理順序來看,首先是一個音視頻的解封裝過程,然后會經(jīng)歷音視頻的解碼,而后解碼視頻幀會進行視頻超分處理,最后進行送顯。從輸入到輸出,可以看成是一個流水線的過程。
談及流水線編排的設(shè)計思路,華為多媒體技術(shù)專家Salvator表示,首先是對業(yè)務(wù)進行抽象,然后把它分割成子過程,對子過程再進行一個抽象,實現(xiàn)具體的插件,最后再把插件用Pipeline的方式拼接起來。這樣的好處一方面是便于統(tǒng)一管理,另一方面提高了復(fù)用度。
這個過程可以簡單理解為拼樂高,一個個插件就是一個個不同形狀的樂高片,開發(fā)者的業(yè)務(wù)就像搭樂高一樣,不同的開發(fā)者可以從插件庫里選擇需要的插件,拼成想要的業(yè)務(wù)場景。AV Pipeline Kit定義了一套插件標準接口,開發(fā)者只需要繼承這個接口類,并實現(xiàn)初始化和數(shù)據(jù)處理相關(guān)的邏輯即可,無需考慮并發(fā)、線程同步、狀態(tài)轉(zhuǎn)移、buffer池管理、多實例等問題,這些已經(jīng)全部由框架層實現(xiàn)好了。
突破:視頻超分,最高3倍超分效果背后的技術(shù)優(yōu)勢
所謂“超分”,可以理解為在視頻播放過程中進行智能識別與銳度優(yōu)化,從而讓視頻看起來比原本更清晰、明麗。在大型影視和游戲制作中,超分是一種非常關(guān)鍵的技術(shù)。想要在端側(cè)在線場景中,幫助開發(fā)者獲得實時化、高性能、低功耗的超分,就需要從AI技術(shù)到硬件資源調(diào)用的一系列優(yōu)化。
據(jù)華為計算機視覺算法專家Ting介紹,AV Pipeline Kit提供傳統(tǒng)的GPU超分方案和AI超分方案兩種,以達到性能和功耗的平衡。“比如我們檢測到在麒麟高端芯片上,就會優(yōu)先采用NPU的AI超分算法,最高可實現(xiàn)3倍的超分效果。如果沒有NPU的硬件,我們就會選擇GPU方案做超分處理,效果可能會有一些下降,但性能上是滿足了實時性要求的?!?/p>
為了幫助開發(fā)者便捷獲取真實可用的逐幀超分能力,實現(xiàn)超分不卡頓的體驗,AV Pipeline Kit首先在機器視覺算法上進行了一系列技術(shù)突破。比如,在AI模型結(jié)構(gòu)上應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò),提升了復(fù)雜真實場景的超分效果;在數(shù)據(jù)工程方面,用一系列方法還原了多媒體數(shù)據(jù)的構(gòu)造過程,提升網(wǎng)絡(luò)的優(yōu)化結(jié)果;在端側(cè)模型壓縮方面,進行了新的網(wǎng)絡(luò)小型化探索,確保超分效果可以在端側(cè)場景中被很好地執(zhí)行。
其次,為了兼顧高性能與低功耗,AV Pipeline Kit和華為 HiAI Foundation之間也有不少配合。據(jù)華為AI技術(shù)專家Eric介紹,華為HiAI Foundation作為NPU使能的基礎(chǔ)平臺,能夠快速將原始模型轉(zhuǎn)換成華為Davinci Model,并通過Davinci Model的調(diào)優(yōu)技術(shù),優(yōu)化模型結(jié)構(gòu),充分發(fā)揮NPU硬件單元的算力,令模型算子以更低功耗在手機端側(cè)高效運轉(zhuǎn)。
在超分業(yè)務(wù)中,內(nèi)存DDR的頻繁讀寫對性能和功耗都是很大的挑戰(zhàn)。HiAI Foudation算子庫在優(yōu)化模型執(zhí)行時,重點對算力和帶寬利用做了平衡,在滿足業(yè)務(wù)要求的算力情況下,盡可能的減少對于內(nèi)存的反復(fù)讀寫,更多的利用內(nèi)部buffer和cache,極大地提供了性能,降低了功耗。
在一系列的技術(shù)突破之后,用戶可以獲得更好的畫質(zhì)體驗,視頻平臺可以節(jié)省帶寬和服務(wù)器資源,開發(fā)者則能夠高效集成業(yè)務(wù),降低工作量。
突破:聲音事件檢測,為實現(xiàn)98%識別率攻克的技術(shù)難題
對于開發(fā)者來說,聲音事件檢測是相對比較復(fù)雜的技術(shù),需要豐富的技術(shù)資源與開發(fā)經(jīng)驗。AV Pipeline Kit將這些功能以文件配置的形式直接帶給開發(fā)者,且經(jīng)過麒麟團隊的長期深耕,聲音檢測事件插件可以確保聲音識別的準確與穩(wěn)定。
目前,AV Pipeline Kit聲音事件檢測目前已經(jīng)可以支持日常使用的13種聲音,包括無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等豐富的場景。經(jīng)過研發(fā)團隊的深度優(yōu)化和組合驗證,當(dāng)前識別準確率平均在98%以上,無論從聲音事件類別還是識別性能上來看,都屬于業(yè)界領(lǐng)先。
據(jù)華為計算機視覺算法專家Ting介紹,團隊主要聚焦在兩個點上做突破,確保了聲音識別的準確及穩(wěn)定性。一是解決了不同聲音事件的時間片段的長短。不同聲音事件長短不同,比如孩子的哭聲以及寵物叫聲,貓叫狗叫是瞬發(fā)型的,而哭是一個持續(xù)性的動作,所以他們的事件片段,時間片和長短是不一樣的,聲音事件檢測插件在設(shè)計網(wǎng)絡(luò)的時候,參考了Inception網(wǎng)絡(luò),計算多個不同大小的卷積,這樣感受野就不同,進而提出的特征就更加具有針對性,特征空間更加豐富。
二是易混淆類別頻譜的區(qū)分。有一些聲音事件的混淆度比較高,比如在某些情況下小孩的哭聲和貓叫聲相當(dāng)接近,無論是人區(qū)分以及轉(zhuǎn)化為頻譜信息之后去查看,都很容易混淆。聲音事件檢測插件引入技術(shù)注意力機制,對易混淆的類別做一個區(qū)分。
面向未來:
深挖視頻播放、編輯場景,為開發(fā)者提供創(chuàng)新能力
最后,華為多媒體技術(shù)專家Salvatore表示,AV Pipeline Kit后續(xù)會繼續(xù)完善框架和插件,重點關(guān)注如視頻播放、視頻編輯等對性能要求比較高,對功耗比較敏感的場景,包括考慮預(yù)置錄制和編輯業(yè)務(wù),以及與人像拍攝美化相關(guān)的插件能力。
未來,麒麟團隊將持續(xù)投入核心技術(shù),突破技術(shù)難點,簡化底層開發(fā)繁瑣流程和難點,降低智能化視頻開發(fā)的門檻,助力音視頻開發(fā)者技術(shù)創(chuàng)新,在激烈的競爭角逐中取勝。
編輯:jq
-
DDR
+關(guān)注
關(guān)注
11文章
712瀏覽量
65318 -
帶寬
+關(guān)注
關(guān)注
3文章
926瀏覽量
40913 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85324 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
AV
+關(guān)注
關(guān)注
2文章
268瀏覽量
44506
原文標題:如何降低開發(fā)門檻,助力音視頻創(chuàng)新玩法?AV Pipeline Kit深度技術(shù)解析
文章出處:【微信號:Huawei_Kirin,微信公眾號:華為麒麟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論