RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何降低開發(fā)門檻助力音視頻創(chuàng)新玩法

華為麒麟 ? 來源:華為麒麟 ? 作者:華為麒麟 ? 2021-09-28 10:26 ? 次閱讀

9月16日,華為多媒體管線服務(wù)(AV Pipeline Kit)技術(shù)直播正式開啟。華為多媒體管線服務(wù)產(chǎn)品經(jīng)理Michelle、華為多媒體技術(shù)專家Salvatore、華為計算機視覺算法專家Ting、和華為AI技術(shù)專家Eric相聚直播間,深度解析了AV Pipeline Kit的技術(shù)要點和應(yīng)用場景,助力廣大音視頻開發(fā)者以更輕松更高效的方式,為用戶提供新玩法,新交互。

緣起:音視頻開發(fā)面臨諸多挑戰(zhàn),麒麟?yún)f(xié)同各團隊力量推AV Pipeline Kit

隨著寬帶提速,5G 普及,AI技術(shù)應(yīng)用,用戶對網(wǎng)絡(luò)視頻的內(nèi)容、互動性、播放速度和清晰度的要求越來越高。相應(yīng)的,多媒體開發(fā)呈現(xiàn)出實時化和智能化的趨勢,開發(fā)者在開發(fā)與管理過程中,面臨更高的技術(shù)門檻、更多的開發(fā)工作量等諸多挑戰(zhàn)。

其一,開發(fā)難度進一步加大,開發(fā)成本更高。很多視頻+AI的開發(fā),需要在傳統(tǒng)管線中加入AI處理技術(shù),這涉及到諸多數(shù)據(jù)處理能力,對于開發(fā)者來說技術(shù)門檻很高。

其二,端側(cè)實時化的智能視頻開發(fā)可能會遇到算力和功耗的限制。以端側(cè)超分為例,手機端算力比較受限,而視頻逐幀的超分實時處理對時延和功耗的要求是極高的。此外,視頻解碼后的數(shù)據(jù)要拿去做超分,就涉及到數(shù)據(jù)在不同IP之間的流轉(zhuǎn)和拷貝,會影響功耗,導(dǎo)致手機發(fā)燙。

以上諸多痛點,阻礙了開發(fā)者創(chuàng)新的腳步。為此,麒麟團隊整合了各個部門的能力,包括多媒體團隊、NPU團隊以及算法團隊,在今年7月份推出了華為多媒體管線服務(wù)(AV Pipeline Kit)。AV Pipeline Kit是一個面向安卓開發(fā)者的多媒體開放能力體系,它包含一個輕量級的多媒體開發(fā)框架和一系列高性能的音視頻處理插件,幫助開發(fā)者們降低開發(fā)難度,讓開發(fā)者們可以通過自定義流水線編排,將多種高性能插件快速集成到應(yīng)用中,輕松實現(xiàn)更加豐富的多媒體功能。

輕量化設(shè)計:“拼樂高”式的流水線編排,助力開發(fā)者高效開發(fā)

在AV Pipeline Kit多媒體開發(fā)框架中,包含了多個預(yù)置的流水線編排,即一些現(xiàn)成的開箱即用的業(yè)務(wù)場景,被封裝成了接口供直接調(diào)用;同時也支持自定義流水線編排,將不同插件按不同的連接關(guān)系串聯(lián)起來形成新的業(yè)務(wù)場景。

如何簡單理解流水線編排的過程呢?以視頻超分為例,按照插件之間的處理順序來看,首先是一個音視頻的解封裝過程,然后會經(jīng)歷音視頻的解碼,而后解碼視頻幀會進行視頻超分處理,最后進行送顯。從輸入到輸出,可以看成是一個流水線的過程。

談及流水線編排的設(shè)計思路,華為多媒體技術(shù)專家Salvator表示,首先是對業(yè)務(wù)進行抽象,然后把它分割成子過程,對子過程再進行一個抽象,實現(xiàn)具體的插件,最后再把插件用Pipeline的方式拼接起來。這樣的好處一方面是便于統(tǒng)一管理,另一方面提高了復(fù)用度。

這個過程可以簡單理解為拼樂高,一個個插件就是一個個不同形狀的樂高片,開發(fā)者的業(yè)務(wù)就像搭樂高一樣,不同的開發(fā)者可以從插件庫里選擇需要的插件,拼成想要的業(yè)務(wù)場景。AV Pipeline Kit定義了一套插件標準接口,開發(fā)者只需要繼承這個接口類,并實現(xiàn)初始化和數(shù)據(jù)處理相關(guān)的邏輯即可,無需考慮并發(fā)、線程同步、狀態(tài)轉(zhuǎn)移、buffer池管理、多實例等問題,這些已經(jīng)全部由框架層實現(xiàn)好了。

突破:視頻超分,最高3倍超分效果背后的技術(shù)優(yōu)勢

所謂“超分”,可以理解為在視頻播放過程中進行智能識別與銳度優(yōu)化,從而讓視頻看起來比原本更清晰、明麗。在大型影視和游戲制作中,超分是一種非常關(guān)鍵的技術(shù)。想要在端側(cè)在線場景中,幫助開發(fā)者獲得實時化、高性能、低功耗的超分,就需要從AI技術(shù)到硬件資源調(diào)用的一系列優(yōu)化。

據(jù)華為計算機視覺算法專家Ting介紹,AV Pipeline Kit提供傳統(tǒng)的GPU超分方案和AI超分方案兩種,以達到性能和功耗的平衡。“比如我們檢測到在麒麟高端芯片上,就會優(yōu)先采用NPU的AI超分算法,最高可實現(xiàn)3倍的超分效果。如果沒有NPU的硬件,我們就會選擇GPU方案做超分處理,效果可能會有一些下降,但性能上是滿足了實時性要求的?!?/p>

為了幫助開發(fā)者便捷獲取真實可用的逐幀超分能力,實現(xiàn)超分不卡頓的體驗,AV Pipeline Kit首先在機器視覺算法上進行了一系列技術(shù)突破。比如,在AI模型結(jié)構(gòu)上應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò),提升了復(fù)雜真實場景的超分效果;在數(shù)據(jù)工程方面,用一系列方法還原了多媒體數(shù)據(jù)的構(gòu)造過程,提升網(wǎng)絡(luò)的優(yōu)化結(jié)果;在端側(cè)模型壓縮方面,進行了新的網(wǎng)絡(luò)小型化探索,確保超分效果可以在端側(cè)場景中被很好地執(zhí)行。

其次,為了兼顧高性能與低功耗,AV Pipeline Kit和華為 HiAI Foundation之間也有不少配合。據(jù)華為AI技術(shù)專家Eric介紹,華為HiAI Foundation作為NPU使能的基礎(chǔ)平臺,能夠快速將原始模型轉(zhuǎn)換成華為Davinci Model,并通過Davinci Model的調(diào)優(yōu)技術(shù),優(yōu)化模型結(jié)構(gòu),充分發(fā)揮NPU硬件單元的算力,令模型算子以更低功耗在手機端側(cè)高效運轉(zhuǎn)。

在超分業(yè)務(wù)中,內(nèi)存DDR的頻繁讀寫對性能和功耗都是很大的挑戰(zhàn)。HiAI Foudation算子庫在優(yōu)化模型執(zhí)行時,重點對算力和帶寬利用做了平衡,在滿足業(yè)務(wù)要求的算力情況下,盡可能的減少對于內(nèi)存的反復(fù)讀寫,更多的利用內(nèi)部buffer和cache,極大地提供了性能,降低了功耗。

在一系列的技術(shù)突破之后,用戶可以獲得更好的畫質(zhì)體驗,視頻平臺可以節(jié)省帶寬和服務(wù)器資源,開發(fā)者則能夠高效集成業(yè)務(wù),降低工作量。

突破:聲音事件檢測,為實現(xiàn)98%識別率攻克的技術(shù)難題

對于開發(fā)者來說,聲音事件檢測是相對比較復(fù)雜的技術(shù),需要豐富的技術(shù)資源與開發(fā)經(jīng)驗。AV Pipeline Kit將這些功能以文件配置的形式直接帶給開發(fā)者,且經(jīng)過麒麟團隊的長期深耕,聲音檢測事件插件可以確保聲音識別的準確與穩(wěn)定。

目前,AV Pipeline Kit聲音事件檢測目前已經(jīng)可以支持日常使用的13種聲音,包括無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等豐富的場景。經(jīng)過研發(fā)團隊的深度優(yōu)化和組合驗證,當(dāng)前識別準確率平均在98%以上,無論從聲音事件類別還是識別性能上來看,都屬于業(yè)界領(lǐng)先。

據(jù)華為計算機視覺算法專家Ting介紹,團隊主要聚焦在兩個點上做突破,確保了聲音識別的準確及穩(wěn)定性。一是解決了不同聲音事件的時間片段的長短。不同聲音事件長短不同,比如孩子的哭聲以及寵物叫聲,貓叫狗叫是瞬發(fā)型的,而哭是一個持續(xù)性的動作,所以他們的事件片段,時間片和長短是不一樣的,聲音事件檢測插件在設(shè)計網(wǎng)絡(luò)的時候,參考了Inception網(wǎng)絡(luò),計算多個不同大小的卷積,這樣感受野就不同,進而提出的特征就更加具有針對性,特征空間更加豐富。

二是易混淆類別頻譜的區(qū)分。有一些聲音事件的混淆度比較高,比如在某些情況下小孩的哭聲和貓叫聲相當(dāng)接近,無論是人區(qū)分以及轉(zhuǎn)化為頻譜信息之后去查看,都很容易混淆。聲音事件檢測插件引入技術(shù)注意力機制,對易混淆的類別做一個區(qū)分。

面向未來:

深挖視頻播放、編輯場景,為開發(fā)者提供創(chuàng)新能力

最后,華為多媒體技術(shù)專家Salvatore表示,AV Pipeline Kit后續(xù)會繼續(xù)完善框架和插件,重點關(guān)注如視頻播放、視頻編輯等對性能要求比較高,對功耗比較敏感的場景,包括考慮預(yù)置錄制和編輯業(yè)務(wù),以及與人像拍攝美化相關(guān)的插件能力。

未來,麒麟團隊將持續(xù)投入核心技術(shù),突破技術(shù)難點,簡化底層開發(fā)繁瑣流程和難點,降低智能化視頻開發(fā)的門檻,助力音視頻開發(fā)者技術(shù)創(chuàng)新,在激烈的競爭角逐中取勝。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • DDR
    DDR
    +關(guān)注

    關(guān)注

    11

    文章

    712

    瀏覽量

    65318
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    926

    瀏覽量

    40913
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9123

    瀏覽量

    85324
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268886
  • AV
    AV
    +關(guān)注

    關(guān)注

    2

    文章

    268

    瀏覽量

    44506

原文標題:如何降低開發(fā)門檻,助力音視頻創(chuàng)新玩法?AV Pipeline Kit深度技術(shù)解析

文章出處:【微信號:Huawei_Kirin,微信公眾號:華為麒麟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AMS-HE200:HDMI音視頻網(wǎng)絡(luò)延長器,開啟傳輸新時代

    傳輸領(lǐng)域的領(lǐng)軍企業(yè),憑借其強大的技術(shù)實力和創(chuàng)新能力,推出了全新的AMS-HE200 HDMI音視頻網(wǎng)絡(luò)延長器,旨在為用戶帶來更加高效、穩(wěn)定、便捷的傳輸體驗。 一、產(chǎn)品亮點? AMS-HE200作為一款高性能的HDMI音視頻網(wǎng)絡(luò)延
    的頭像 發(fā)表于 11-27 10:04 ?127次閱讀
    AMS-HE200:HDMI<b class='flag-5'>音視頻</b>網(wǎng)絡(luò)延長器,開啟傳輸新時代

    Amoonsky創(chuàng)新音視頻連接技術(shù):全新推出AMS-HE200 HDMI網(wǎng)線延長器

    簡介: 在不斷向高清多媒體體驗邁進的世界中,強大的音視頻連接需求變得前所未有的重要。AMS-HE200,Amoonsky開創(chuàng)性的HDMI網(wǎng)線延長器,成為重新定義音視頻網(wǎng)絡(luò)格局的解決方案。這款創(chuàng)新
    的頭像 發(fā)表于 10-24 16:09 ?197次閱讀
    Amoonsky<b class='flag-5'>創(chuàng)新</b><b class='flag-5'>音視頻</b>連接技術(shù):全新推出AMS-HE200 HDMI網(wǎng)線延長器

    dm368錄制音視頻后用vlc播放不同步是怎么回事?

    目前我們用其他的開發(fā)板 能夠錄制音視頻,但是用vlc播放的時候發(fā)現(xiàn)每次都是視頻播放完成了音頻還要播放一會,隨著錄制時間加上,延后的這個時間也會變長 請問有知道怎么回事的嗎?
    發(fā)表于 10-15 06:56

    盤點那些常見音視頻接口

    我們熟知的一些常見音視頻接口,發(fā)展至今在日常使用中已經(jīng)漸漸少了。但是在工業(yè)領(lǐng)域的音視頻連接,依然能看到其身影。這些看似消失的接口,它們現(xiàn)在發(fā)展成什么樣子了?本期我們將做一個大盤點。
    的頭像 發(fā)表于 09-09 14:34 ?524次閱讀

    常見音視頻接口的靜電浪涌防護和濾波方案

    音視頻接口在現(xiàn)代多媒體設(shè)備中扮演著至關(guān)重要的角色,它們確保了音視頻信號在不同設(shè)備間的順暢傳輸,各種類型的音視頻接口滿足了多樣化的應(yīng)用場景需求。 在音視頻接口的設(shè)計領(lǐng)域,靜電浪涌防護與濾
    的頭像 發(fā)表于 06-25 11:28 ?653次閱讀

    音視頻IP化浪潮全面來襲,分布式系統(tǒng)開創(chuàng)音視頻行業(yè)新時代!

    在傳統(tǒng)音視頻頻系統(tǒng)中,廠商們各自采用不同的通訊方式和控制協(xié)議,這使得不同的產(chǎn)品之間就像一座座的信息孤島,要連接起來就需要復(fù)雜的轉(zhuǎn)換設(shè)備和系統(tǒng)再開發(fā)。隨著音視頻項目的規(guī)模不斷擴大,各類音頻設(shè)備產(chǎn)品
    的頭像 發(fā)表于 05-30 16:55 ?671次閱讀

    音視頻產(chǎn)品EMC整改案例解析

    音視頻產(chǎn)品EMCRE整改案例解析
    的頭像 發(fā)表于 05-20 16:49 ?414次閱讀
    <b class='flag-5'>音視頻</b>產(chǎn)品EMC整改案例解析

    高清HDMI轉(zhuǎn)USB 3.0音視頻多功能音采集卡-測評

    LCC380的設(shè)計理念在于全面考慮到各種用戶場景下的需求。為了實現(xiàn)高品質(zhì)的音視頻采集效果,卡體搭載了業(yè)界領(lǐng)先的音頻處理器解決方案。無論您是熱衷于游戲直播、視頻會議還是其他音視頻應(yīng)用,都能通過LCC380獲得出色的音頻輸入輸出體驗
    的頭像 發(fā)表于 05-14 17:45 ?865次閱讀
    高清HDMI轉(zhuǎn)USB 3.0<b class='flag-5'>音視頻</b>多功能音采集卡-測評

    【RTC程序設(shè)計:實時音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

    音視頻所載有的信息在通過傳輸?shù)臅r候就需要壓縮編碼。 其中,文本壓縮是指通過使用各種算法和技術(shù),將文本數(shù)據(jù)表示為更緊湊的形式,以減少存儲空間。 霍夫曼編碼是一種無損壓縮算法,它可以根據(jù)字符出現(xiàn)
    發(fā)表于 04-28 21:04

    音視頻SoC與AI技術(shù)融合,帶來更智能的音視頻處理解決方案

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)音視頻SoC,即音視頻系統(tǒng)級芯片或片上系統(tǒng),是一種高度集成化的芯片,它將電路板上的多塊芯片以及嵌入式軟件全部集成到一塊芯片中。音視頻SoC芯片廣泛應(yīng)用于各種嵌入式系統(tǒng)
    的頭像 發(fā)表于 04-26 01:20 ?4378次閱讀

    【RTC程序設(shè)計:實時音視頻權(quán)威指南】音頻采集與預(yù)處理

    音視頻通信對音頻采集的實時性和性能要求很高。為了降低延遲并提高吞吐量,可能需要采用一些優(yōu)化技術(shù),如硬件加速、多線程處理等。 最后,音頻采集還需要考慮與后續(xù)處理步驟的銜接問題。例如,采集到的音頻
    發(fā)表于 04-25 10:41

    【RTC程序設(shè)計:實時音視頻權(quán)威指南】新書一瞥

    本人從事音視頻領(lǐng)域的開發(fā),經(jīng)常接觸實時音視頻處理相關(guān)的技術(shù),看到這本書非常有興趣閱讀,這本書全面介紹實時音視頻(RTC)技術(shù)的權(quán)威著作,該書詳細講解了RTC的基本概念、技術(shù)原理、系統(tǒng)設(shè)
    發(fā)表于 04-22 09:09

    【RTC程序設(shè)計:實時音視頻權(quán)威指南】本書概覽

    ,這都是按照音視頻流的開發(fā)的一般流程介紹的。然后介紹了編解碼以上所技術(shù),信令與媒體協(xié)商(個人覺得協(xié)商這里用協(xié)議更合適,因為里面講解的是各種音視頻傳輸?shù)膮f(xié)議)。然后是控制傳輸優(yōu)化,可擴展架構(gòu),評價指標等
    發(fā)表于 04-21 17:09

    音視頻解碼生成:打造極致觀影體驗的關(guān)鍵技術(shù)

    在現(xiàn)代多媒體時代,音視頻解碼生成技術(shù)已成為提供極致觀影體驗的核心要素。它不僅能夠確保音視頻數(shù)據(jù)的高效傳輸,還能保證播放的流暢性和畫質(zhì)清晰度,為用戶帶來身臨其境的觀影享受。 1. 解碼生成的重要性
    的頭像 發(fā)表于 02-25 14:43 ?467次閱讀

    音視頻解碼生成與流媒體傳輸?shù)慕Y(jié)合

    音視頻解碼生成與流媒體傳輸是現(xiàn)代數(shù)字媒體技術(shù)中兩個不可或缺的部分,它們的結(jié)合為用戶提供了高質(zhì)量、實時性的多媒體體驗。 1. 解碼生成與流媒體傳輸?shù)年P(guān)系 解碼生成是流媒體傳輸?shù)那疤帷T诹髅襟w服務(wù)中
    的頭像 發(fā)表于 02-21 14:36 ?392次閱讀
    RM新时代网站-首页