當(dāng)前視頻行業(yè)環(huán)境下,硬件芯片的機(jī)遇與挑戰(zhàn)并存,如何使得硬件芯片產(chǎn)品及方案設(shè)計(jì)更好地貼近用戶、服務(wù)用戶及滿足用戶更深層次需求?本次LiveVideoStackCon 2022 北京站邀請到镕銘微電子解決方案架構(gòu)總監(jiān)——蔡媛Amy,為大家介紹镕銘微電子VPU如何幫助客戶實(shí)現(xiàn)極致增效降"本",并介紹基于新一代Quadra VPU的全球首個硬件智能極速高清產(chǎn)品,如何將歷來成本高企的AI增強(qiáng)視頻產(chǎn)品帶入到規(guī)模應(yīng)用中。
文/蔡媛Amy 編輯/LiveVideoStack 大家好,我是镕銘微電子解決方案架構(gòu)團(tuán)隊(duì)負(fù)責(zé)人的蔡媛 Amy,本次分享的題目是镕銘微電子VPU極致降本增效實(shí)踐,主要介紹在生產(chǎn)實(shí)踐中,如何使用镕銘VPU產(chǎn)品在規(guī)模化應(yīng)用中幫助客戶實(shí)現(xiàn)極致降本增效,給大家?guī)硇碌膽?yīng)用方案和啟發(fā)。我會從以下幾個方面進(jìn)行介紹:
-01-
镕銘微電子公司及產(chǎn)品介紹
NETINT是一家專注于新型智能存儲和視頻/圖像編解碼解決方案的科技公司,在國內(nèi)的上海、北京、濟(jì)南,加拿大的溫哥華和多倫多都設(shè)有研發(fā)中心。NETINT自主設(shè)計(jì)的VPU可提供基于ASIC的超大規(guī)模、超高密度、超低延遲的視頻解決方案,我們的視頻轉(zhuǎn)碼器產(chǎn)品已被全球眾多頂級大公司所使用。
镕銘微電子的使命是為云和數(shù)據(jù)中心提供強(qiáng)大的算力,長期愿景是成為世界上最好的數(shù)據(jù)中心芯片公司。我們的產(chǎn)品主要包括視頻處理芯片VPU和軟硬件結(jié)合的視頻處理解決方案,前者在功能上提供視頻編解碼能力,輔助視頻編解碼的AI處理能力以及2D圖像引擎的處理能力,后者包括三種產(chǎn)品形態(tài),第一種是VPU服務(wù)器板卡,第二種是搭載芯片的視頻處理一體機(jī),第三種是基于視頻處理一體機(jī)的端到端視頻解決方案。
镕銘微電子是視頻處理芯片 VPU 定義者和視頻處理方案創(chuàng)新企業(yè),镕銘微電子設(shè)計(jì)出了多款高度創(chuàng)新的芯片產(chǎn)品,被廣泛應(yīng)用于云數(shù)據(jù)中心、邊緣計(jì)算公司及媒體內(nèi)容提供商,最大程度地降低視頻處理和數(shù)據(jù)儲存的成本。VPU產(chǎn)品技術(shù)位居全球第一,并且已經(jīng)成功研發(fā)兩代芯片,第一代產(chǎn)品已經(jīng)在全球頭部客戶處大規(guī)模驗(yàn)證和應(yīng)用部署,同時(shí)也是數(shù)據(jù)中心大芯片領(lǐng)域的創(chuàng)業(yè)公司中出貨量最大的獨(dú)角獸企業(yè)。
圖中展示了兩代產(chǎn)品,第一代是Logan芯片,對應(yīng)Codensity T408單芯片產(chǎn)品和T432 4芯片產(chǎn)品,于2019年發(fā)布并量產(chǎn)。同時(shí)具備U.2/AIC的形態(tài),來適配兼容不同型號的服務(wù)器。U.2形態(tài)的編解碼卡,和2.5寸 NVMe SSD的外形一樣,可以直接使用NVMe SSD的卡槽。除外,大部分服務(wù)器都具備PCIe卡槽,可以使用AIC形態(tài)的編解碼卡。
第二代是Quadra芯片,基于Quadra發(fā)布了T1A、T1U和T2A產(chǎn)品,在海外的客戶已有過萬片的部署,這兩代芯片無論是在應(yīng)用性、穩(wěn)定性還是在實(shí)際業(yè)務(wù)中都經(jīng)過了客戶規(guī)模化部署的驗(yàn)證。
-02-
镕銘微電子VPU增效降“本”實(shí)踐
鑒于目前全球經(jīng)濟(jì)形勢處于下行狀態(tài),我會重點(diǎn)介紹“增效降本”部分。
NETINT VPU是面向數(shù)據(jù)中心和邊緣計(jì)算設(shè)計(jì)的視頻/圖像編解碼處理芯片。那么,通常對于面向數(shù)據(jù)中心的芯片,在大規(guī)模應(yīng)用部署的時(shí)候,需要考慮的幾個重要因素:包括性能、成本、同構(gòu)性、穩(wěn)定性。性能就是字面意思,我們需要關(guān)注峰值性能、平均性能等。比如人工智能芯片,我們會非常關(guān)注他的計(jì)算能力(吞吐量):通常關(guān)心的是32位浮點(diǎn)計(jì)算能力。做推理預(yù)測的話也可以用8位整數(shù),我們會關(guān)注INT8 的計(jì)算能力。顯存大小:當(dāng)模型越大,或者訓(xùn)練時(shí)的批量越大時(shí),所需要的GPU內(nèi)存就越多。對于CPU來說,我們關(guān)注芯片提供的核數(shù),芯片的頻率。對于VPU 而言,因?yàn)橹饕峁┑氖且曨l/圖像的編解碼處理,所以性能上主要是指芯片可以并發(fā)處理的編解碼的路數(shù)、協(xié)同做視頻處理的AI計(jì)算能力、編碼延遲水平(最大延遲/平均延遲)等。
而成本和我們今天討論的降本增效是直接相關(guān)的,成本包括TCO(整體擁有成本)、人力成本以及時(shí)間成本。
圖中列舉了VPU系列產(chǎn)品性能,T408 吞吐支持8路1080P/30fps,功耗是所有產(chǎn)品中最低的,只有7W,而國產(chǎn)人工智能芯片的功耗大致在70w-100w,對于CPU,高配CPU的功耗大概是240w,對比下來,T408功耗相當(dāng)?shù)?,它支持H.264/H.265 轉(zhuǎn)碼。T432是4芯片產(chǎn)品,相當(dāng)于T408 4倍能力,相當(dāng)于32路。
2022年發(fā)布的Quadra系列,其特點(diǎn)是性能相對于T408提升了4倍,單芯片支持32路1080P,T2產(chǎn)品是兩芯片的Quadra,可以支持64路1080P30。Quadra還支持8K/60fps單路的實(shí)時(shí)轉(zhuǎn)碼,T2相當(dāng)于支持兩路的1080P/60fps的實(shí)時(shí)轉(zhuǎn)碼。Quadra的功耗是20w,在編解碼標(biāo)準(zhǔn)上,Quadra增加了支持VP9的解碼標(biāo)準(zhǔn)及AV1的編碼標(biāo)準(zhǔn),海外的應(yīng)用快于國內(nèi),比如META、Google,尤其是前者超過70%的流量走AV1。國內(nèi)頭部公司目前更多以H.265標(biāo)準(zhǔn)為主。
圖中展示的是Quadra關(guān)鍵的視頻處理單元,包括編碼模塊、解碼模塊、AI推理引擎、2D圖像處理引擎,以及可用于音頻處理的DSP模塊。芯片集成的AI 推理引擎,與視頻編/解碼器集成于同一芯片上,這可以讓用戶在同一個芯片上實(shí)現(xiàn)一些復(fù)雜的AI輔助編碼,比如ROI輔助編碼,窄帶高清編碼、在同一芯片上完成AI推理,編解碼所有數(shù)據(jù)處理流程,這將極大地提升工作效率并顯著減少延遲。
我們是全球首款基于可計(jì)算存儲架構(gòu)的VPU,專門為數(shù)據(jù)中心和邊緣計(jì)算所設(shè)計(jì),使用NVMe協(xié)議作為主機(jī)到硬件加速器的設(shè)備接口。NVMe是非易失性內(nèi)存接口協(xié)議,旨在用于基于PCIe的存儲設(shè)備,例如SSD(固態(tài)磁盤),它還可以擴(kuò)展到支持可計(jì)算型存儲。這樣的優(yōu)勢包括免驅(qū)動,能夠避免許多與服務(wù)器的兼容性問題,同時(shí)達(dá)到更好的延遲和數(shù)據(jù)交換能力。
除了性能之外,大家還會非常關(guān)注編碼的比特效率,Quadra的比特效率在快速檔上能夠達(dá)到Fast和Medium之間的水平,在慢速檔能夠達(dá)到H.265 Slow的水平。
行業(yè)中較好的H.265軟件編碼器,在Super Fast檔位上,開到4個線程,8K分辨率時(shí)能夠達(dá)到17fps,之后即使線程數(shù)增加,其fps也無法隨之提高,且CPU利用率也無法達(dá)到滿載利用率。所以要用軟件編碼器實(shí)現(xiàn)8K/60fps,需要在轉(zhuǎn)碼系統(tǒng)上實(shí)現(xiàn)比較復(fù)雜的并發(fā)架構(gòu)。而利用Quadra硬件編碼器,就能夠?qū)崿F(xiàn)單芯片8K/60fps實(shí)時(shí)轉(zhuǎn)碼,并且單線程達(dá)到92%以上的loading,這是VPU在高分辨率視頻處理上的極大優(yōu)勢。
在畫質(zhì)處理的對比結(jié)果上,相較于Nvidia T4硬件編碼器,在類似檔位lookahead-4,相同的PSNR下能夠節(jié)省23-25%的碼率,rdo開到3時(shí),可以進(jìn)一步將碼率節(jié)省提高30-31%。
另一個編解碼的重要指標(biāo)是延遲,Quadra的延遲對比T408有了更高的提升,1080p的編碼延遲大概是4ms,這是單路延遲,將路數(shù)提升到32路,延遲也只增加1-2ms,大概是5-6ms,對于互動型應(yīng)用如云游戲、RTC等,其QoE及QoS參數(shù)極易受延遲影響。圖中可以看到Nvidia T4延遲大概是Quadra的兩倍,H.264大概是三倍,達(dá)到15ms左右,X.265大概是20多倍,接近100ms,當(dāng)然這都是開源的H.264及H.265,但即使對比行業(yè)內(nèi)優(yōu)化非常好的軟件編碼器,兩者的差距也達(dá)到3-4倍。
最大延遲相差更明顯,這是因?yàn)檐浖幋a器的延遲波動相較于硬件編碼器來說大很多。下圖顯示Quadra的延遲波動基本處于穩(wěn)定狀態(tài),而延遲穩(wěn)定對于云游戲等場景非常重要,波動較大時(shí)會影響客戶體驗(yàn),碼率和延遲不能突然增大,顯然Quadra能夠更好滿足需求。
性能和成本息息相關(guān),在計(jì)算成本時(shí)需要考慮哪些因素?以直播場景為例,直播整個業(yè)務(wù)流程包括內(nèi)容生產(chǎn)、內(nèi)容處理、內(nèi)容分發(fā)及內(nèi)容播放,編解碼卡位于內(nèi)容處理環(huán)節(jié),除了本身的計(jì)算成本,其碼率也會影響到內(nèi)容分發(fā)的CDN成本及計(jì)算/存儲成本。
計(jì)算成本時(shí)需要考慮密度、折舊及功耗:
①密度:如一臺32核服務(wù)器,單個服務(wù)器只能跑6路左右的H.265 1080P30FPS轉(zhuǎn)碼,前提還是行業(yè)內(nèi)較優(yōu)秀的軟件編碼器。64個thread的服務(wù)器可以跑12路,128個thread能夠跑24路。對于T408而言,在一臺機(jī)器插上24個U.2卡,能夠?qū)崿F(xiàn)整機(jī)跑200多路,密度是原來的20/30倍。
②折舊成本:如一臺64核(vCPU)服務(wù)器加上編解碼卡后,整機(jī)成本并不會上升很多,但其密度能夠提升20倍左右,這便降低單路折舊成本。
③功耗成本:功耗會影響機(jī)柜成本支出,一個16A機(jī)柜能夠容納7臺400-500w的機(jī)器,插上卡后,單個機(jī)柜能夠容納的機(jī)器數(shù)量并不會有明顯變化,但其整機(jī)可運(yùn)行的密度能夠提升許多。
除了計(jì)算成本外,還有分發(fā)成本和存儲成本,影響兩者的因素是比特效率。Quadra H.265在VITS2021SmallSet dataset 基準(zhǔn)測試集上, 最高擋的rdo level的配置下相對fast擋位能夠得到8.9%的碼率節(jié)省,相對于medium擋位得到4.1%的碼率節(jié)省。對于直播冷流來說,使用VPU產(chǎn)品主要是為了降低轉(zhuǎn)碼的計(jì)算成本。但對于熱流而言,使用VPU高畫質(zhì)模式可以在帶寬和存儲成本上獲得更大的收益。
成本還包括人力成本,即接入所付出的人力代價(jià),T408和Quadra都基于FFmpeg架構(gòu),為用戶提供FFmpeg框架的lib,客戶只需接入libavcodec的API即可整合現(xiàn)有的FFmpeg流程,無需對現(xiàn)有的架構(gòu)做太大變更。部分用戶會基于NETINT提供的Libxcoder API。在接入上和X 264/X265類似,并提供了極為靈活的編碼控制,場景的定制參數(shù)。此外,在規(guī)?;\(yùn)維時(shí),為用戶提供了運(yùn)維工具及線上debug工具,以便幫助用戶快速排查問題。
-03-
镕銘微電子VPU規(guī)?;渴饘?shí)踐
我們是數(shù)據(jù)中心大芯片領(lǐng)域出貨量最大的獨(dú)角獸公司,接下來為大家介紹大規(guī)模部署的相關(guān)實(shí)踐。
規(guī)模化部署需要考慮兩點(diǎn),第一是同構(gòu)性,如何將一張編解碼卡與現(xiàn)有的基礎(chǔ)設(shè)施進(jìn)行簡單的兼容,并在現(xiàn)有的算力如現(xiàn)有的服務(wù)器基礎(chǔ)上進(jìn)行算力擴(kuò)展,從而方便地接到系統(tǒng)簿上進(jìn)行算力擴(kuò)展。第二是穩(wěn)定性,也就是說在進(jìn)行規(guī)模化部署時(shí),硬件、固件/軟件層的穩(wěn)定性如何?
在兼容性上,我們采用的是NVMe協(xié)議,是免驅(qū)動的,一般來說,Windows、Linux、Android系統(tǒng)都會自帶穩(wěn)定高效的NVMe驅(qū)動程序,在裝編解碼卡時(shí)無需用戶裝驅(qū)動,我們基于NVMe 1.3的協(xié)議,能夠向下兼容。在系統(tǒng)支持上,我們能夠較好兼容Windows、Linux、Android,U.2產(chǎn)品還支持熱插拔。規(guī)?;瘮U(kuò)容方面,能夠利用現(xiàn)有存儲機(jī)型直接插上U.2的Quadra或T408,將一臺只有幾路的服務(wù)器擴(kuò)展為支持200路或300路編解碼卡的服務(wù)器。
而傳統(tǒng)驅(qū)動需要自動定義其驅(qū)動程序,并存在對不同操作系統(tǒng)的兼容問題,尤其是Windows系統(tǒng)的兼容更為困難,在規(guī)?;渴饡r(shí),會凸顯穩(wěn)定性相關(guān)的問題,如掉卡,無法識別卡等。我們采用的NVMe接口及驅(qū)動能夠極大程度避免此類問題的發(fā)生。
關(guān)于同構(gòu)性,我們提供U.2和AIC形態(tài)的卡,可以進(jìn)行選擇而無需配件轉(zhuǎn)換,U.2和NVMe SSD的形態(tài)及協(xié)議都一致,能夠復(fù)用機(jī)型。
此外,我們的功耗非常低,單卡T408是7W,單卡的Quadra U.2是20W,一般情況下插上卡后,一個機(jī)柜原來是7個服務(wù)器,現(xiàn)在還是7個服務(wù)器,不需要改動機(jī)架,這樣有利于機(jī)器的運(yùn)維。
圖中右側(cè)是Quadra的AIC形態(tài),我們同時(shí)了提供服務(wù)器整機(jī)方案,展臺有7張卡的服務(wù)器樣例。
算力擴(kuò)展能力利用的是NVMe over fabric協(xié)議,通過高速的網(wǎng)卡實(shí)現(xiàn)服務(wù)器之間的高速數(shù)據(jù)通道,即使服務(wù)器和卡不在一臺機(jī)器上,也可以實(shí)現(xiàn)低延遲高數(shù)據(jù)帶寬的連接和訪問。
這是規(guī)模化落地的實(shí)例,左圖是在海外的24*U.2,聯(lián)合SuperMICRO提供的T408服務(wù)器整機(jī)。右圖是服務(wù)器利舊實(shí)例,利舊一般采用T408,其規(guī)?;€(wěn)定性部署已經(jīng)非常成熟。
在大規(guī)模部署過程中,大家可能會考慮到硬件或固件穩(wěn)定性,比如接入業(yè)務(wù)后會不會導(dǎo)致業(yè)務(wù)有損。
在硬件穩(wěn)定性上,我們有Spike/Lt-loop/DCpower反復(fù)過萬次的穩(wěn)定性驗(yàn)證、超負(fù)載、過熱保護(hù)等穩(wěn)定性驗(yàn)證,進(jìn)行了嚴(yán)格的跌落測試,做出掉卡率、壞卡率 SLA承諾以及RMA流程承諾,從而保證問題的閉環(huán)。
在固件穩(wěn)定性上,我們經(jīng)過了數(shù)萬片線上規(guī)模化部署驗(yàn)證,對解碼場景能夠達(dá)到業(yè)界最好的兼容性支持,并且有超7w個test case支持固件升級。
-04-
Quadra硬件智能極速高清產(chǎn)品
大家應(yīng)該非常熟悉極速高清產(chǎn)品,如阿里的窄帶高清,騰訊的極速高清等,我們的產(chǎn)品也是基于AI技術(shù)與圖像處理技術(shù),通過深度學(xué)習(xí)網(wǎng)絡(luò),對視頻畫面進(jìn)行感知,優(yōu)化主觀體驗(yàn),追求較好的人眼感受,節(jié)省帶寬。
而不同于其他極速高清產(chǎn)品,Quadra基于硬件芯片的AI推理引擎及編碼做無縫配合,從而達(dá)到更好的處理效率和規(guī)?;瘧?yīng)用的成本優(yōu)勢。
圖中對比了Quadra的處理流程和傳統(tǒng)處理流程
傳統(tǒng)處理流程是在視頻輸入后通過解碼,到CPU進(jìn)行處理,再給到CPU/GPU做推理運(yùn)算等前處理,再給CPU做后處理,再給到硬件/軟件做編碼,整個流程實(shí)際上非常復(fù)雜,延遲無法達(dá)到最好的效果,而且成本較高。
Quadra AI Enhance流程都在卡內(nèi)完成,在卡內(nèi)解碼,將數(shù)據(jù)推到AI推理引擎、編碼器再輸出視頻,相較于傳統(tǒng)流程來說簡單了許多,無需主機(jī)側(cè)參與,利用Quadra本身的AI計(jì)算單元實(shí)現(xiàn)端到端的視頻質(zhì)量優(yōu)化。
我們專注于VMAF,提升人眼主觀效果。圖中是處理前后效果對比,可以看到使用極速高清后的VMAF能夠提升14%左右,Quadra還具備極強(qiáng)的場景泛化能力。
在成本方面,首先,云服務(wù)對極速高清的定價(jià)是普通媒體處理的4倍,成本昂貴。通過Quadra以及提供的極速高清開關(guān)可以實(shí)現(xiàn)25%的轉(zhuǎn)碼比例,在無額外成本下支持極速高清,并且主觀效果提升明顯,大概達(dá)到4K@60FPS、1080P@240FPS及720P@480FPS的極速高清性能。我們希望幫助客戶將歷來成本高企的AI增強(qiáng)視頻產(chǎn)品帶入到規(guī)模應(yīng)用中。
責(zé)任編輯:彭菁
-
芯片
+關(guān)注
關(guān)注
455文章
50714瀏覽量
423129 -
asic
+關(guān)注
關(guān)注
34文章
1199瀏覽量
120429 -
vpu
+關(guān)注
關(guān)注
0文章
15瀏覽量
11780
原文標(biāo)題:镕銘微電子VPU 極致降本增效實(shí)踐
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論