新时代app官方版下载,RM新时代网站

1 為什么需要在FFmpeg中實(shí)現(xiàn)深度學(xué)習(xí)模塊

首先，為什么需要FFmpeg深度學(xué)習(xí)模塊，F(xiàn)Fmpeg對(duì)輸入的碼流，首先進(jìn)行解碼，解碼后得到一個(gè)個(gè)的視頻幀，以及相應(yīng)的音頻數(shù)據(jù)等。經(jīng)過一系列的Filter之后，最后可以進(jìn)行重新編碼或者直接播放出來。這些filter的功能包括傳統(tǒng)的圖像處理，也包括一些統(tǒng)計(jì)功能，比如直方圖等。在深度學(xué)習(xí)的算法出來之后，由于它太有效了，包括很多的算法功能，例如超分辨率、目標(biāo)識(shí)別、人臉檢測(cè)、目標(biāo)檢測(cè)、人臉識(shí)別等等，都需要深度學(xué)習(xí)的算法來實(shí)現(xiàn)。所以，我們需要拓展filter的功能，使它可以支持深度學(xué)習(xí)算法。當(dāng)我們將深度學(xué)習(xí)的算法加入到FFmpeg的Filter之后，F(xiàn)ilter就擁有了很多計(jì)算機(jī)視覺相關(guān)的算法。那么它與比如說OpenCV的計(jì)算機(jī)視覺軟件包有什么關(guān)系？這個(gè)問題我們可以從兩個(gè)角度來看：在支持深度學(xué)習(xí)算法之前，F(xiàn)Fmpeg與OpenCV是相互配合、相互支持的一種關(guān)系。例如在OpenCV中，可能需要先調(diào)用FFmpeg進(jìn)行視頻解碼，解碼完成后回到OpenCV中進(jìn)行相應(yīng)的計(jì)算機(jī)視覺算法應(yīng)用。此外，在FFmpeg中有一些Filter，這些Filter背后調(diào)用的就是OpenCV，通過這種方式來使用OpenCV中的一些算法功能。但是在比較新版本的OpenCV中，接口語言切換成了C++，而在FFmpeg中要求的是C代碼和并且調(diào)用的是C庫的接口，因此FFmpeg基于OpenCV的Filter就很難用上OpenCV的最新算法功能，所以在這種情況下就很有必要在FFmpeg增加深度學(xué)習(xí)模塊來支持多個(gè)Filter應(yīng)用深度學(xué)習(xí)算法。從另外一個(gè)角度來看，在之前，對(duì)于計(jì)算機(jī)視覺的算法開發(fā)者來說，會(huì)在OpenCV中進(jìn)行算法實(shí)現(xiàn)，代碼完成后基本不太可能再次在其它應(yīng)用中重新實(shí)現(xiàn)一次，那么這也就造成了很多的計(jì)算機(jī)視覺算法都只在類似于OpenCV的軟件包中完成。而在深度學(xué)習(xí)模塊，算法實(shí)現(xiàn)的載體已經(jīng)從以前的代碼變成了模型文件，模型文件可以很容易的分發(fā)出去，被各個(gè)軟件包通過恰當(dāng)?shù)姆绞竭M(jìn)行加載、執(zhí)行，從而實(shí)現(xiàn)一些深度學(xué)習(xí)算法的功能。綜上所述，無論從什么角度來看，我們都有必要在FFmpeg中增加深度學(xué)習(xí)相應(yīng)的模塊。在增加深度學(xué)習(xí)模塊之后，對(duì)于FFmpeg的開發(fā)者來說開發(fā)工作會(huì)更靈活，速度更快。想象一下，在這之前對(duì)于FFmpeg的開發(fā)者來說，需要首先調(diào)用FFmpeg的API進(jìn)行解碼，解碼完成后，再編寫代碼或者調(diào)用第三方庫等實(shí)現(xiàn)深度學(xué)習(xí)算法的應(yīng)用，最后再回到FFmpeg中進(jìn)行編碼。而深度學(xué)習(xí)模塊就相當(dāng)于將之前用戶需要自行開發(fā)的深度學(xué)習(xí)實(shí)現(xiàn)相關(guān)的部分轉(zhuǎn)移到FFmpeg內(nèi)部，以Filter的形式對(duì)外暴露，因此對(duì)于FFmpeg的開發(fā)者來說開發(fā)變得更加便捷。

2 FFmpeg深度學(xué)習(xí)模塊的發(fā)展歷史

其實(shí)在2018年FFmpeg才開始支持深度學(xué)習(xí)模塊，是經(jīng)過一個(gè)GsoC項(xiàng)目，即谷歌關(guān)于鼓勵(lì)在校學(xué)生做實(shí)習(xí)生的活動(dòng)，鼓勵(lì)大家進(jìn)入各個(gè)開源社區(qū)做一些代碼工作。因?yàn)榫唧w的代碼實(shí)現(xiàn)一般都在7、8月份，所以稱為Summer of Code，項(xiàng)目的效果還不錯(cuò)。2018年我主要通過郵件參與討論深度學(xué)習(xí)模塊如何應(yīng)用，但在GsoC2018完成之后，發(fā)現(xiàn)沒人進(jìn)行接下來的維護(hù)。于是在2019年，我基于這一部分做了很多工作，包括貢獻(xiàn)了絕大部分的代碼。除此之外，大師兄劉歧還帶了一個(gè)GsoC2019的項(xiàng)目，帶領(lǐng)一名北大的學(xué)生基于深度學(xué)習(xí)的模塊做了些有關(guān)Filter的工作。2019年年底，我成為了深度學(xué)習(xí)模塊的Maintainer。到了2020年，發(fā)生了一個(gè)比較大的變化是我們將OpenVINO（英特爾的一個(gè)深度學(xué)習(xí)的推理引擎）加入到了FFmpeg的深度學(xué)習(xí)模塊中，同時(shí)也開展了一個(gè)GsoC項(xiàng)目，希望將深度學(xué)習(xí)模塊中的一些功能進(jìn)行優(yōu)化，能夠使用匯編語言做一些速度的提升。希望在2021年看到GsoC2021在FFmpeg深度學(xué)習(xí)模塊中的一些項(xiàng)目進(jìn)展。

3 FFmpeg深度學(xué)習(xí)模塊總體架構(gòu)

深入到FFmpeg中看一下深度學(xué)習(xí)模塊的總體架構(gòu)：FFmpeg是由多個(gè)庫組成的，上圖左邊列出了部分：libavcodec是音視頻解碼相關(guān)的、libavdevice是音視頻輸入輸出相關(guān)的、libavformat是如何將音視頻碼流組合到一個(gè)文件中、libswscale是對(duì)視頻幀的一些處理、libswresample是對(duì)音頻數(shù)據(jù)的重采樣，以及所有util相關(guān)的Tool放在libavutil中。與深度學(xué)習(xí)模塊密切相關(guān)的是libavfilter模塊，因?yàn)槲覀兊纳疃葘W(xué)習(xí)模塊目前主要是為Filter服務(wù)的，所以放在libavfilter模塊中。對(duì)外，我們的深度學(xué)習(xí)模塊可能會(huì)調(diào)用TensorFlow的 C動(dòng)態(tài)庫，也可以調(diào)用OpenVINO的C動(dòng)態(tài)庫，也就是說需要提前在系統(tǒng)中安裝TensorFlow或者OpenVINO的C庫的.so文件、.h文件等等。對(duì)于libavFilter內(nèi)部，前面提到，我們可以有很多基于深度學(xué)習(xí)算法的Filter，也可以調(diào)用多個(gè)深度學(xué)習(xí)模塊，所以中間出現(xiàn)DNN接口層，對(duì)Filter以及下面的backend進(jìn)行解耦。目前系統(tǒng)中有三個(gè)Filter與深度學(xué)習(xí)算法相關(guān)。第一個(gè)是Super-Resolution的Filter，是在GsoC2018的項(xiàng)目中加入的，支持了兩個(gè)算法模型：一個(gè)是ESPCN，即輸入的是一張低分辨率的圖片，輸出的是高分辨率圖片，模型直接進(jìn)行超分應(yīng)用；另外一個(gè)模型叫做SRCNN，首先將一張低分辨率的圖片經(jīng)過快速放大，變成一張高分辨率但質(zhì)量較為一般的圖片，這張圖片經(jīng)過SRCNN算法之后，分辨率保持不變、圖片質(zhì)量會(huì)變得更好，在后面我們會(huì)用到SRCNN算法舉例進(jìn)行說明。第二個(gè)Filter叫derain：輸入一個(gè)RGB格式的圖片，調(diào)用的模型的算法可以將圖片中的雨滴去除掉，這是在GsoC2019完成的。我們分析前面兩個(gè)Filter就會(huì)發(fā)現(xiàn)，其實(shí)這兩個(gè)Filter實(shí)現(xiàn)的算法功能是在模型文件中體現(xiàn)的，在Filter里面的代碼更多的是將FFmpeg的數(shù)據(jù)結(jié)構(gòu)與模型文件的輸入輸出進(jìn)行連接。因此從這個(gè)角度來看，我們就沒有必要為每一個(gè)算法功能實(shí)現(xiàn)一個(gè)Filter，我們可以做一個(gè)比較general的Filter —— dnn_processing。只要調(diào)用這個(gè)Filter，無論模型文件提供的算法功能是什么，只要將FFmpeg與模型文件執(zhí)行前后的數(shù)據(jù)流串通起來，就可以實(shí)現(xiàn)任何與圖像處理相關(guān)算法的支持。下面一層就是三個(gè)backend：TensorFlow backend對(duì)外調(diào)用TensorFlow的C動(dòng)態(tài)庫，OpenVINO backend就會(huì)對(duì)外調(diào)用OpenVINO的C動(dòng)態(tài)庫。如果考慮到系統(tǒng)中既沒有TensorFlow也沒有OpenVINO，我們可以選擇轉(zhuǎn)換到Native backend，即相應(yīng)的代碼實(shí)現(xiàn)都在FFmpeg代碼樹中，可以直接拿來用。后面將會(huì)以Super-Resolution里面的算法模型為例，通過dnn_processing這個(gè)Filter舉例說明如何使用這三個(gè)不同的后端。

4 FFmpeg深度學(xué)習(xí)模塊接口

目前接口主要分為三塊：第一，有一個(gè)最基本的函數(shù)，輸入的是backend type，可選值是Native backend、TensorFlow backend或者OpenVINO backend，根據(jù)這個(gè)backend會(huì)返回一個(gè)DNNModule。在DNNModule數(shù)據(jù)結(jié)構(gòu)中首先要做的就是給出模型文件所在的路徑，告知Module加載模型文件，加載完成后會(huì)在Filter中進(jìn)行判斷，查詢加載的模型輸入的信息（包括輸入NHWC中的每個(gè)維度的數(shù)字是什么，formate是float32、RGB還是int8等等）。查到相關(guān)信息后再與FFmpeg的數(shù)據(jù)流進(jìn)行比較是否能夠匹配，如果channel的數(shù)據(jù)匹配不上，則返回error，如果是其它的一些數(shù)據(jù)結(jié)構(gòu)的大小有變化的話，可以提前做一些scale的轉(zhuǎn)換，或者做color spaceconvertion的一些變換。當(dāng)一切都變換好之后，我們就會(huì)在為模型設(shè)置好輸入、輸出之后完成執(zhí)行。當(dāng)然，用set_input_output來設(shè)置模型的輸入/輸出主要是將輸入/輸出的變量名字告知Model，方便后續(xù)執(zhí)行時(shí)清楚的知道要將FFmpeg的數(shù)據(jù)填充到模型的哪個(gè)地方，以及模型的哪個(gè)地方是輸出，獲取到輸出的數(shù)據(jù)重新放到FFmpeg的pipeline里。然后對(duì)每個(gè)Filter進(jìn)行這樣的操作，做模型的推理，當(dāng)所有的碼流或者圖片執(zhí)行完畢之后，執(zhí)行Model即可。以上就是深度學(xué)習(xí)模塊主要接口的使用方法。

5 三種后端應(yīng)用實(shí)例

5.1 重現(xiàn)編譯FFmpeg

前面提到深度學(xué)習(xí)模塊有三種后端，分別是OpenVINO、TensorFlow和Native。下面舉例說明應(yīng)該如何應(yīng)用：首先第一步，TensorFlow backend在默認(rèn)編譯FFmpeg時(shí)是非enable的，所以我們需要加入一個(gè)選項(xiàng)，告知FFmpeg的build system，需要enable TensorFlow。在此之前我們要在Tensorflow的官方網(wǎng)站下載1.14（建議）版本，解壓、安裝到系統(tǒng)目錄下，包括.h文件和.so文件，然后再在configure進(jìn)行以上配置，就可以生成支持TensorFlow backend的FFmpeg的可執(zhí)行程序了。如果需要用的是Native backend，任何選項(xiàng)都不需要加，因?yàn)橄鄳?yīng)的代碼已經(jīng)直接寫在代碼樹中。如果是使用OpenVINO backend，則與Tensorflow backend類似，也要加入選項(xiàng)，告知FFmpeg接下來我們要啟用OpenVINO backend。一般來說，OpenVINO的默認(rèn)安裝目錄不是系統(tǒng)目錄，所以需要增加一些額外的cflags，指出OpenVINO的頭文件在哪里，用ldflags指出OpenVINO的.so庫在哪里。在configure的同時(shí)，其內(nèi)部會(huì)寫一個(gè)最簡(jiǎn)單的OpenVINO應(yīng)用程序進(jìn)行編譯并且執(zhí)行，只有一切都通過，才會(huì)啟用OpenVINO的后端，因此前面需要加LD_LIBRARY_PATH指出OpenVINO的.so所在的位置。通過這樣的方式，我們就可以得到三種后端，即Tensorflow+backend的后端、Native+backend的后端或者OpenVINO+backend的后端，得出的結(jié)果都是一個(gè)可執(zhí)行的程序，叫ffmpeg或者ffplay等等。 5.2 準(zhǔn)備SR模型文件

準(zhǔn)備好可執(zhí)行的程序之后，我們就可以準(zhǔn)備Super-Resolution的模型文件了。首先我們要來準(zhǔn)備TensorFlow格式的模型文件。一開始這個(gè)是在vf_sr.c的Filter中寫的，也就是說我們需要下載一個(gè)第三方的庫，運(yùn)行python腳本，就會(huì)生成srcnn.pb。這就是基于Tensorflow格式的模型文件，包括了已經(jīng)訓(xùn)練好的數(shù)據(jù)。在這個(gè)基礎(chǔ)上，如果我們需要使用Native backend，就需要在我們的FFmpeg/tools/python目錄下調(diào)用convert.ty這個(gè)python腳本，它的輸入就是Tensorflow的pb文件srcnn.pb。然后會(huì)生成在FFmpeg中自定義的一種新的格式——srcnn.model文件，這個(gè).model文件就可以被Native backend加載和執(zhí)行，這是我們?cè)贔Fmpeg中自定義出來的，比較簡(jiǎn)潔。如果需要使用OpenVINO后端，其實(shí)OpenVINO可以支持多個(gè)不同格式，例如Tensorflow格式、通過中間轉(zhuǎn)換的方式支持pyTorch格式，支持ONNX格式等等。OpenVINO的源代碼中有一個(gè)model-optimizer目錄，在這個(gè)目錄中有若干python腳本。例如mo_tf.py腳本文件就可以將Tensorflow格式的模型文件轉(zhuǎn)換為OpenVINO支持的格式，OpenVINO的模型文件有兩個(gè)，分別是.xml和.bin文件，我們只需要將這兩個(gè)模型文件放在同一個(gè)目錄下即可。如果大家想重現(xiàn)上述內(nèi)容，而轉(zhuǎn)換又比較麻煩的話，大家可以在圖中最下方的網(wǎng)址中下載相應(yīng)文件。 5.3 應(yīng)用SR算法

準(zhǔn)備好相應(yīng)的程序和模型文件后，接下來要執(zhí)行的FFmpeg的命令行如圖所示。 TensorFlow backend命令行： -i：輸入文件是什么。一般來說FFmpeg處理的是視頻。在這里為了方便展示，我們輸入一個(gè).jpg文件，解碼之后就經(jīng)過若干的Filter。由于我們的模型需要的是YUV格式，我們首先應(yīng)用了format的Filter進(jìn)行格式的轉(zhuǎn)換，以確保輸出的是YUV格式。然后我們調(diào)用scale的Filter，其目的是為了將輸入圖片的長(zhǎng)和寬簡(jiǎn)單的放大一倍，得到高分辨率低質(zhì)量的一張圖片。這張圖片再經(jīng)過dnn_processing的Filter，就可以變成相同分辨率高質(zhì)量的圖片。在該Filter中的參數(shù)部分，我們需要指出后端是Tensorflow，其模型文件是什么，以及模型的輸入輸出的變量名是什么，才能將FFmpeg的數(shù)據(jù)結(jié)構(gòu)與模型串聯(lián)。如我們需要的是Native backend，只需要改變backend的flag，并改變模型文件的文件名即可。同樣的，對(duì)于OpenVINO來講，其它參數(shù)都保持不變，只要將OpenVINO的flag傳進(jìn)去，并調(diào)整模型文件為srcnn.xml。Filter會(huì)根據(jù)flag經(jīng)過dnn interface再調(diào)用希望應(yīng)用的backend，最終完成相應(yīng)的算法功能。

6 下一步計(jì)劃

那么接下來我們會(huì)有哪些新的實(shí)現(xiàn)計(jì)劃？第一，我們現(xiàn)在執(zhí)行的是同步的處理，即給到一個(gè)frame，執(zhí)行完畢后才會(huì)返回，這樣在有些時(shí)候會(huì)影響整體效率。因此接下來我們會(huì)實(shí)現(xiàn)一個(gè)異步的執(zhí)行，即在接收到一個(gè)視頻幀后，直接將視頻幀輸入到深度學(xué)習(xí)模塊中，在推理完成之前返回調(diào)用，希望能夠加快處理的速度。并且在這個(gè)基礎(chǔ)上，我們就可以支持batch support，也就是每次推理并非一幀一幀進(jìn)行，而是支持一次多幀的處理，盡可能用上下面硬件的并行處理功能。除此之外，剛才一直強(qiáng)調(diào)的模型的輸入輸出與FFmpeg的數(shù)據(jù)結(jié)構(gòu)之間需要做一些恰當(dāng)?shù)霓D(zhuǎn)換。由于模型的輸入千變?nèi)f化，存在很大可能性，而目前只是支持一些比較固定模式的轉(zhuǎn)化，因此希望后續(xù)可以加入一些比較靈活的轉(zhuǎn)化。再接下來，因?yàn)椴煌腷ackend會(huì)有自己的特性，需要單獨(dú)設(shè)置flag，那么我們就需要在接口中為每個(gè)backend實(shí)現(xiàn)其私有的操作選項(xiàng)，從Filter向下傳遞到相應(yīng)的backend中。另外，從Filter的角度來講，其實(shí)還有很多事情是可以做的。例如目前增加的Filter只是可以用來對(duì)圖片進(jìn)行處理，而沒有實(shí)現(xiàn)分析的功能，例如檢測(cè)和識(shí)別等這些都是下一步需要做的。甚至包括音頻相關(guān)的Filter，例如將識(shí)別音頻轉(zhuǎn)化為文字內(nèi)容等等。最后以FFmpeg深度學(xué)習(xí)模塊Maintainer的角色，非常歡迎大家對(duì)FFmpeg深度學(xué)習(xí)模塊提出建議或意見，包括增加更多的基于深度學(xué)習(xí)模塊的Filter，歡迎大家一起討論。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴