rm新时代公司官网,RM新时代注册

生成對(duì)抗網(wǎng)絡(luò)一直是深度學(xué)習(xí)的重要工具，經(jīng)過近幾年的發(fā)展，GANs也衍生出了許多不同的模式，例如DCGANs、Wassers tein GANs、BEGANs等。本文將要探討的是條件GAN（Conditional GANs）在圖像生成中的應(yīng)用。

條件GANs已經(jīng)應(yīng)用與多種跟圖像有關(guān)的任務(wù)中了，但分辨率通常都不高，并且看起來很不真實(shí)。而在這篇論文中，英偉達(dá)和加州大學(xué)伯克利分校的研究人員共同提出了一個(gè)新方法合成高分辨率的街景，利用條件GANs從語義標(biāo)簽映射生成的2048x1024的圖像不僅在視覺上更吸引人，同時(shí)生成了新的對(duì)抗損失以及新的多尺度生成器和判別器體系結(jié)構(gòu)。

合成實(shí)例級(jí)別的圖像

接下來就是該項(xiàng)目的具體實(shí)驗(yàn)過程。首先，是基線算法 pix2pix的運(yùn)用。pix2pix是用于圖像翻譯的條件GAN框架，它包含一個(gè)生成網(wǎng)絡(luò)G和一個(gè)判別網(wǎng)絡(luò)D。在這項(xiàng)任務(wù)中，生成網(wǎng)絡(luò)G的目標(biāo)就是將語義標(biāo)簽映射翻譯成接近真實(shí)的圖像，而判別網(wǎng)絡(luò)D的目標(biāo)是將生成圖像與真實(shí)圖像作對(duì)比。

pix2pix利用U-Net作為生成網(wǎng)絡(luò)，同時(shí)用基礎(chǔ)的卷積網(wǎng)絡(luò)作為判別器。然而，利用數(shù)據(jù)集Cityspaces生成的圖像分辨率最高只有256x256的，以至于訓(xùn)練過程十分不穩(wěn)定，生成圖片的質(zhì)量也不是很好，所以pix2pix框架需要進(jìn)行一些改善升級(jí)。

研究人員將生成網(wǎng)絡(luò)換成由粗到精的網(wǎng)絡(luò)，并采用多尺度的判別網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí)采用穩(wěn)定的對(duì)抗學(xué)習(xí)目標(biāo)函數(shù)。

由粗到精的生成網(wǎng)絡(luò)（Coarse-to-fine generator）

研究人員將生成網(wǎng)絡(luò)分成了兩部分：全局生成網(wǎng)絡(luò)G1和局部增強(qiáng)網(wǎng)絡(luò)G2。全局生成網(wǎng)絡(luò)G1的可接受的分辨率為1024x512，局部增強(qiáng)網(wǎng)絡(luò)輸出的圖像分辨率為前一個(gè)圖像的4倍。如果還想得到更高的合成圖像，可以繼續(xù)增加局部增強(qiáng)網(wǎng)絡(luò)。

探討條件GAN在圖像生成中的應(yīng)用

生成網(wǎng)絡(luò)結(jié)構(gòu)

多尺度判別網(wǎng)絡(luò)（multi-scale discriminators）

對(duì)GAN的判別網(wǎng)絡(luò)來說，高分辨率的圖像是不小的挑戰(zhàn)。為了區(qū)分真正的高清圖片與合成圖片，判別網(wǎng)絡(luò)需要一個(gè)巨大的接收區(qū)（receptive field）。所以這就需要一個(gè)更深的網(wǎng)絡(luò)或更大的卷積核。但是這兩種方法都會(huì)增加網(wǎng)絡(luò)的能力，有可能導(dǎo)致過度擬合。并且它們?cè)谟?xùn)練時(shí)都需要更大的存儲(chǔ)腳本，這對(duì)高分辨率的圖像生成來說是很稀少的。

為了解決這一問題，研究人員提出了使用多尺度判別器的方法，即用三種擁有同樣結(jié)構(gòu)的網(wǎng)絡(luò)，但針對(duì)不同尺寸的圖片運(yùn)行。能處理最大尺寸的網(wǎng)絡(luò)擁有最大的接收區(qū)，它能引導(dǎo)生成網(wǎng)絡(luò)生成整體更協(xié)調(diào)的圖像。而處理最小尺寸的網(wǎng)絡(luò)能引導(dǎo)生成網(wǎng)絡(luò)在細(xì)節(jié)上處理得更仔細(xì)。

損失函數(shù)

研究人員從鑒別網(wǎng)絡(luò)的多個(gè)層中提取特征，并學(xué)習(xí)從真實(shí)和合成圖像中匹配這些中間表征。為了方便表示，我們將判別網(wǎng)絡(luò)Dk的第i層表示為Dk(i)，特征匹配損失LFM(G, Dk)表示為：

其中T是總層數(shù)，Ni表示每層的組成要素。

最終將GAN損失和特征匹配損失結(jié)合起來的函數(shù)表示為：

其中λ控制兩項(xiàng)的重要性。

現(xiàn)有的圖像合成方法僅使用語義標(biāo)簽映射，其中每個(gè)像素值代表像素所屬的對(duì)象類別。這種映射不區(qū)分同一類別的對(duì)象。另一方面，實(shí)例級(jí)別的語義標(biāo)簽映射包括每個(gè)單獨(dú)對(duì)象的唯一ID。要包含實(shí)例映射，一個(gè)簡單的方法是將其直接傳遞給網(wǎng)絡(luò)，或者將其編碼成一個(gè)單獨(dú)的向量。然而，由于不同圖像可能包含不同數(shù)量相同類別的對(duì)象，所以這兩種方法在實(shí)踐中都難以實(shí)現(xiàn)。

所以我們選擇用實(shí)例映射，它能夠提供語義標(biāo)簽映射中沒有的對(duì)象邊界（object boundary）。例如，當(dāng)多個(gè)相同類別的對(duì)象彼此相鄰是，只查看語義標(biāo)簽映射無法區(qū)分它們。

下圖顯示用實(shí)例邊界映射訓(xùn)練的模型，圖像邊界更清晰。

結(jié)果對(duì)比

為了量化合成圖像的質(zhì)量，研究人員對(duì)其進(jìn)行語義分割，并比較預(yù)測(cè)的預(yù)測(cè)的部分與輸入部分的匹配程度。從下表可以看出，我們使用的方法遠(yuǎn)遠(yuǎn)優(yōu)于其他方法，并且十分接近原始圖像。

在CityScapes數(shù)據(jù)集上，在沒有損失函數(shù)的情況下，我們的方法也依然比其他兩種方法更優(yōu)。

在NYU數(shù)據(jù)集上，我們的方法生成的圖片比其他方法生成的圖片看起來更真實(shí)。

其他結(jié)果：

輸入標(biāo)簽（左）與合成圖像（右）

放大后可以看到圖中對(duì)象的細(xì)節(jié)更清晰

在ADE20K數(shù)據(jù)集的實(shí)驗(yàn)，我們的結(jié)果生成的圖片真實(shí)度與原圖相差無幾

在Helen Face數(shù)據(jù)集上的實(shí)驗(yàn)，用戶可以在互動(dòng)界面實(shí)時(shí)改變臉部特征。例如變換膚色、加胡子等等

各位可以到網(wǎng)站上自行繪制你的“大作”：uncannyroad.com/

結(jié)語

實(shí)驗(yàn)的結(jié)果表明，條件GANs無需手動(dòng)調(diào)整損失函數(shù)或提前訓(xùn)練網(wǎng)絡(luò)，就能合成高分辨率的逼真圖像。我們的成果將幫助許多需要高分辨率圖像，但卻沒有預(yù)先訓(xùn)練網(wǎng)絡(luò)的領(lǐng)域，比如醫(yī)療影像和生物領(lǐng)域。

同時(shí)，這篇論文還向我們展示出，圖像到圖像的合成pipeline可以用來生成多種結(jié)果。研究人員認(rèn)為這些成果有助于擴(kuò)大圖片合成的應(yīng)用范圍。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴