編者按:幾個月前,論智介紹了圖像生成領(lǐng)域的一個巨大進展:SAGAN。在那篇論文中,羅格斯大學(xué)和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN,解決了特征記憶問題,把圖像生成的初始分數(shù)(IS)從36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review論文(赫瑞-瓦特大學(xué)&DeepMind)帶來了更震撼結(jié)果,他們把IS一下子提高了一百多分,從52.52提升到了166.3。
摘要
盡管學(xué)界在生成圖像建模上取得了不小進展,但從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標(biāo)。為此,我們以至今最大規(guī)模訓(xùn)練了生成對抗網(wǎng)絡(luò)(GAN),并研究了這種規(guī)模所特有的不穩(wěn)定性。研究發(fā)現(xiàn),通過在生成器上使用正交正則化,我們可以讓它適應(yīng)簡單的“截斷技巧”,即允許利用“截斷”潛在空間來精確控制樣本保真度和多樣性之間的權(quán)衡。
我們的修改使模型的性能達到了新高度。當(dāng)我們在ImageNet上用128×128分辨率的圖像進行訓(xùn)練時,我們的模型(BigGAN)的IS為166.3,F(xiàn)ID為9.6,而之前的最佳記錄是IS 52.52,F(xiàn)ID 18.65。
簡介
近年來,生成圖像建模領(lǐng)域出現(xiàn)了不少成果,其中最前沿的是GAN,它能直接從數(shù)據(jù)中學(xué)習(xí),生成高保真、多樣化的圖像。雖然GAN的訓(xùn)練是動態(tài)的,而且對各方面的設(shè)置都很敏感(從優(yōu)化參數(shù)到模型架構(gòu)),但大量研究已經(jīng)證實,這種方法可以在各種環(huán)境中穩(wěn)定訓(xùn)練。
盡管取得了這些進步,當(dāng)前生成圖像模型在ImageNet數(shù)據(jù)集上的表現(xiàn)還是很一般,最高IS只有52.52,而真實圖像數(shù)據(jù)的得分高達233。
在這篇論文中,研究人員通過一系列修改,縮小了GAN生成的圖像和ImageNet中的真實圖像之間的差異,他們做出的貢獻主要有以下三點:
證明GAN能從大規(guī)模訓(xùn)練中受益。通過對體系結(jié)構(gòu)做了兩個簡單修改,他們在訓(xùn)練過程中使用的參數(shù)量是現(xiàn)有研究的2-4倍,batch size是8倍,但模型性能有顯著提高。
作為改進的副作用,新模型非常適合“截斷技巧”,即精確控制樣本保真度和多樣性之間的權(quán)衡。
發(fā)現(xiàn)大規(guī)模GAN的特有不穩(wěn)定性,并根據(jù)經(jīng)驗進行表征。根據(jù)分析所得,他們認為把新方法和現(xiàn)有技術(shù)結(jié)合可以緩解這種不穩(wěn)定性,但如果要實現(xiàn)完全的穩(wěn)定訓(xùn)練,這會大大有損性能。
主要改進
本文提出的BigGAN遵循了SAGAN的基本架構(gòu),它基于ResNet,但判別器D中的通道和一般ResNet不同,每個模塊的第一個卷積層的filter數(shù)量等于輸出的filter數(shù),而不是輸入數(shù)。
在128×128 ImageNet數(shù)據(jù)上的架構(gòu)
研究人員首先簡單增加了基線模型的batch size,這樣做的效果如下表所示。隨著batch size逐漸變?yōu)榛€的2倍、4倍、8倍,模型的FID不斷下降,IS不斷增加,至8倍時,BigGAN的IS較SAGAN已經(jīng)提高了約46%。對于這個結(jié)果,他們提出的一個猜想是更大的batch size意味著每個batch覆蓋的模式更多,這為兩個神經(jīng)網(wǎng)絡(luò)提供了更好的梯度。
但這么做也有缺點,就是雖然模型能在更少的迭代中達到更好的最終性能,但它很不穩(wěn)定,甚至?xí)谟?xùn)練時崩潰。
各batch size下BigGAN的IS(越高越好)和FID(越低越好)
之后,他們又把神經(jīng)網(wǎng)絡(luò)每一層的通道數(shù)在原有基礎(chǔ)上增加了50%,這時每個神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量也幾乎翻了一倍。當(dāng)BigGAN的參數(shù)數(shù)量是SAGAN的兩倍時,它的IS較后者提高了約21%。對此,他們給出的解釋是,相對于數(shù)據(jù)集的復(fù)雜性,模型的容量增加了。而增加神經(jīng)網(wǎng)絡(luò)深度不會產(chǎn)生相似效果,反而會降低最終性能。
考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權(quán)重,他們不再為每個嵌入分別設(shè)置一個層,而是使用了一個共享嵌入,由它投影到每一層。這降低了計算和存儲成本,并把訓(xùn)練速度提高了37%。同時,他們使用了分層潛在空間的變體,把噪聲向量z饋送進生成器的多個層,直接影響不同分辨率和層次結(jié)構(gòu)級別的特征。
(a)常規(guī)生成器架構(gòu);(b)生成器中的殘差塊
生成效果
BigGAN生成的各個類別的圖像
BigGAN生成的256×256的圖像
BigGAN生成的512×512的圖像
上面是論文呈現(xiàn)的一些生成圖像。雖然其他GAN也能精選一些不錯的圖,但對比細節(jié),BigGAN在質(zhì)地、光影、外形等方面的表現(xiàn)都優(yōu)于以往成果。而且就SAGAN強調(diào)的腿部生成效果來看,上圖中公雞的腿不突兀、更自然,和真實圖像難以區(qū)分。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100713 -
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40449 -
GaN
+關(guān)注
關(guān)注
19文章
1933瀏覽量
73286
原文標(biāo)題:DeepMind:從52.52到166.3,圖像生成再現(xiàn)巨大突破
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論