RM新时代赚钱项目,新时代rm平台入口

GAN 自 2014 年提出以來得到了廣泛應(yīng)用。前不久效果令人震驚的 ICLR 2019 論文 BigGAN 引發(fā)了眾多關(guān)注。去年英偉達(dá)投稿 ICLR 2018 的論文《Progressive Growing of GANs for Improved Quality, Stability, and Variation》效果也很驚艷。近日 PGGAN 的作者再發(fā)論文，這次的效果更加真實(shí)。

是的，這些圖片都是由 GAN 生成的。

這款新型 GAN 生成器架構(gòu)借鑒了風(fēng)格遷移研究，可對(duì)高級(jí)屬性（如姿勢(shì)、身份）進(jìn)行自動(dòng)學(xué)習(xí)和無監(jiān)督分割，且生成圖像還具備隨機(jī)變化（如雀斑、頭發(fā)）。該架構(gòu)可以對(duì)圖像合成進(jìn)行直觀、多尺度的控制，在傳統(tǒng)的分布質(zhì)量指標(biāo)上達(dá)到了當(dāng)前最優(yōu)，展示了更好的插值屬性，并且能夠更好地將潛在的變差因素解糾纏。

下圖展示了這款新型生成器的風(fēng)格效果。它將隱編碼生成的風(fēng)格（source）疊加在另一種隱編碼的風(fēng)格子集（destination）上。

對(duì)空間分辨率較低（4^2 – 8^2）的層的風(fēng)格進(jìn)行疊加的效果見「Coarse styles copied」部分：生成圖像從 source 中復(fù)制了姿勢(shì)、大致發(fā)型、臉形和眼鏡等高級(jí)屬性，但保留了 destination 圖像的所有顏色（眼睛、頭發(fā)、光線）和細(xì)節(jié)臉部特征。

對(duì)空間分辨率為 16^2 – 32^2 的層的風(fēng)格進(jìn)行疊加的效果見「Middle styles copied」部分：復(fù)制了 source 圖像的細(xì)微面部特征、發(fā)型、眼睛睜開的狀態(tài)，同時(shí)保留了 destination 圖像的姿勢(shì)、臉形和眼鏡。

對(duì)高分辨率 (64^2 – 1024^2) 的層的風(fēng)格進(jìn)行疊加的效果見「Fine styles」：主要保留了 source 圖像的顏色和微小特征。

基于風(fēng)格的生成器

如下圖所示，（a）PGGAN 生成器將隱編碼僅饋入輸入層，而（b）英偉達(dá)最近提出的基于風(fēng)格的生成器首先將輸入映射到中間潛在空間 W，W 控制生成器在每個(gè)卷積層的自適應(yīng)實(shí)例歸一化（adaptive instance normalization，AdaIN）。然后在應(yīng)用非線性激活之前在每個(gè)卷積層之后添加高斯噪聲。圖中 A 表示學(xué)到的仿射變換，B 表示學(xué)到的每個(gè)通道對(duì)噪聲輸入的比例因子。映射網(wǎng)絡(luò) f 包含 8 個(gè)層，合成網(wǎng)絡(luò) g 包含 18 個(gè)層（4^2、8^2、16^2、32^2、64^2、128^2、256^2、512^2、1024^2 這九種分辨率中每種分辨率有兩個(gè)層）。使用互相分離的 1 × 1 卷積將最后一層的輸出轉(zhuǎn)換成 RGB，與前作 PGGAN 類似。

基于風(fēng)格的生成器的屬性

該生成器架構(gòu)通過對(duì)風(fēng)格的尺度調(diào)整來控制圖像合成。映射網(wǎng)絡(luò)和仿射變換用來從學(xué)到的分布中獲取每種風(fēng)格的采樣，合成網(wǎng)絡(luò)用來基于多種風(fēng)格生成新圖像。每種風(fēng)格的效果都在該網(wǎng)絡(luò)內(nèi)有呈現(xiàn)，即修改多種風(fēng)格的特定子集以影響圖像的某些特定屬性。

該研究介紹了該生成器的三個(gè)屬性，分別是風(fēng)格混合、隨機(jī)變化（Stochastic variation）和全局效應(yīng)與隨機(jī)性的分離。

風(fēng)格混合

上圖展示了在多種分辨率情況下混合兩種隱編碼合成的圖像示例?？梢钥吹斤L(fēng)格的每個(gè)子集控制圖像的有意義高級(jí)屬性。

隨機(jī)變化

圖 4. 隨機(jī)變化的示例。（a）兩張生成的圖像。（b）放大輸入噪聲的不同實(shí)現(xiàn)。盡管整體外觀大致相同，但個(gè)體毛發(fā)細(xì)節(jié)還是有不同。（c）100 個(gè)不同實(shí)現(xiàn)中像素的標(biāo)準(zhǔn)偏差，高亮處為圖像受噪聲影響的區(qū)域。主要區(qū)域是頭發(fā)、輪廓和部分背景，但眼睛的反射也有有趣的隨機(jī)變化。身份和姿勢(shì)等全局特征不受隨機(jī)變化的影響。

圖 5：生成器不同層的輸入噪聲對(duì)生成結(jié)果的影響。（a）噪聲被應(yīng)用到所有層；（b）沒有噪聲；（c）噪聲僅應(yīng)用到（64^2 - 1024^2）分辨率的精細(xì)層；（d）噪聲僅應(yīng)用到（4^2 - 32^2）分辨率的粗糙層。我們可以看到人工消除噪聲可以讓圖像看起來更正常，粗糙噪聲會(huì)導(dǎo)致大幅度的頭發(fā)和背景扭曲；精細(xì)噪聲帶來的頭發(fā)變形更加細(xì)致，背景細(xì)節(jié)更加豐富，甚至能看到皮膚毛孔。

全局效應(yīng)與隨機(jī)性的分離

前文及隨附的視頻說明，雖然改變風(fēng)格會(huì)產(chǎn)生全局效應(yīng)（global effect），如改變姿勢(shì)、ID 等，但噪聲只會(huì)影響無關(guān)緊要的隨機(jī)變化（如發(fā)型、胡子等）。這個(gè)觀察結(jié)果與風(fēng)格遷移文獻(xiàn)一致，后者已經(jīng)確定了空間不變的統(tǒng)計(jì)數(shù)據(jù)（格拉姆矩陣、通道均值、方差等）能夠可靠地編碼圖像的風(fēng)格 [17, 33]，同時(shí)空間變化的特征編碼特定實(shí)例。

在本文基于風(fēng)格的生成器中，風(fēng)格會(huì)影響整個(gè)圖像，因?yàn)檎麄€(gè)特征圖會(huì)以同樣的值進(jìn)行縮放和偏移。因此，姿勢(shì)、光線或背景風(fēng)格等全局效應(yīng)可以得到連貫的控制。同時(shí)，噪聲被單獨(dú)添加到每個(gè)像素中，因此非常適于控制隨機(jī)變化。如果該網(wǎng)絡(luò)試圖用噪聲控制姿勢(shì)，那將會(huì)導(dǎo)致空間不一致的決策，然后被判別器懲罰。因此該網(wǎng)絡(luò)學(xué)會(huì)了在沒有明確指導(dǎo)的情況下適當(dāng)?shù)厥褂萌趾途植客ǖ馈?/p>

此外，英偉達(dá)還提出兩種可應(yīng)用于任意生成器架構(gòu)的新型自動(dòng)化方法，并創(chuàng)建了一個(gè)包含千差萬別、高質(zhì)量人臉圖像的新型數(shù)據(jù)集 FlickrF aces-HQ（FFHQ）。該數(shù)據(jù)集中的圖像來自于 Flickr 網(wǎng)站，并經(jīng)過自動(dòng)對(duì)齊和剪裁。該數(shù)據(jù)集包含 70000 張分辨率為 1024^2 的高質(zhì)量圖像，其中的圖像在年齡、種族、圖像背景等方面比 CelebA-HQ [26] 具備更寬泛的變化，且涵蓋更多配飾，如眼鏡、太陽(yáng)鏡、帽子等。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴