RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像生成領(lǐng)域的一個巨大進展:SAGAN

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:11 ? 次閱讀

編者按:幾個月前,論智介紹了圖像生成領(lǐng)域的一個巨大進展:SAGAN。在那篇論文中,羅格斯大學(xué)和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN,解決了特征記憶問題,把圖像生成的初始分數(shù)(IS)從36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review論文(赫瑞-瓦特大學(xué)&DeepMind)帶來了更震撼結(jié)果,他們把IS一下子提高了一百多分,從52.52提升到了166.3。

摘要

盡管學(xué)界在生成圖像建模上取得了不小進展,但從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標(biāo)。為此,我們以至今最大規(guī)模訓(xùn)練了生成對抗網(wǎng)絡(luò)(GAN),并研究了這種規(guī)模所特有的不穩(wěn)定性。研究發(fā)現(xiàn),通過在生成器上使用正交正則化,我們可以讓它適應(yīng)簡單的“截斷技巧”,即允許利用“截斷”潛在空間來精確控制樣本保真度和多樣性之間的權(quán)衡。

我們的修改使模型的性能達到了新高度。當(dāng)我們在ImageNet上用128×128分辨率的圖像進行訓(xùn)練時,我們的模型(BigGAN)的IS為166.3,F(xiàn)ID為9.6,而之前的最佳記錄是IS 52.52,F(xiàn)ID 18.65。

簡介

近年來,生成圖像建模領(lǐng)域出現(xiàn)了不少成果,其中最前沿的是GAN,它能直接從數(shù)據(jù)中學(xué)習(xí),生成高保真、多樣化的圖像。雖然GAN的訓(xùn)練是動態(tài)的,而且對各方面的設(shè)置都很敏感(從優(yōu)化參數(shù)到模型架構(gòu)),但大量研究已經(jīng)證實,這種方法可以在各種環(huán)境中穩(wěn)定訓(xùn)練。

盡管取得了這些進步,當(dāng)前生成圖像模型在ImageNet數(shù)據(jù)集上的表現(xiàn)還是很一般,最高IS只有52.52,而真實圖像數(shù)據(jù)的得分高達233。

在這篇論文中,研究人員通過一系列修改,縮小了GAN生成的圖像和ImageNet中的真實圖像之間的差異,他們做出的貢獻主要有以下三點:

證明GAN能從大規(guī)模訓(xùn)練中受益。通過對體系結(jié)構(gòu)做了兩個簡單修改,他們在訓(xùn)練過程中使用的參數(shù)量是現(xiàn)有研究的2-4倍,batch size是8倍,但模型性能有顯著提高。

作為改進的副作用,新模型非常適合“截斷技巧”,即精確控制樣本保真度和多樣性之間的權(quán)衡。

發(fā)現(xiàn)大規(guī)模GAN的特有不穩(wěn)定性,并根據(jù)經(jīng)驗進行表征。根據(jù)分析所得,他們認為把新方法和現(xiàn)有技術(shù)結(jié)合可以緩解這種不穩(wěn)定性,但如果要實現(xiàn)完全的穩(wěn)定訓(xùn)練,這會大大有損性能。

主要改進

本文提出的BigGAN遵循了SAGAN的基本架構(gòu),它基于ResNet,但判別器D中的通道和一般ResNet不同,每個模塊的第一個卷積層的filter數(shù)量等于輸出的filter數(shù),而不是輸入數(shù)。

在128×128 ImageNet數(shù)據(jù)上的架構(gòu)

研究人員首先簡單增加了基線模型的batch size,這樣做的效果如下表所示。隨著batch size逐漸變?yōu)榛€的2倍、4倍、8倍,模型的FID不斷下降,IS不斷增加,至8倍時,BigGAN的IS較SAGAN已經(jīng)提高了約46%。對于這個結(jié)果,他們提出的一個猜想是更大的batch size意味著每個batch覆蓋的模式更多,這為兩個神經(jīng)網(wǎng)絡(luò)提供了更好的梯度。

但這么做也有缺點,就是雖然模型能在更少的迭代中達到更好的最終性能,但它很不穩(wěn)定,甚至?xí)谟?xùn)練時崩潰。

各batch size下BigGAN的IS(越高越好)和FID(越低越好)

之后,他們又把神經(jīng)網(wǎng)絡(luò)每一層的通道數(shù)在原有基礎(chǔ)上增加了50%,這時每個神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量也幾乎翻了一倍。當(dāng)BigGAN的參數(shù)數(shù)量是SAGAN的兩倍時,它的IS較后者提高了約21%。對此,他們給出的解釋是,相對于數(shù)據(jù)集的復(fù)雜性,模型的容量增加了。而增加神經(jīng)網(wǎng)絡(luò)深度不會產(chǎn)生相似效果,反而會降低最終性能。

考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權(quán)重,他們不再為每個嵌入分別設(shè)置一個層,而是使用了一個共享嵌入,由它投影到每一層。這降低了計算和存儲成本,并把訓(xùn)練速度提高了37%。同時,他們使用了分層潛在空間的變體,把噪聲向量z饋送進生成器的多個層,直接影響不同分辨率和層次結(jié)構(gòu)級別的特征。

(a)常規(guī)生成器架構(gòu);(b)生成器中的殘差塊

生成效果

BigGAN生成的各個類別的圖像

BigGAN生成的256×256的圖像

BigGAN生成的512×512的圖像

上面是論文呈現(xiàn)的一些生成圖像。雖然其他GAN也能精選一些不錯的圖,但對比細節(jié),BigGAN在質(zhì)地、光影、外形等方面的表現(xiàn)都優(yōu)于以往成果。而且就SAGAN強調(diào)的腿部生成效果來看,上圖中公雞的腿不突兀、更自然,和真實圖像難以區(qū)分。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100713
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1083

    瀏覽量

    40449
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1933

    瀏覽量

    73286

原文標(biāo)題:DeepMind:從52.52到166.3,圖像生成再現(xiàn)巨大突破

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于擴散模型的圖像生成過程

    近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴展創(chuàng)作靈感。 不過僅憑文本來控制
    的頭像 發(fā)表于 07-17 11:00 ?2708次閱讀
    基于擴散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    低質(zhì)量圖像生成與增強的區(qū)別 圖像生成領(lǐng)域中存在的難點

    1. 論文信息 ? 2. 引言 ? 這篇論文的研究背景是圖像生成領(lǐng)域中存在的難點 - 如何從低質(zhì)量的
    的頭像 發(fā)表于 08-03 15:36 ?1616次閱讀
    低質(zhì)量<b class='flag-5'>圖像</b>的<b class='flag-5'>生成</b>與增強的區(qū)別 <b class='flag-5'>圖像</b><b class='flag-5'>生成</b><b class='flag-5'>領(lǐng)域</b>中存在的難點

    關(guān)于使用LabVIEW生成彩色圖像的問題

    我手里目前有圖像的數(shù)據(jù)(附件), 是RGB565格式的,用兩個字節(jié)表示像素點,現(xiàn)在我想在LabVIEW上通過這些數(shù)據(jù),生成
    發(fā)表于 11-12 16:33

    總結(jié)可微圖像參數(shù)表示的最新進展

    可微圖像參數(shù)表示邀請我們提出了這樣問題:“反向傳播通過的是什么樣的圖像生成過程?”答案是相當(dāng)多樣的過程,其中
    的頭像 發(fā)表于 08-16 09:19 ?3807次閱讀

    圖像生成領(lǐng)域巨大進展,BigGAN的效果真的有那么好嗎?

    因此,如果快速瀏覽BigGAN生成系列圖像,我們能從中發(fā)現(xiàn)不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時都遵循了從數(shù)據(jù)集中學(xué)到的構(gòu)圖和光影,但當(dāng)這些來自不同樣本的素材雜糅到
    的頭像 發(fā)表于 11-21 09:05 ?6612次閱讀

    種全新的遙感圖像描述生成方法

    遙感圖像描述生成是同時涉及計算機視覺和自然語言處理領(lǐng)域的熱門研究話題,其主要工作是對于給定的圖像自動地生成
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一</b>種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成</b>方法

    種基于改進的DCGAN生成SAR圖像的方法

    的方法。為測試和驗證多個同類圖像識別軟件,并進行擇優(yōu),需要自行設(shè)計不同于訓(xùn)練用的圖像來對測軟件進行測試。此方法可以為擇優(yōu)測試提供公平的基準(zhǔn)測試集。實驗分別使用原 DCGAN模型和改
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一</b>種基于改進的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    基于生成式對抗網(wǎng)絡(luò)的圖像補全方法

    圖像補全是數(shù)字圖像處理領(lǐng)域的重要研究方向,具有廣闊的應(yīng)用前景。提出了種基于生成式對抗網(wǎng)絡(luò)(GAN)的
    發(fā)表于 05-19 14:38 ?14次下載

    基于卷積神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法

    圖像描述,即利用電腦自動描述圖像的語義內(nèi)容直是計算機視覺領(lǐng)域項重要研究任務(wù)。盡管使用卷積神經(jīng)網(wǎng)絡(luò)(connal neural netw
    發(fā)表于 06-03 14:45 ?41次下載

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團隊宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片,同時大幅降低了對硬件的需求,為
    的頭像 發(fā)表于 03-05 10:46 ?780次閱讀

    生成式AI的基本原理和應(yīng)用領(lǐng)域

    復(fù)雜性和創(chuàng)新性的內(nèi)容的技術(shù)。這種技術(shù)不僅限于文本生成,還廣泛應(yīng)用于圖像、音頻、視頻等多個領(lǐng)域。本文將詳細探討生成式AI的原理、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域
    的頭像 發(fā)表于 07-04 11:50 ?1432次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作
    的頭像 發(fā)表于 08-30 16:23 ?1127次閱讀

    AI圖像生成公司Midjourney宣布進軍硬件領(lǐng)域

    AI圖像生成領(lǐng)域的佼佼者Midjourney近日宣布了項重大戰(zhàn)略調(diào)整,正式進軍硬件領(lǐng)域,標(biāo)志著這家以創(chuàng)新聞名的公司在技術(shù)探索上邁出了新的步
    的頭像 發(fā)表于 08-30 16:24 ?982次閱讀

    AI大模型的最新研究進展

    AI大模型的最新研究進展體現(xiàn)在多個方面,以下是對其最新進展的介紹: 、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展
    的頭像 發(fā)表于 10-23 15:19 ?409次閱讀

    AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)

    處理和計算機視覺等領(lǐng)域的快速發(fā)展,AIGC技術(shù)已經(jīng)成為內(nèi)容創(chuàng)作和分發(fā)領(lǐng)域重要趨勢。 AIGC生成內(nèi)容的優(yōu)勢 1. 提高內(nèi)容生產(chǎn)的效率
    的頭像 發(fā)表于 10-25 15:36 ?462次閱讀
    RM新时代网站-首页