RM新时代新项目-百度知道,RM新时代投资安全吗

編者按：幾個月前，論智介紹了圖像生成領(lǐng)域的一個巨大進展：SAGAN。在那篇論文中，羅格斯大學(xué)和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN，解決了特征記憶問題，把圖像生成的初始分數(shù)（IS）從36.8一下提到了52.52。而近日，一篇ICLR 2019的Open Review論文（赫瑞-瓦特大學(xué)&DeepMind）帶來了更震撼結(jié)果，他們把IS一下子提高了一百多分，從52.52提升到了166.3。

摘要

盡管學(xué)界在生成圖像建模上取得了不小進展，但從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標(biāo)。為此，我們以至今最大規(guī)模訓(xùn)練了生成對抗網(wǎng)絡(luò)（GAN），并研究了這種規(guī)模所特有的不穩(wěn)定性。研究發(fā)現(xiàn)，通過在生成器上使用正交正則化，我們可以讓它適應(yīng)簡單的“截斷技巧”，即允許利用“截斷”潛在空間來精確控制樣本保真度和多樣性之間的權(quán)衡。

我們的修改使模型的性能達到了新高度。當(dāng)我們在ImageNet上用128×128分辨率的圖像進行訓(xùn)練時，我們的模型（BigGAN）的IS為166.3，F(xiàn)ID為9.6，而之前的最佳記錄是IS 52.52，F(xiàn)ID 18.65。

簡介

近年來，生成圖像建模領(lǐng)域出現(xiàn)了不少成果，其中最前沿的是GAN，它能直接從數(shù)據(jù)中學(xué)習(xí)，生成高保真、多樣化的圖像。雖然GAN的訓(xùn)練是動態(tài)的，而且對各方面的設(shè)置都很敏感（從優(yōu)化參數(shù)到模型架構(gòu)），但大量研究已經(jīng)證實，這種方法可以在各種環(huán)境中穩(wěn)定訓(xùn)練。

盡管取得了這些進步，當(dāng)前生成圖像模型在ImageNet數(shù)據(jù)集上的表現(xiàn)還是很一般，最高IS只有52.52，而真實圖像數(shù)據(jù)的得分高達233。

在這篇論文中，研究人員通過一系列修改，縮小了GAN生成的圖像和ImageNet中的真實圖像之間的差異，他們做出的貢獻主要有以下三點：

證明GAN能從大規(guī)模訓(xùn)練中受益。通過對體系結(jié)構(gòu)做了兩個簡單修改，他們在訓(xùn)練過程中使用的參數(shù)量是現(xiàn)有研究的2-4倍，batch size是8倍，但模型性能有顯著提高。

作為改進的副作用，新模型非常適合“截斷技巧”，即精確控制樣本保真度和多樣性之間的權(quán)衡。

發(fā)現(xiàn)大規(guī)模GAN的特有不穩(wěn)定性，并根據(jù)經(jīng)驗進行表征。根據(jù)分析所得，他們認為把新方法和現(xiàn)有技術(shù)結(jié)合可以緩解這種不穩(wěn)定性，但如果要實現(xiàn)完全的穩(wěn)定訓(xùn)練，這會大大有損性能。

主要改進

本文提出的BigGAN遵循了SAGAN的基本架構(gòu)，它基于ResNet，但判別器D中的通道和一般ResNet不同，每個模塊的第一個卷積層的filter數(shù)量等于輸出的filter數(shù)，而不是輸入數(shù)。

在128×128 ImageNet數(shù)據(jù)上的架構(gòu)

研究人員首先簡單增加了基線模型的batch size，這樣做的效果如下表所示。隨著batch size逐漸變?yōu)榛€的2倍、4倍、8倍，模型的FID不斷下降，IS不斷增加，至8倍時，BigGAN的IS較SAGAN已經(jīng)提高了約46%。對于這個結(jié)果，他們提出的一個猜想是更大的batch size意味著每個batch覆蓋的模式更多，這為兩個神經(jīng)網(wǎng)絡(luò)提供了更好的梯度。

但這么做也有缺點，就是雖然模型能在更少的迭代中達到更好的最終性能，但它很不穩(wěn)定，甚至?xí)谟?xùn)練時崩潰。

各batch size下BigGAN的IS（越高越好）和FID（越低越好）

之后，他們又把神經(jīng)網(wǎng)絡(luò)每一層的通道數(shù)在原有基礎(chǔ)上增加了50%，這時每個神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量也幾乎翻了一倍。當(dāng)BigGAN的參數(shù)數(shù)量是SAGAN的兩倍時，它的IS較后者提高了約21%。對此，他們給出的解釋是，相對于數(shù)據(jù)集的復(fù)雜性，模型的容量增加了。而增加神經(jīng)網(wǎng)絡(luò)深度不會產(chǎn)生相似效果，反而會降低最終性能。

考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權(quán)重，他們不再為每個嵌入分別設(shè)置一個層，而是使用了一個共享嵌入，由它投影到每一層。這降低了計算和存儲成本，并把訓(xùn)練速度提高了37%。同時，他們使用了分層潛在空間的變體，把噪聲向量z饋送進生成器的多個層，直接影響不同分辨率和層次結(jié)構(gòu)級別的特征。

(a)常規(guī)生成器架構(gòu)；(b)生成器中的殘差塊

生成效果

BigGAN生成的各個類別的圖像

BigGAN生成的256×256的圖像

BigGAN生成的512×512的圖像

上面是論文呈現(xiàn)的一些生成圖像。雖然其他GAN也能精選一些不錯的圖，但對比細節(jié)，BigGAN在質(zhì)地、光影、外形等方面的表現(xiàn)都優(yōu)于以往成果。而且就SAGAN強調(diào)的腿部生成效果來看，上圖中公雞的腿不突兀、更自然，和真實圖像難以區(qū)分。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100713
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1083

瀏覽量
40449
GaN

GaN

+關(guān)注

關(guān)注
19

文章
1933

瀏覽量
73286

原文標(biāo)題：DeepMind：從52.52到166.3，圖像生成再現(xiàn)巨大突破

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于擴散模型的圖像生成過程

近年來，擴散模型在文本到圖像生成方面取得了巨大的成功，實現(xiàn)了更高圖像生成質(zhì)量，提高了推理性能，也可以激發(fā)擴展創(chuàng)作靈感。不過僅憑文本來控制

發(fā)表于 07-17 11:00 ?2708次閱讀

基于擴散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

低質(zhì)量圖像的生成與增強的區(qū)別圖像生成領(lǐng)域中存在的難點

1. 論文信息 ? 2. 引言 ? 這篇論文的研究背景是圖像生成領(lǐng)域中存在的一個難點 - 如何從低質(zhì)量的

發(fā)表于 08-03 15:36 ?1616次閱讀

關(guān)于使用LabVIEW生成彩色圖像的問題

我手里目前有一幅圖像的數(shù)據(jù)（附件），是RGB565格式的，用兩個字節(jié)表示一個像素點，現(xiàn)在我想在LabVIEW上通過這些數(shù)據(jù)，生成

發(fā)表于 11-12 16:33

總結(jié)可微圖像參數(shù)表示的最新進展

可微圖像參數(shù)表示邀請我們提出了這樣一個問題：“反向傳播通過的是什么樣的圖像生成過程？”答案是相當(dāng)多樣的過程，其中

發(fā)表于 08-16 09:19 ?3807次閱讀

圖像生成領(lǐng)域的一個巨大進展,BigGAN的效果真的有那么好嗎？

因此，如果快速瀏覽BigGAN生成的一系列圖像，我們能從中發(fā)現(xiàn)不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時都遵循了從數(shù)據(jù)集中學(xué)到的構(gòu)圖和光影，但當(dāng)這些來自不同樣本的素材雜糅到

發(fā)表于 11-21 09:05 ?6612次閱讀

一種全新的遙感圖像描述生成方法

遙感圖像描述生成是同時涉及計算機視覺和自然語言處理領(lǐng)域的熱門研究話題，其主要工作是對于給定的圖像自動地生成

發(fā)表于 04-20 11:21 ?2次下載

一種基于改進的DCGAN生成SAR圖像的方法

的方法。為測試和驗證多個同類圖像識別軟件，并進行擇優(yōu)，需要自行設(shè)計不同于訓(xùn)練用的圖像來對測軟件進行測試。此方法可以為擇優(yōu)測試提供一個公平的基準(zhǔn)測試集。實驗分別使用原 DCGAN模型和改

發(fā)表于 04-23 11:01 ?21次下載

基于生成式對抗網(wǎng)絡(luò)的圖像補全方法

圖像補全是數(shù)字圖像處理領(lǐng)域的重要研究方向，具有廣闊的應(yīng)用前景。提出了一種基于生成式對抗網(wǎng)絡(luò)（GAN）的圖

發(fā)表于 05-19 14:38 ?14次下載

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法

圖像描述，即利用電腦自動描述圖像的語義內(nèi)容一直是計算機視覺領(lǐng)域的一項重要研究任務(wù)。盡管使用卷積神經(jīng)網(wǎng)絡(luò)（connal neural netw

發(fā)表于 06-03 14:45 ?41次下載

KOALA人工智能圖像生成模型問世

近日，韓國科學(xué)團隊宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型，該模型在速度和質(zhì)量上均實現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片，同時大幅降低了對硬件的需求，為圖

發(fā)表于 03-05 10:46 ?780次閱讀

生成式AI的基本原理和應(yīng)用領(lǐng)域

復(fù)雜性和創(chuàng)新性的內(nèi)容的技術(shù)。這種技術(shù)不僅限于文本生成，還廣泛應(yīng)用于圖像、音頻、視頻等多個領(lǐng)域。本文將詳細探討生成式AI的原理、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域

發(fā)表于 07-04 11:50 ?1432次閱讀

Freepik攜手Magnific AI推出AI圖像生成器

近日，設(shè)計資源巨頭Freepik攜手Magnific AI，共同推出了革命性的AI圖像生成器——Freepik Mystic，這一里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作

發(fā)表于 08-30 16:23 ?1127次閱讀

AI圖像生成公司Midjourney宣布進軍硬件領(lǐng)域

AI圖像生成領(lǐng)域的佼佼者Midjourney近日宣布了一項重大戰(zhàn)略調(diào)整，正式進軍硬件領(lǐng)域，標(biāo)志著這家以創(chuàng)新聞名的公司在技術(shù)探索上邁出了新的步

發(fā)表于 08-30 16:24 ?982次閱讀

AI大模型的最新研究進展

AI大模型的最新研究進展體現(xiàn)在多個方面，以下是對其最新進展的介紹：一、技術(shù)創(chuàng)新與突破生成式AI技術(shù)的爆發(fā) ：生成式AI技術(shù)正在迅速發(fā)展

發(fā)表于 10-23 15:19 ?409次閱讀

AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)

處理和計算機視覺等領(lǐng)域的快速發(fā)展，AIGC技術(shù)已經(jīng)成為內(nèi)容創(chuàng)作和分發(fā)領(lǐng)域的一個重要趨勢。 AIGC生成內(nèi)容的優(yōu)勢 1. 提高內(nèi)容生產(chǎn)的效率

發(fā)表于 10-25 15:36 ?462次閱讀

RM新时代网站-首页

搜索歷史

圖像生成領(lǐng)域的一個巨大進展：SAGAN

評論

基于擴散模型的圖像生成過程

低質(zhì)量圖像的生成與增強的區(qū)別圖像生成領(lǐng)域中存在的難點

關(guān)于使用LabVIEW生成彩色圖像的問題

總結(jié)可微圖像參數(shù)表示的最新進展

圖像生成領(lǐng)域的一個巨大進展,BigGAN的效果真的有那么好嗎？

一種全新的遙感圖像描述生成方法

一種基于改進的DCGAN生成SAR圖像的方法

基于生成式對抗網(wǎng)絡(luò)的圖像補全方法

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法

KOALA人工智能圖像生成模型問世

生成式AI的基本原理和應(yīng)用領(lǐng)域

Freepik攜手Magnific AI推出AI圖像生成器

AI圖像生成公司Midjourney宣布進軍硬件領(lǐng)域

AI大模型的最新研究進展

AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)