RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌新作UFOGen:通過擴(kuò)散GAN實(shí)現(xiàn)大規(guī)模文本到圖像生成

CVer ? 來源:機(jī)器之心 ? 2023-11-21 16:02 ? 次閱讀

最近一年來,以 Stable Diffusion 為代表的一系列文生圖擴(kuò)散模型徹底改變了視覺創(chuàng)作領(lǐng)域。數(shù)不清的用戶通過擴(kuò)散模型產(chǎn)生的圖片提升生產(chǎn)力。但是,擴(kuò)散模型的生成速度是一個(gè)老生常談的問題。因?yàn)榻翟肽P鸵蕾囉诙嗖浇翟雭碇饾u將初始的高斯噪音變?yōu)閳D片,因此需要對網(wǎng)絡(luò)多次計(jì)算,導(dǎo)致生成速度很慢。這導(dǎo)致大規(guī)模的文生圖擴(kuò)散模型對一些注重實(shí)時(shí)性,互動性的應(yīng)用非常不友好。隨著一系列技術(shù)的提出,從擴(kuò)散模型中采樣所需的步數(shù)已經(jīng)從最初的幾百步,到幾十步,甚至只需要 4-8 步。

最近,來自谷歌的研究團(tuán)隊(duì)提出了UFOGen 模型,一種能極速采樣的擴(kuò)散模型變種。通過論文提出的方法對 Stable Diffusion 進(jìn)行微調(diào),UFOGen 只需要一步就能生成高質(zhì)量的圖片。與此同時(shí),Stable Diffusion 的下游應(yīng)用,比如圖生圖,ControlNet 等能力也能得到保留。

85d2e598-8842-11ee-939d-92fbcf53809c.png

論文:https://arxiv.org/abs/2311.09257

從下圖可以看到,UFOGen 只需一步即可生成高質(zhì)量,多樣的圖片。

85dd747c-8842-11ee-939d-92fbcf53809c.png

提升擴(kuò)散模型的生成速度并不是一個(gè)新的研究方向。之前關(guān)于這方面的研究主要集中在兩個(gè)方向。一個(gè)方向是設(shè)計(jì)更高效的數(shù)值計(jì)算方法,以求能達(dá)到利用更少的離散步數(shù)求解擴(kuò)散模型的采樣 ODE 的目的。比如清華的朱軍團(tuán)隊(duì)提出的 DPM 系列數(shù)值求解器,被驗(yàn)證在 Stable Diffusion 上非常有效,能顯著地把求解步數(shù)從 DDIM 默認(rèn)的 50 步降到 20 步以內(nèi)。另一個(gè)方向是利用知識蒸餾的方法,將模型的基于 ODE 的采樣路徑壓縮到更小的步數(shù)。這個(gè)方向的例子是 CVPR2023 最佳論文候選之一的 Guided distillation,以及最近大火的 Latent Consistency Model (LCM)。尤其是 LCM,通過對一致性目標(biāo)進(jìn)行蒸餾,能夠?qū)⒉蓸硬綌?shù)降到只需 4 步,由此催生了不少實(shí)時(shí)生成的應(yīng)用。

然而,谷歌的研究團(tuán)隊(duì)在 UFOGen 模型中并沒有跟隨以上大方向,而是另辟蹊徑,利用了一年多前提出的擴(kuò)散模型和 GAN 的混合模型思路。他們認(rèn)為前面提到的基于 ODE 的采樣和蒸餾有其根本的局限性,很難將采樣步數(shù)壓縮到極限。因此想實(shí)現(xiàn)一步生成的目標(biāo),需要打開新的思路。

擴(kuò)散模型和 GAN 的混合模型最早是英偉達(dá)的研究團(tuán)隊(duì)在 ICLR 2022 上提出的 DDGAN(《Tackling the Generative Learning Trilemma with Denoising Diffusion GANs》)。其靈感來自于普通擴(kuò)散模型對降噪分布進(jìn)行高斯假設(shè)的根本缺陷。簡單來說,擴(kuò)散模型假設(shè)其降噪分布(給定一個(gè)加了噪音的樣本,對噪音含量更少的樣本的條件分布)是一個(gè)簡單的高斯分布。然而,隨機(jī)微分方程理論證明這樣的假設(shè)只在降噪步長趨于 0 的時(shí)候成立,因此擴(kuò)散模型需要大量重復(fù)的降噪步數(shù)來保證小的降噪步長,導(dǎo)致很慢的生成速度。

DDGAN 提出拋棄降噪分布的高斯假設(shè),而是用一個(gè)帶條件的 GAN 來模擬這個(gè)降噪分布。因?yàn)?GAN 具有極強(qiáng)的表示能力,能模擬復(fù)雜的分布,所以可以取較大的降噪步長來達(dá)到減少步數(shù)的目的。然而,DDGAN 將擴(kuò)散模型穩(wěn)定的重構(gòu)訓(xùn)練目標(biāo)變成了 GAN 的訓(xùn)練目標(biāo),很容易造成訓(xùn)練不穩(wěn)定,從而難以延伸到更復(fù)雜的任務(wù)。在 NeurIPS 2023 上,和創(chuàng)造 UGOGen 的同樣的谷歌研究團(tuán)隊(duì)提出了 SIDDM(論文標(biāo)題 Semi-Implicit Denoising Diffusion Models),將重構(gòu)目標(biāo)函數(shù)重新引入了 DDGAN 的訓(xùn)練目標(biāo),使訓(xùn)練的穩(wěn)定性和生成質(zhì)量都相比于 DDGAN 大幅提高。

SIDDM 作為 UFOGen 的前身,只需要 4 步就能在 CIFAR-10, ImageNet 等研究數(shù)據(jù)集上生成高質(zhì)量的圖片。但是SIDDM 有兩個(gè)問題需要解決:首先,它不能做到理想狀況的一步生成;其次,將其擴(kuò)展到更受關(guān)注的文生圖領(lǐng)域并不簡單。為此,谷歌的研究團(tuán)隊(duì)提出了 UFOGen,解決這兩個(gè)問題。

具體來說,對于問題一,通過簡單的數(shù)學(xué)分析,該團(tuán)隊(duì)發(fā)現(xiàn)通過改變生成器的參數(shù)化方式,以及改變重構(gòu)損失函數(shù)計(jì)算的計(jì)算方式,理論上模型可以實(shí)現(xiàn)一步生成。對于問題二,該團(tuán)隊(duì)提出利用已有的 Stable Diffusion 模型進(jìn)行初始化來讓 UFOGen 模型更快更好的擴(kuò)展到文生圖任務(wù)上。值得注意的是,SIDDM 就已經(jīng)提出讓生成器和判別器都采用 UNet 架構(gòu),因此基于該設(shè)計(jì),UFOGen 的生成器和判別器都是由 Stable Diffusion 模型初始化的。這樣做可以最大限度地利用 Stable Diffusion 的內(nèi)部信息,尤其是關(guān)于圖片和文字的關(guān)系的信息。這樣的信息很難通過對抗學(xué)習(xí)來獲得。訓(xùn)練算法和圖示見下。

86592f04-8842-11ee-939d-92fbcf53809c.png

86647530-8842-11ee-939d-92fbcf53809c.png

值得注意的是,在這之前也有一些利用 GAN 做文生圖的工作,比如英偉達(dá)的 StyleGAN-T,Adobe 的 GigaGAN,都是將 StyleGAN 的基本架構(gòu)擴(kuò)展到更大的規(guī)模,從而也能一步文生圖。UFOGen 的作者指出,比起之前基于 GAN 的工作,除了生成質(zhì)量外,UFOGen 還有幾點(diǎn)優(yōu)勢:

1. 純粹的 GAN 訓(xùn)練非常不穩(wěn)定,尤其是對文生圖任務(wù)來說,判別器不但需要判別圖片的紋理,還需要理解圖片和文字的匹配程度,而這是十分困難的任務(wù),尤其在訓(xùn)練早期。因此,之前的 GAN 模型比如 GigaGAN,引入大量的輔助 loss 來幫助訓(xùn)練,這使得訓(xùn)練和調(diào)參變得異常困難。UFOGen 因?yàn)橛兄貥?gòu)損失,GAN 在這里起到輔助作用,因此訓(xùn)練非常穩(wěn)定。

2. 直接從頭開始訓(xùn)練 GAN 除了不穩(wěn)定還異常昂貴,尤其是在文生圖這樣需要大量數(shù)據(jù)和訓(xùn)練步數(shù)的任務(wù)下。因?yàn)樾枰瑫r(shí)更新兩組參數(shù),GAN 的訓(xùn)練比擴(kuò)散模型來說消耗的時(shí)間和內(nèi)存都更大。UFOGen 的創(chuàng)新設(shè)計(jì)能從 Stable Diffusion 中初始化參數(shù),大大節(jié)約了訓(xùn)練時(shí)間。通常收斂只需要幾萬步訓(xùn)練。

3. 文生圖擴(kuò)散模型的一大魅力在于能適用于其他任務(wù),包括不需要微調(diào)的應(yīng)用比如圖生圖,已經(jīng)需要微調(diào)的應(yīng)用比如可控生成。之前的 GAN 模型很難擴(kuò)展到這些下游任務(wù),因?yàn)槲⒄{(diào) GAN 一直是個(gè)難題。相反,UFOGen 擁有擴(kuò)散模型的框架,因此能更簡單地應(yīng)用到這些任務(wù)上。下圖展示了 UFOGen 的圖生圖以及可控生成的例子,注意這些生成也只需要一步采樣。

86710886-8842-11ee-939d-92fbcf53809c.png

實(shí)驗(yàn)表明,UFOGen 只需一步采樣便可以生成高質(zhì)量的,符合文字描述的圖片。在和近期提出的針對擴(kuò)散模型的高速采樣方法的對比中(包括 Instaflow,以及大火的 LCM),UFOGen 展示出了很強(qiáng)的競爭力。甚至和 50 步采樣的 Stable Diffusion 相比,UFOGen 生成的樣本在觀感上也沒有表現(xiàn)得更弱。下面是一些對比結(jié)果:

869ba910-8842-11ee-939d-92fbcf53809c.png

總結(jié)

通過提升現(xiàn)有的擴(kuò)散模型和 GAN 的混合模型,谷歌團(tuán)隊(duì)提出了強(qiáng)大的能實(shí)現(xiàn)一步文生圖的 UFOGen 模型。該模型可以由 Stable Diffusion 微調(diào)而來,在保證一步文生圖能力的同時(shí),還能適用于不同的下游應(yīng)用。作為實(shí)現(xiàn)超快速文本到圖像合成的早期工作之一,UFOGen 為高效率生成模型領(lǐng)域開啟了一條新道路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1933

    瀏覽量

    73286
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    315

    瀏覽量

    21002
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6892

原文標(biāo)題:谷歌新作UFOGen:通過擴(kuò)散GAN實(shí)現(xiàn)大規(guī)模文本到圖像生成

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過程

    近年來,擴(kuò)散模型在文本圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高
    的頭像 發(fā)表于 07-17 11:00 ?2708次閱讀
    基于<b class='flag-5'>擴(kuò)散</b>模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    大規(guī)模MIMO的性能

    軌跡產(chǎn)生的容量斜坡仍然比需求線平坦。面對此挑戰(zhàn),3GPP 標(biāo)準(zhǔn)實(shí)體近來提出了數(shù)據(jù)容量“2020 年增長1000 倍”的目標(biāo),以滿足演進(jìn)性或革命性創(chuàng)意的需要。這種概念要求基站部署極大規(guī)模的天線陣
    發(fā)表于 07-17 07:54

    圖像生成對抗生成網(wǎng)絡(luò)gan_GAN生成汽車圖像 精選資料推薦

    圖像生成對抗生成網(wǎng)絡(luò)ganHello there! This is my story of making a GAN that would generate images of cars
    發(fā)表于 08-31 06:48

    一個(gè)benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集上的OOD檢測

    操作,感知的環(huán)境類別也更多。因此,針對大規(guī)模圖像分類任務(wù)的OOD檢測算法的開發(fā)和評估存在一個(gè)關(guān)鍵的gap。本文首先志在提出一個(gè)benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集上的OOD檢測。本文指出
    發(fā)表于 08-31 15:11

    必讀!生成對抗網(wǎng)絡(luò)GAN論文TOP 10

    處理的CelebA-HQ 數(shù)據(jù)集,實(shí)現(xiàn)了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩(wěn)定了訓(xùn)練,GAN 生成
    的頭像 發(fā)表于 03-20 09:02 ?6544次閱讀
    必讀!<b class='flag-5'>生成</b>對抗網(wǎng)絡(luò)<b class='flag-5'>GAN</b>論文TOP 10

    生成對抗網(wǎng)絡(luò)GAN論文TOP 10,幫助你理解最先進(jìn)技術(shù)的基礎(chǔ)

    處理的CelebA-HQ 數(shù)據(jù)集,實(shí)現(xiàn)了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩(wěn)定了訓(xùn)練,GAN 生成
    的頭像 發(fā)表于 03-20 15:16 ?8827次閱讀
    <b class='flag-5'>生成</b>對抗網(wǎng)絡(luò)<b class='flag-5'>GAN</b>論文TOP 10,幫助你理解最先進(jìn)技術(shù)的基礎(chǔ)

    如何去解決文本圖像生成的跨模態(tài)對比損失問題?

    文本圖像的自動生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能
    的頭像 發(fā)表于 06-15 10:07 ?2727次閱讀
    如何去解決<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態(tài)對比損失問題?

    擴(kuò)散模型在視頻領(lǐng)域表現(xiàn)如何?

    在視頻生成領(lǐng)域,研究的一個(gè)重要里程碑是生成時(shí)間相干的高保真視頻。來自谷歌的研究者通過提出一個(gè)視頻生成擴(kuò)散
    的頭像 發(fā)表于 04-13 10:04 ?1659次閱讀

    蒸餾無分類器指導(dǎo)擴(kuò)散模型的方法

    去噪擴(kuò)散概率模型(DDPM)在圖像生成、音頻合成、分子生成和似然估計(jì)領(lǐng)域都已經(jīng)實(shí)現(xiàn)了 SOTA 性能。同時(shí)無分類器(classifier-f
    的頭像 發(fā)表于 10-13 10:35 ?1197次閱讀

    一種「個(gè)性化」的文本圖像擴(kuò)散模型 DreamBooth

    一些大型文本圖像模型基于用自然語言編寫的文本提示(prompt)實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成
    的頭像 發(fā)表于 11-14 15:11 ?1358次閱讀

    通過Arduino代碼生成器或藍(lán)牙加載圖像文本

    電子發(fā)燒友網(wǎng)站提供《通過Arduino代碼生成器或藍(lán)牙加載圖像文本.zip》資料免費(fèi)下載
    發(fā)表于 11-28 09:17 ?1次下載
    <b class='flag-5'>通過</b>Arduino代碼<b class='flag-5'>生成</b>器或藍(lán)牙加載<b class='flag-5'>圖像</b>和<b class='flag-5'>文本</b>

    谷歌新作Muse:通過掩碼生成Transformer進(jìn)行文本圖像生成

    與建立在級聯(lián)像素空間(pixel-space)擴(kuò)散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse
    的頭像 發(fā)表于 01-09 10:16 ?945次閱讀

    基于文本圖像模型的可控文本視頻生成

    1. 論文信息 2. 引言 ? 大規(guī)模擴(kuò)散模型在文本圖像合成方面取得了巨大的突破,并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這
    的頭像 發(fā)表于 06-14 10:39 ?947次閱讀
    基于<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>圖像</b>模型的可控<b class='flag-5'>文本</b><b class='flag-5'>到</b>視頻<b class='flag-5'>生成</b>

    生成式 AI 研究通過引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦能

    新的研究正在通過一個(gè)文本引導(dǎo)的圖像編輯工具來提升生成式 AI 的創(chuàng)造性潛能。這項(xiàng)創(chuàng)新性的研究提出了一個(gè)使用即插即用擴(kuò)散特征(PnP DFs)
    的頭像 發(fā)表于 07-24 19:30 ?552次閱讀

    Stability AI推出Stable audio的文本音頻生成人工智能平臺

    Stability AI是一家主要以人工智能生成的視覺效果而聞名的公司,它推出了一個(gè)名為Stable audio的文本音頻生成人工智能平臺。 Stable Audio使用
    的頭像 發(fā)表于 09-20 10:20 ?1305次閱讀
    RM新时代网站-首页