編者按:Googel AI的Alexander Mordvintsev、Nicola Pezzotti和Google Brain的Ludwig Schubert、Chris Olah上個(gè)月在Distill發(fā)表論文,總結(jié)了可微圖像參數(shù)表示的最新進(jìn)展。
出人意料,為分類圖像而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)具有出色的生成圖像的能力。DeepDream、風(fēng)格遷移、特征可視化之類的技術(shù)將這一能力作為探索神經(jīng)網(wǎng)絡(luò)內(nèi)部機(jī)制的強(qiáng)力工具,推動(dòng)了一場(chǎng)基于神經(jīng)網(wǎng)絡(luò)的小型藝術(shù)運(yùn)動(dòng)。
這些技術(shù)的機(jī)制大致相同。用于計(jì)算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)具有圖像的豐富內(nèi)在表示。我們可以使用這一表示來描述我們希望圖像具有的性質(zhì)(例如,風(fēng)格),接著優(yōu)化輸入圖像使其具備這些性質(zhì)。這種優(yōu)化之所以可行,是因?yàn)榫W(wǎng)絡(luò)在其輸入上可微:我們可以微調(diào)圖像以更好地?cái)M合所需性質(zhì),接著在梯度下降中迭代應(yīng)用這些微調(diào)。
參數(shù)化輸入圖像的典型方法是將其表示為每個(gè)像素的RGB值,但這不是唯一的方式。只要參數(shù)到圖像的映射是可微的,我們就可以通過梯度下降優(yōu)化其他形式的參數(shù)表示。
橙色虛線表示反向傳播
可微圖像參數(shù)表示邀請(qǐng)我們提出了這樣一個(gè)問題:“反向傳播通過的是什么樣的圖像生成過程?”答案是相當(dāng)多樣的過程,其中一些奇異的可能性,可以創(chuàng)造多種多樣的有趣效果,包括3D神經(jīng)藝術(shù),透明圖像,對(duì)齊內(nèi)插。之前一些使用不同尋常的圖像參數(shù)表示的工作(arXiv:1412.1897、3D對(duì)抗樣本、特征可視化)展示了激動(dòng)人心的結(jié)果——我們覺得概覽下這一領(lǐng)域的進(jìn)展能夠提示更具潛力的方法。
為什么參數(shù)表示很重要?
在保持實(shí)際進(jìn)行優(yōu)化的目標(biāo)函數(shù)不變的情況下,改變優(yōu)化問題的參數(shù)表示就能明顯改變結(jié)果,這看起來比較驚人。參數(shù)表示的選擇為什么具有顯著的效應(yīng),我們認(rèn)為有四個(gè)原因:
改良優(yōu)化—— 轉(zhuǎn)換輸入以降低優(yōu)化問題的難度——這一技術(shù)稱為預(yù)處理(preconditioning)——是優(yōu)化的主要內(nèi)容。
吸引盆—— 通常有多種優(yōu)化方案,對(duì)應(yīng)不同的局部極小值。優(yōu)化過程落入任一特定極小值的概率由其吸引盆控制(吸引盆為在極小值影響下的優(yōu)化區(qū)域)。改變優(yōu)化問題的參數(shù)表示,可以改變吸引盆的大小,從而影響結(jié)果。
額外限制—— 有些參數(shù)表示僅僅覆蓋可能輸入的一個(gè)子集,而不是整個(gè)空間。在這樣的參數(shù)表示上工作的優(yōu)化器仍能找到最小化或最大化目標(biāo)函數(shù)的解,但它們將置于參數(shù)表示的限制之下。
隱式優(yōu)化其他目標(biāo)—— 一個(gè)參數(shù)表示可能內(nèi)部使用和供優(yōu)化的輸出目標(biāo)不同的目標(biāo)。例如,盡管視覺網(wǎng)絡(luò)的自然輸入是RGB圖像,我們可以將其參數(shù)化為3D物體的渲染,讓反向傳播通過其渲染過程。由于3D物體相比圖像自由度更高,我們一般使用隨機(jī)(stochastic)參數(shù)表示,該表示產(chǎn)生不同角度的渲染圖像。
本文剩下的部分將給出具體的例子,體現(xiàn)這類方法的優(yōu)勢(shì),以及它們?nèi)绾螌?dǎo)向驚奇、有趣的視覺效果。
對(duì)齊特征可視化內(nèi)插
特征可視化最常用來可視化單個(gè)神經(jīng)元,但它同樣可以用來可視化神經(jīng)元的組合,以研究它們是如何交互的。
當(dāng)我們想要切實(shí)理解兩個(gè)神經(jīng)元之間的交互時(shí),我們可以更進(jìn)一步,創(chuàng)建多元可視化。某種意義上,這類似于GAN這樣的生成式模型的潛空間內(nèi)插。
不過我們還要應(yīng)對(duì)一項(xiàng)小挑戰(zhàn):特征可視化是隨機(jī)的。即時(shí)我們優(yōu)化的目標(biāo)完全一致,每次可視化的布局仍將不同。通常情形下這不會(huì)導(dǎo)致問題,但是確實(shí)影響解釋性可視化,所得可視化會(huì)沒對(duì)齊:像眼睛這樣的視覺標(biāo)記在每幀的不同位置出現(xiàn)。缺乏對(duì)齊使得比較略微不同的目標(biāo)更加困難,因?yàn)椴季稚系牟町愖畲蟆⒆蠲黠@,蓋過了其他差異。
如何解決這一對(duì)齊問題,使得視覺標(biāo)記不因幀的不同而移動(dòng)。有一些可供嘗試的方法,其中之一是使用共享參數(shù)表示(shared parameterization):每幀參數(shù)化為其自身唯一的參數(shù)表示和一個(gè)共享參數(shù)表示的組合。
通過部分共享幀間的參數(shù)表示,我們鼓勵(lì)所得可視化自然對(duì)齊。從直覺上說,共享參數(shù)表示提供了視覺標(biāo)記放置位置的共有參考,而唯一參數(shù)表示基于內(nèi)插權(quán)重賦予每幀自身的視覺效果。這樣的參數(shù)化并沒有改變目標(biāo),但確實(shí)擴(kuò)大了對(duì)齊可視化的吸引盆。
部分共享的參數(shù)表示擴(kuò)大了對(duì)齊處的吸引盆
配套colab頁(yè)面:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/aligned_interpolation.ipynb
基于非VGG架構(gòu)的風(fēng)格遷移
神經(jīng)風(fēng)格遷移有一個(gè)不解之謎:盡管使用神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)格遷移非常成功,但幾乎所有的風(fēng)格遷移都基于VGG架構(gòu)的變體。這并不是因?yàn)闆]人對(duì)使用其他架構(gòu)進(jìn)行風(fēng)格遷移感興趣,而是因?yàn)樵谄渌軜?gòu)上的嘗試表現(xiàn)一直不好。
人們提出了一些假說,解釋VGG為何比其他模型的表現(xiàn)好這么多。其中一種解釋是VGG的大尺寸使其捕捉了其他模型丟棄的信息。這些無助于分類的額外信息,使得這一模型在風(fēng)格遷移上表現(xiàn)更好。另一種替代假說是其他模型比VGG更激進(jìn)的下采樣導(dǎo)致空間信息的損失。我們懷疑可能有其他因素:大多數(shù)現(xiàn)代的視覺模型,其梯度中都有棋盤效應(yīng)(checkerboard artifacts),這可能加大了優(yōu)化風(fēng)格圖像的難度。
在之前的工作中,我們發(fā)現(xiàn),去相關(guān)性的參數(shù)表示可以顯著改善優(yōu)化。我們發(fā)現(xiàn)這一方法同樣可以改善風(fēng)格遷移,讓我們可以使用原本無法產(chǎn)生有視覺吸引力的風(fēng)格遷移結(jié)果的模型:
左上為風(fēng)格圖像(梵高的《星空》),右上為內(nèi)容圖像(Andyindia拍攝的照片)。下為模型生成的風(fēng)格遷移圖像(最終優(yōu)化結(jié)果)。生成圖像的左半部分為去相關(guān)性空間(Decorrelated Space)優(yōu)化結(jié)果,右半部分為像素空間(Pixel Space)優(yōu)化結(jié)果,兩部分的優(yōu)化目標(biāo)完全一樣,僅僅參數(shù)表示不同。
下面我們稍稍介紹一些細(xì)節(jié)。風(fēng)格遷移涉及三張圖像:內(nèi)容圖像,風(fēng)格圖像,優(yōu)化圖像。這些圖像都傳給CNN,風(fēng)格遷移目標(biāo)則基于這些圖像如何激活CNN的差異。我們唯一進(jìn)行的改動(dòng)是參數(shù)化優(yōu)化圖像的方法。從基于像素參數(shù)化(相鄰像素高度相關(guān))轉(zhuǎn)為基于尺度傅立葉變換參數(shù)化。
我們同時(shí)使用了部分風(fēng)格遷移實(shí)現(xiàn)沒有使用的轉(zhuǎn)換魯棒性。具體實(shí)現(xiàn)見配套的colab頁(yè)面:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/style_transfer_2d.ipynb
復(fù)合模式生成網(wǎng)絡(luò)
到目前為止,我們探索的圖像參數(shù)表示,相對(duì)接近我們通常對(duì)圖像的認(rèn)知,像素或傅立葉成分。本節(jié)將探索使用不同的參數(shù)表示給優(yōu)化過程施加額外限制的可能性。更具體地說,我們將圖像參數(shù)化為神經(jīng)網(wǎng)絡(luò)——復(fù)合模式生成網(wǎng)絡(luò)(Compositional Pattern Producing Network,CPPN)。
CPPN是將(x, y)位置映射到圖像色彩的神經(jīng)網(wǎng)絡(luò):
CPPN可以生成任意分辨率的圖像。CPPN網(wǎng)絡(luò)的參數(shù)——權(quán)重和偏置——決定生成什么樣的圖像。取決于CPPN的架構(gòu),所得圖像中的像素,在一定程度上受到共享相鄰像素顏色的限制。
隨機(jī)參數(shù)可以產(chǎn)生美學(xué)上有趣的圖像,然而,通過學(xué)習(xí)CPPN的參數(shù),我們能生成更有趣的圖像。學(xué)習(xí)CPPN參數(shù)經(jīng)常通過演化達(dá)成(例如,K. Sims、K.O. Stanley、A.M. Nguyen等的工作);這里我們探索了通過反向傳播某個(gè)目標(biāo)函數(shù)(例如特征可視化目標(biāo))學(xué)習(xí)CPPN參數(shù)的可能性。這不難做到,因?yàn)镃PPN網(wǎng)絡(luò)是可微的(和卷積神經(jīng)網(wǎng)絡(luò)一樣)。這就是說,CPPN是一種可微圖像參數(shù)表示——在任何神經(jīng)藝術(shù)或可視化任務(wù)中,CPPN是一個(gè)參數(shù)化圖像的通用工具。
使用基于CPPN的圖像參數(shù)表示,可以給神經(jīng)藝術(shù)加上有趣的藝術(shù)性,隱約讓人聯(lián)想起光繪(light-paintings,運(yùn)用彩色光束、棱鏡、平面鏡創(chuàng)造圖像)。
Stephen Knapp的光繪作品
在偏理論的層面,它們可以看成是對(duì)圖像的組分復(fù)雜性(compositional complexity)的限制。優(yōu)化特征可視化目標(biāo)時(shí),CPPN可以生成獨(dú)具特色的圖像:
選擇的CPPN架構(gòu)對(duì)生成圖像的視覺質(zhì)量影響很大。這里CPPN架構(gòu)不僅包括網(wǎng)絡(luò)的形狀(網(wǎng)絡(luò)層和過濾器的數(shù)量),也包括激活函數(shù)和歸一化。例如,相比較淺的網(wǎng)絡(luò),較深的網(wǎng)絡(luò)生成細(xì)節(jié)上更精細(xì)的圖像。我們鼓勵(lì)讀者通過修改CPPN的架構(gòu)生成不同的圖像。這并不難,只需改動(dòng)配套的colab頁(yè)面中的代碼:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/xy2rgb.ipynb
CPPN生成模式的演化自身就是藝術(shù)品。回到光繪的比喻上來,優(yōu)化過程對(duì)應(yīng)光束方向和形狀的迭代調(diào)整。相比像素參數(shù)表示之類的其他參數(shù)表示,CPPN的迭代變動(dòng)更具全局效應(yīng),因此在優(yōu)化剛開始的時(shí)候,只能看到主要的模式。隨著迭代調(diào)整權(quán)重的進(jìn)行(我們想象中的光束變換位置),出現(xiàn)了精細(xì)的細(xì)節(jié)。
繼續(xù)這一比喻,我們可以創(chuàng)造一種新的動(dòng)畫,從上面的一幅圖像漸變?yōu)榱硪环?。直觀地講,我們從其中一幅光繪開始,然后移動(dòng)光束以創(chuàng)作另一幅不同的光繪。事實(shí)上,這是通過內(nèi)插兩種模式的CPPN表示權(quán)重做到的。給定經(jīng)內(nèi)插替換的CPPN表示,可以生成一組中間幀。像之前一樣,改動(dòng)參數(shù)具有全局效應(yīng),能夠生成具有視覺吸引力的中間幀。
這一節(jié)展示了一種不同于標(biāo)準(zhǔn)圖像表示的參數(shù)表示。神經(jīng)網(wǎng)絡(luò)(這里的CPPN),可以用來參數(shù)化為給定目標(biāo)函數(shù)優(yōu)化的圖像。更具體地說,我們結(jié)合了特征可視化目標(biāo)函數(shù)和CPPN參數(shù)表示,以創(chuàng)建視覺風(fēng)格獨(dú)特的無窮分辨率圖像。
生成半透明模式
本文介紹的神經(jīng)網(wǎng)絡(luò)都接受二維RGB圖像作為輸入。有沒有可能使用同樣的網(wǎng)絡(luò)合成超出這一范圍的圖像?為了做到這一點(diǎn),我們可以讓可微參數(shù)表示定義一系列圖像而不是單張圖像,接著在每個(gè)優(yōu)化步驟中從圖像序列中取樣一張圖像或多張圖像。這很重要,因?yàn)槲覀兗磳⑻剿鞯脑S多優(yōu)化目標(biāo)比傳入網(wǎng)絡(luò)的圖像的自由度更高。
讓我們來看一個(gè)具體的例子,半透明圖像。這些圖像在RGB通道之外,還有一個(gè)編碼透明度的Alpha通道。為了將這樣的圖像傳入在RGB圖像上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),我們需要通過某種方法塌縮Alpha通道。達(dá)成這一點(diǎn)的一種方法是將RGBA圖像覆蓋在一張背景圖像BG之上,這可以應(yīng)用標(biāo)準(zhǔn)的Alpha混合公式:
其中,Ia為圖像I的Alpha通道。
如果我們使用固定的背景圖像,例如全黑圖,透明度將僅僅指示背景直接貢獻(xiàn)優(yōu)化目標(biāo)的像素位置。事實(shí)上,這等價(jià)于優(yōu)化一張RGB圖像,使其在顏色與背景相同的區(qū)域透明!直覺上,我們想要透明區(qū)域?qū)?yīng)于“這一區(qū)域的內(nèi)容可能是任意的”之類的東西。基于這一直覺,我們?cè)诿恳粋€(gè)優(yōu)化步驟使用了不同的隨機(jī)背景。(實(shí)際上,我們同時(shí)嘗試了從真實(shí)圖像取樣以及應(yīng)用不同種類的噪聲。我們發(fā)現(xiàn),只要充分隨機(jī)化,不同的分布并不會(huì)影響最終的優(yōu)化結(jié)果。所以,出于簡(jiǎn)單性,我們使用了平滑2D高斯噪聲。)
默認(rèn)配置下,優(yōu)化半透明圖像將導(dǎo)致圖像變得完全不透明,這樣網(wǎng)絡(luò)總能得到最優(yōu)輸入。為了避免這一問題,我們需要修改目標(biāo),采用一個(gè)鼓勵(lì)部分透明的目標(biāo)函數(shù)。我們發(fā)現(xiàn),對(duì)原目標(biāo)函數(shù)進(jìn)行如下替換很有效:
這一新目標(biāo)函數(shù)自動(dòng)在原目標(biāo)函數(shù)objold和降低透明度均值間尋找平衡。如果圖像變得很透明,它將專注于原本的目標(biāo)。如果圖像變得很不透明,它會(huì)暫時(shí)停止關(guān)注原目標(biāo),專注于降低平均透明度。
半透明圖像優(yōu)化的例子
我們發(fā)現(xiàn),半透明圖像在特征可視化上很有用。特征可視化的目標(biāo)是,通過創(chuàng)建能夠最大化神經(jīng)元激活程度的圖像,理解視覺模型中的神經(jīng)元在找什么。不幸的是,這些可視化無法區(qū)分圖像的哪些區(qū)域?qū)δ硞€(gè)神經(jīng)元的激活影響很大,哪些區(qū)域的影響甚少。
理想情況下,我們想要找到一種方法,讓可視化可以區(qū)分重要性——一種自然的方式,是將不重要的部分透明化。因此,如果我們優(yōu)化一張帶Alpha通道的圖像,并鼓勵(lì)整張圖像變得透明,那么在特征可視化目標(biāo)看來不重要的圖像區(qū)域應(yīng)該變得透明。
配套colab頁(yè)面:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/transparency.ipynb
基于3D渲染的高效紋理優(yōu)化
前一節(jié)使用針對(duì)RGB圖像的神經(jīng)網(wǎng)絡(luò)創(chuàng)建半透明RGBA圖像??刹豢梢愿M(jìn)一步?這一節(jié)將探索為特征可視化目標(biāo)優(yōu)化3D物體。我們使用3D渲染過程轉(zhuǎn)換出2D RGB圖像,傳入神經(jīng)網(wǎng)絡(luò),然后反向傳播渲染過程以優(yōu)化3D物體的紋理。
我們的技術(shù)類似Athalye等用來創(chuàng)建真實(shí)世界對(duì)抗樣本的方法,依賴反向傳播目標(biāo)函數(shù)至隨機(jī)取樣的3D模型視圖。和現(xiàn)有的藝術(shù)紋理生成方法(arXiv:1711.07566)不同,我們并不在反向傳播過程中修改物體的幾何性質(zhì)。通過拆分紋理生成和頂點(diǎn)定位,我們可以為復(fù)雜物體創(chuàng)建細(xì)節(jié)豐富的紋理。
在描述我們的方法之前,首先需要了解3D物體是如何儲(chǔ)存,如何在屏幕上渲染的。物體的幾何性質(zhì)通常保存為一組相連的三角形,這稱為三角網(wǎng)格(triangle mesh),簡(jiǎn)稱網(wǎng)格。之后在網(wǎng)格上繪制紋理(texture)以渲染逼真的模型。紋理保存為一張圖像,通過UV映射(UV-mapping)應(yīng)用于模型。網(wǎng)格中的每個(gè)頂點(diǎn)ci關(guān)聯(lián)紋理圖像中的一個(gè)坐標(biāo)(ui, vi)。渲染模型(即在屏幕上繪制)時(shí),給每個(gè)三角形貼上由頂點(diǎn)坐標(biāo)(u, v)界定的圖像區(qū)域。
一個(gè)簡(jiǎn)單粗暴的創(chuàng)建3D物體紋理的方法是照常優(yōu)化圖像,并將其作為紋理貼到物體上。然而,這一方法生成的紋理沒有考慮UV映射,因此會(huì)在渲染好的物體上造成多種視覺效應(yīng),包括接縫(seams)、隨機(jī)朝向、縮放不一致。
左:直接優(yōu)化;右:基于渲染過程優(yōu)化
從上圖可以看到,左面的圖像出現(xiàn)了接縫、朝向錯(cuò)誤的問題。
將上圖展開為二維紋理表示,能夠更清楚地看到兩者的差別。
我們沒有直接優(yōu)化紋理,而是優(yōu)化3D物體渲染過程中的紋理:
我們首先基于傅立葉參數(shù)表示隨機(jī)初始化紋理。每個(gè)訓(xùn)練迭代取樣一個(gè)隨機(jī)拍攝位置(朝向物體包圍盒的中心),然后渲染貼上紋理的物體為圖像。接著我們反向傳播所需目標(biāo)函數(shù)(神經(jīng)網(wǎng)絡(luò)感興趣的特征)的梯度至渲染圖像。
不過,更新渲染圖像并不對(duì)應(yīng)紋理(我們的優(yōu)化目標(biāo))的更新。因此,我們需要進(jìn)一步傳播變動(dòng)至物體紋理。應(yīng)用逆向UV映射,這很容易實(shí)現(xiàn)。
朝向正確,接縫幾不可見
此外,由于優(yōu)化函數(shù)從物體的幾何性質(zhì)中分離出來,紋理可以使用任意大的分辨率。在下一節(jié)中,我們將看到,如何復(fù)用這一框架,進(jìn)行物體紋理的藝術(shù)風(fēng)格遷移。
配套colab頁(yè)面:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/texture_synth_3d.ipynb
基于3D渲染的紋理風(fēng)格遷移
既然我們已經(jīng)有了一個(gè)高效地反向傳播UV映射紋理的框架,我們可以基于該框架將現(xiàn)有的風(fēng)格遷移技術(shù)應(yīng)用于3D物體。和2D情形類似,我們的目標(biāo)是依據(jù)用戶提供的圖像風(fēng)格重繪原物體的紋理。
和前一節(jié)一樣,我們從隨機(jī)初始化的紋理開始。在每一次迭代中,我們?nèi)右粋€(gè)隨機(jī)視角(同樣朝向物體包圍盒的中心),并渲染兩張圖像:內(nèi)容圖像(content image)(原紋理)和學(xué)習(xí)圖像(learned image)(正優(yōu)化的紋理)。
渲染內(nèi)容圖像和學(xué)習(xí)圖像后,我們基于Gatys等提出的風(fēng)格遷移的目標(biāo)函數(shù)(arXiv:1508.06576)進(jìn)行優(yōu)化,并像前一節(jié)一樣將參數(shù)表示映射回UV映射紋理。迭代此過程,直到混合內(nèi)容和風(fēng)格的目標(biāo)紋理符合要求。
Martín Jario的3D模型骷髏頭骨,風(fēng)格遷移為梵高《星空》
每個(gè)視角獨(dú)立優(yōu)化,迫使優(yōu)化在每個(gè)迭代中嘗試加上所有風(fēng)格元素。例如,如果我們的風(fēng)格圖像是梵高的《星空》,那么每個(gè)視角都會(huì)加上星辰。我們發(fā)現(xiàn),通過引入之前視角的風(fēng)格作為某種“記憶”,能夠得到更滿意的結(jié)果。我們通過這種方式維護(hù)了最近取樣的視圖的平均風(fēng)格表示格拉姆矩陣。在每個(gè)優(yōu)化迭代中,我們基于這些平均矩陣(而不是特定視角的矩陣)計(jì)算風(fēng)格損失。
所得紋理在保持原紋理特性的同時(shí),結(jié)合了所需風(fēng)格的元素。以應(yīng)用梵高《星空》風(fēng)格至Greg Turk和Marc Levoy的Stanford Bunny模型為例:
所得紋理包含了梵高的作品特有的富于韻律和活力的筆觸。然而,盡管風(fēng)格圖像以冷色調(diào)為主,最終得到的紋理卻保留了原紋理的暖色(皮毛的底色為橙色)。更有趣的地方,是不同風(fēng)格遷移下,如何保留兔眼的形態(tài)。例如,當(dāng)風(fēng)格取自梵高的作品時(shí),兔眼轉(zhuǎn)換為類似星辰的漩渦。如果使用的是康丁斯基的作品,兔眼則變?yōu)轭愃蒲劬Φ某橄竽J健?/p>
風(fēng)格圖像為康丁斯基的《白色之上第二號(hào)》
生成的紋理模型易于在流行的3D建模軟件和游戲引擎中使用。作為演示,我們3D打印了其中一項(xiàng)設(shè)計(jì):
風(fēng)格圖像為Fernand Leger的The large one parades on red bottom
配套colab頁(yè)面:
https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/style_transfer_3d.ipynb
結(jié)語(yǔ)
對(duì)富于創(chuàng)意的藝術(shù)家和研究者而言,參數(shù)化優(yōu)化圖像的方法是一個(gè)巨大的空間。這一切并不局限于靜態(tài)圖像,還可以用于生成動(dòng)畫的3D物體!本文探索的可能性僅僅觸及了表面。例如,可以探索擴(kuò)展3D物體紋理優(yōu)化至材質(zhì)和反射率的優(yōu)化——甚至進(jìn)一步優(yōu)化網(wǎng)格頂點(diǎn)的位置,正如Kato等所做的(arXiv:1711.07566)那樣。
本文關(guān)注的是可微圖像參數(shù)表示,因?yàn)樗鼈円子趦?yōu)化,并且覆蓋了廣闊范圍的可能應(yīng)用。不過,基于強(qiáng)化學(xué)習(xí)和演化策略(jmlr/v15/wierstra14a、arXiv:1703.03864),優(yōu)化不可微或部分可微的圖像參數(shù)表示當(dāng)然是可行的。使用不可微的參數(shù)表示可以為圖像生成和場(chǎng)景生成提供許多激動(dòng)人心的可能性。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100712 -
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40449 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11246
原文標(biāo)題:可微圖像參數(shù)表示
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論