RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一張照片生成3D頭像!蘋果新模型擊敗StyleGAN2

OpenCV學(xué)堂 ? 來源:量子位 ? 2023-05-06 10:38 ? 次閱讀

隨便一張照片,就可生成3D頭像。而且光線真實(shí),任意角度可調(diào)。

這是蘋果的最新科技生成框架FaceLit。

fd9facbe-eb53-11ed-90ce-dac502259ad0.gif

正如其名,F(xiàn)aceLit的特色就是可以將人臉“點(diǎn)亮”。

“自帶光環(huán)”的FaceLit在易用性上也不輸同類,甚至更勝一籌——

進(jìn)行3D建模時(shí),需要的照片素材無需專門選擇角度,數(shù)量上也只需一張。

甚至對表情、發(fā)型、眼鏡等元素進(jìn)行調(diào)節(jié)時(shí),也不需要額外素材。

而傳統(tǒng)的頭像合成工具或者需要多張圖片才能工作,或者對照片角度有刁鉆的要求。

正是憑借這一創(chuàng)新,F(xiàn)aceLit獲得了3.5的FID評分,較同類產(chǎn)品直接高出了25%。

改進(jìn)式EG3D合成人像,光線信息單獨(dú)處理

下面就來看一下FaceLit具體是如何實(shí)現(xiàn)頭像合成的。

總的來說,蘋果采用了將人物本體與光線分別處理再進(jìn)行疊加的策略。

早期的三維人像合成工具在轉(zhuǎn)換過程中可能產(chǎn)生形變。

而爆火的NeRF通過將場景拆分成具體因素,提高了3D圖像合成效果,改善了這一問題。

但蘋果團(tuán)隊(duì)認(rèn)為,在可控性方面,NeRF仍存有不足之處。

于是,在EG3D框架的基礎(chǔ)上,蘋果創(chuàng)造了FaceLit的合成模型。

EG3D通過三平面解碼器,賦予了二維卷積神經(jīng)網(wǎng)絡(luò)生成渲染3D模型所需深度參數(shù)的能力。

蘋果團(tuán)隊(duì)對標(biāo)準(zhǔn)的EG3D訓(xùn)練方式進(jìn)行了擴(kuò)展,并將之轉(zhuǎn)化成了FaceLit框架。

00bb8828-eb54-11ed-90ce-dac502259ad0.png

△FaceLit與傳統(tǒng)EG3D渲染流程對比圖

標(biāo)準(zhǔn)的ED3G使用相機(jī)位置p參數(shù)作為基本輸入?yún)?shù)。

在建立GAN2操作時(shí),蘋果在EG3D的基礎(chǔ)上加入了光照參數(shù)l。

00e63d20-eb54-11ed-90ce-dac502259ad0.png

△不同p(左→右)與l(上→下)值下的初始圖像

蘋果選擇了經(jīng)過球形諧波方式簡化后的Phong反射模型作為處理光源的物理基礎(chǔ)。

光照參數(shù)l就是在這一基礎(chǔ)之上獨(dú)立處理得到的。

在自然界中,反射包括鏡面反射和漫反射兩種形式。

014e408c-eb54-11ed-90ce-dac502259ad0.png

△不同鏡面反射率條件下的效果對比

因此,蘋果在ED3G模型中加入了鏡面反射解碼器和漫反射解碼器。

它們替代了可以直接得到顏色c、密度σ數(shù)據(jù)的三平面解碼器。

017c55c6-eb54-11ed-90ce-dac502259ad0.png

△反射解碼器流程示意圖

通過對GAN2產(chǎn)生的數(shù)據(jù)進(jìn)行再次解碼,可以得到鏡面反射率ks和漫反射率kd。

然后再通過兩種反射著色器得到顏色c,密度σ則由漫反射解碼器計(jì)算得出。

最終,F(xiàn)aceLit以與三平面解碼器相同的參數(shù)(c,w,σ)渲染圖像,并進(jìn)行分辨率優(yōu)化。

有的放矢設(shè)計(jì)訓(xùn)練策略,數(shù)據(jù)無需人工標(biāo)注

生成框架已有,那就來到訓(xùn)練階段,其特點(diǎn)在于訓(xùn)練過程中無需人工標(biāo)注。

方法論層面,在訓(xùn)練時(shí),團(tuán)隊(duì)使用了FFHQ、MetFaces和CelebA-HQ數(shù)據(jù)集。

對于不同的數(shù)據(jù)集,蘋果使用了不同的訓(xùn)練方式。

FFHQ包含了7萬余條人臉數(shù)據(jù),其訓(xùn)練分為兩個(gè)階段:先在較低的分辨率下訓(xùn)練,再提高分辨率再次進(jìn)行。

對于包含2萬數(shù)據(jù)量的CelebA-HQ,訓(xùn)練不需要分階段進(jìn)行。

而對于更小的MetFAces,則只需要通過ADA擴(kuò)容的方式,使用預(yù)訓(xùn)練的FFHQ進(jìn)行優(yōu)化調(diào)整即可。

定性地看,訓(xùn)練結(jié)果在機(jī)位、光源和反射高光等方面都有出色的表現(xiàn),圖中的細(xì)節(jié)也有所增強(qiáng)。

01901eb2-eb54-11ed-90ce-dac502259ad0.png

△FaceLit生成的頭像(左側(cè)四列)唇齒部位的細(xì)節(jié)進(jìn)行了明顯重構(gòu)

定量結(jié)果同樣表明,F(xiàn)aceLit在FID、KID等指標(biāo)上均優(yōu)于包括標(biāo)準(zhǔn)EG3D在內(nèi)的傳統(tǒng)生成方式。

在使用FFHQ作為訓(xùn)練集的條件下,各生成方式的表現(xiàn)如下表,不難看出FaceLit擁有最低的FID和KID值。

01f9d1c2-eb54-11ed-90ce-dac502259ad0.png

而相比于英偉達(dá)的StyleGAN2,F(xiàn)aceLit的表現(xiàn)依舊出色:

021608d8-eb54-11ed-90ce-dac502259ad0.png

光線準(zhǔn)確度方面,F(xiàn)aceLit在使用三種不同訓(xùn)練數(shù)據(jù)集的情況下,與人工設(shè)定的標(biāo)準(zhǔn)值平均均方誤差均低于0.01。

023169e8-eb54-11ed-90ce-dac502259ad0.png

網(wǎng)友:人們低估了蘋果AI

消息發(fā)出后,便有網(wǎng)友認(rèn)為“這是對更重磅產(chǎn)品的預(yù)熱”。

更有網(wǎng)友直接推測,F(xiàn)aceLit的出現(xiàn)標(biāo)示著人工智能將進(jìn)軍AR和VR領(lǐng)域,蘋果的混合現(xiàn)實(shí)將最終實(shí)現(xiàn)商用……

0246e052-eb54-11ed-90ce-dac502259ad0.png

也有網(wǎng)友認(rèn)為,F(xiàn)aceLit不會(huì)商用,否則蘋果才不會(huì)以論文的形式發(fā)表。

0264b2e4-eb54-11ed-90ce-dac502259ad0.png

針對FaceLit本身,也有網(wǎng)友表示,除了LLM,其他都是浮云,他們(蘋果)如果不開發(fā)LLM,就沒有未來。

0288f942-eb54-11ed-90ce-dac502259ad0.png

但這位網(wǎng)友同時(shí)也說,蘋果可能已經(jīng)在做(LLM)了。

相應(yīng)的,也有網(wǎng)友稱人們“低估了蘋果在AI領(lǐng)域的深度”。

02a894fa-eb54-11ed-90ce-dac502259ad0.png

所以各位網(wǎng)友對蘋果在AI領(lǐng)域還有什么樣的期待呢?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1141

    瀏覽量

    40713
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3217

    瀏覽量

    48800
  • 3D圖像
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    10722

原文標(biāo)題:一張照片生成3D頭像!蘋果新模型擊敗StyleGAN2,表情光線都能調(diào),網(wǎng)友:要用于MR?

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中國傳動(dòng)網(wǎng):全球首3D打印唱片發(fā)布 歌聲也可3D打印

    KeleOkereke宣布,他將采用Ghassaei的方法為定于下周發(fā)布的首新歌3D打印一張唱片。得知Autodesk的創(chuàng)客空間Pier9新進(jìn)了套Stratasys公司頂級(jí)的
    發(fā)表于 12-17 16:36

    Labview中如何導(dǎo)入3D模型

    Labview中如何導(dǎo)入3D模型,例如3Dmax生成模型。嘗試過用.STL格式導(dǎo)入Labview。但是
    發(fā)表于 01-26 13:13

    關(guān)于利用2D圖片利用投影的方法創(chuàng)建3D模型

    例如攝影機(jī)拍攝3圖,利用第一張和第三構(gòu)建出3D結(jié)構(gòu),測試第二圖中的特征距離該
    發(fā)表于 10-08 22:21

    Altium畫好的PCB文件,怎么刪除3D模型

    一張畫好的PCB文件,元件庫自帶了3D模型,請問下,如果要把整個(gè)PCB文件的3D模型都刪除的話,要怎么刪除?
    發(fā)表于 01-16 11:02

    浩辰3D軟件入門教程:如何比較3D模型

    。浩辰3D軟件不僅提供了完備的零件、裝配、仿真、工程圖、鈑金、焊接等數(shù)十種設(shè)計(jì)模塊,還提供了「比較模型」和「比較圖紙」功能,讓這過程高效且精確。01「比較模型」在
    發(fā)表于 12-15 13:45

    AD的3D模型繪制功能介紹

    共提供了4種類型,類型1常規(guī)型,類型2時(shí)圓柱體模型,類型3是外部模型,類型4是球體模型。我們根
    發(fā)表于 01-14 16:48

    【PHYTEC開發(fā)板試用體驗(yàn)】3 通過開發(fā)板拍一張照片

    還是挺全的,可以看的出來我們的攝影頭驅(qū)動(dòng)已經(jīng)裝好了。3. 應(yīng)用程序3.1 簡介嗯,接下來我們就可以寫個(gè)上層應(yīng)用程序,來驗(yàn)證下這個(gè)驅(qū)動(dòng)是不是好的?功能很簡單,我們按照我們的想法來拍一張照片
    發(fā)表于 06-12 14:43

    視覺處理,2d照片轉(zhuǎn)3d模型

    首先,太陽高度是恒定的。 照片每像素的亮度可求。我們只需要求出太陽與眼睛到物體的夾角就能求出3d模型。 最多就是各種物質(zhì)的反射率。 英偉達(dá)的oir芯片就是做汽車視覺的,大家去取取經(jīng)。 有時(shí),2
    發(fā)表于 05-21 17:13

    一張照片就可識(shí)別用戶身份準(zhǔn)確率達(dá)99.5%

    有研究表明利用一張照片就可以輕松識(shí)別用戶的身份和用戶使用的智能手機(jī)型號(hào),類似于種PRNU指紋。據(jù)悉測試的準(zhǔn)確率達(dá)到了99.5%,這種識(shí)別技術(shù)將會(huì)被用于身份驗(yàn)證。
    發(fā)表于 12-18 10:58 ?1.3w次閱讀

    一張照片進(jìn)行AI“換臉”之后,可以突破刷臉支付的安全系統(tǒng)嗎?

    對于引起廣泛爭議的用戶個(gè)人隱私和支付安全等問題,“ZAO”運(yùn)營團(tuán)隊(duì)稱,“ZAO”所呈現(xiàn)的“換臉”效果,是根據(jù)用戶提交的頭像照片,通過后期技術(shù)疊加所實(shí)現(xiàn)的虛構(gòu)圖像,并沒有采集任何個(gè)人生物識(shí)別特征;刷臉支付安全門檻極高,僅通過一張照片
    的頭像 發(fā)表于 09-12 14:20 ?5292次閱讀

    一張照片揭示了即將推出的Realme X9的纖薄外形

    今天,該品牌在印度和歐洲的首席執(zhí)行官M(fèi)adhav Sheth在其Twitter上分享了一張照片。它揭示了即將推出的Realme X9的纖薄外形。根據(jù)圖片,新的智能手機(jī)將厚達(dá)六信用卡,并堆疊在起。
    的頭像 發(fā)表于 01-27 15:02 ?2452次閱讀

    首個(gè)能根據(jù)單圖像生成較高分辨率3D人臉模型的系統(tǒng)

    分辨率的3D人臉模型。 AvatarMe是首個(gè)能根據(jù)單圖像生成較高分辨率3D人臉模型的系統(tǒng)。在
    的頭像 發(fā)表于 01-27 17:02 ?3620次閱讀
    首個(gè)能根據(jù)單<b class='flag-5'>一</b>圖像<b class='flag-5'>生成</b>較高分辨率<b class='flag-5'>3D</b>人臉<b class='flag-5'>模型</b>的系統(tǒng)

    一張照片定制自己的3D數(shù)字化身?

    。僅需一張圖片甚至句文字描述,RODIN 擴(kuò)散模型就能秒級(jí)生成 3D 化身,讓低成本定制 3D
    的頭像 發(fā)表于 03-22 00:15 ?501次閱讀

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷系列人工制作的過程,如
    的頭像 發(fā)表于 12-20 16:37 ?1589次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian實(shí)現(xiàn)原理

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨(dú)無二的3D角色。7月16日,騰訊旗下大模型
    的頭像 發(fā)表于 07-18 11:39 ?745次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用
    RM新时代网站-首页