有手就行?把大象 P 轉(zhuǎn)身只需拖動(dòng)鼠標(biāo),華人一作 DragGAN 爆火_當(dāng)前觀點(diǎn)

        2023-05-20 13:28:17來(lái)源:ZAKER科技  

        機(jī)器之心報(bào)道

        編輯:蛋醬、小舟


        (相關(guān)資料圖)

        如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了。

        在圖像生成領(lǐng)域,以 Stable Diffusion 為代表的擴(kuò)散模型已然成為當(dāng)前占據(jù)主導(dǎo)地位的范式。但擴(kuò)散模型依賴于迭代推理,這是一把雙刃劍,因?yàn)榈椒梢詫?shí)現(xiàn)具有簡(jiǎn)單目標(biāo)的穩(wěn)定訓(xùn)練,但推理過(guò)程需要高昂的計(jì)算成本。

        在 Stable Diffusion 之前,生成對(duì)抗網(wǎng)絡(luò)(GAN)是圖像生成模型中常用的基礎(chǔ)架構(gòu)。相比于擴(kuò)散模型,GAN 通過(guò)單個(gè)前向傳遞生成圖像,因此本質(zhì)上是更高效的。但由于訓(xùn)練過(guò)程的不穩(wěn)定性,擴(kuò)展 GAN 需要仔細(xì)調(diào)整網(wǎng)絡(luò)架構(gòu)和訓(xùn)練因素。因此,GAN 方法很難擴(kuò)展到非常復(fù)雜的數(shù)據(jù)集上,在實(shí)際應(yīng)用方面,擴(kuò)散模型比 GAN 方法更易于控制,這是 GAN 式微的原因之一。

        當(dāng)前,GAN 主要是通過(guò)手動(dòng)注釋訓(xùn)練數(shù)據(jù)或先驗(yàn) 3D 模型來(lái)保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進(jìn) GAN 的嘗試。

        最近,來(lái)自馬克斯普朗克計(jì)算機(jī)科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶以交互的方式「拖動(dòng)」圖像的任何點(diǎn)精確到達(dá)目標(biāo)點(diǎn)。

        論文鏈接:https://arxiv.org/abs/2305.10973

        項(xiàng)目主頁(yè):https://vcai.mpi-inf.mpg.de/projects/DragGAN/

        這種全新的控制方法非常靈活、強(qiáng)大且簡(jiǎn)單,有手就行,只需在圖像上「拖動(dòng)」想改變的位置點(diǎn)(操縱點(diǎn)),就能合成你想要的圖像。

        例如,讓獅子「轉(zhuǎn)頭」并「開(kāi)口」:

        還能輕松讓小貓 wink:再比如,你可以通過(guò)拖動(dòng)操縱點(diǎn),讓單手插兜的模特把手拿出來(lái)、改變站立姿勢(shì)、短袖改長(zhǎng)袖。看上去就像是同一個(gè)模特重新拍攝了新照片:

        如果你也接到了「把大象轉(zhuǎn)個(gè)身」的 P 圖需求,不妨試試:

        整個(gè)圖像變換的過(guò)程就主打一個(gè)「簡(jiǎn)單靈活」,圖像想怎么變就怎么變,因此有網(wǎng)友預(yù)言:「PS 似乎要過(guò)時(shí)了」。也有人覺(jué)得,這個(gè)方法也可能會(huì)成為未來(lái) PS 的一部分。總之,觀感就是一句話:「看到這個(gè),我腦袋都炸了。」當(dāng)大家都以為 GAN 這個(gè)方向從此消沉的時(shí)候,總會(huì)出現(xiàn)讓我們眼前一亮的作品:這篇神奇的論文,已經(jīng)入選了 SIGGRAPH 2023。研究者表示,代碼將于六月開(kāi)源。那么,DragGAN 是如何做到強(qiáng)大又靈活的?我們來(lái)看一下該研究的技術(shù)方法。

        方法概述

        該研究提出的 DragGAN 主要由兩個(gè)部分組成,包括:

        基于特征的運(yùn)動(dòng)監(jiān)督,驅(qū)動(dòng)圖像中的操縱點(diǎn)向目標(biāo)位置移動(dòng);

        一種借助判別型 GAN 特征的操縱點(diǎn)跟蹤方法,以控制點(diǎn)的位置。

        DragGAN 能夠通過(guò)精確控制像素的位置對(duì)圖像進(jìn)行改變,可處理的圖像類型包括動(dòng)物、汽車、人類、風(fēng)景等,涵蓋大量物體姿態(tài)、形狀、表情和布局,并且用戶的操作方法簡(jiǎn)單通用。

        GAN 有一個(gè)很大的優(yōu)勢(shì)是特征空間具有足夠的判別力,可以實(shí)現(xiàn)運(yùn)動(dòng)監(jiān)督(motion supervision)和精確的點(diǎn)跟蹤。具體來(lái)說(shuō),運(yùn)動(dòng)監(jiān)督是通過(guò)優(yōu)化潛在代碼的移位特征 patch 損失來(lái)實(shí)現(xiàn)的。每個(gè)優(yōu)化步驟都會(huì)導(dǎo)致操縱點(diǎn)更接近目標(biāo),然后通過(guò)特征空間中的最近鄰搜索來(lái)執(zhí)行點(diǎn)跟蹤。重復(fù)此優(yōu)化過(guò)程,直到操縱點(diǎn)達(dá)到目標(biāo)。

        DragGAN 還允許用戶有選擇地繪制感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯。由于 DragGAN 不依賴任何額外的網(wǎng)絡(luò),因此它實(shí)現(xiàn)了高效的操作,大多數(shù)情況下在單個(gè) RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進(jìn)行實(shí)時(shí)的交互式編輯,用戶可以對(duì)圖像進(jìn)行多次變換更改,直到獲得所需輸出。

        如下圖所示,DragGAN 可以有效地將用戶定義的操縱點(diǎn)移動(dòng)到目標(biāo)點(diǎn),在許多目標(biāo)類別中實(shí)現(xiàn)不同的操縱效果。與傳統(tǒng)的形變方法不同的是,本文的變形是在 GAN 學(xué)習(xí)的圖像流形上進(jìn)行的,它傾向于遵從底層的目標(biāo)結(jié)構(gòu),而不是簡(jiǎn)單地應(yīng)用扭曲。例如,該方法可以生成原本看不見(jiàn)的內(nèi)容,如獅子嘴里的牙齒,并且可以按照物體的剛性進(jìn)行變形,如馬腿的彎曲。研究者還開(kāi)發(fā)了一個(gè) GUI,供用戶通過(guò)簡(jiǎn)單地點(diǎn)擊圖像來(lái)交互地進(jìn)行操作。

        此外,通過(guò)與 GAN 反轉(zhuǎn)技術(shù)相結(jié)合,本文方法還可以作為一個(gè)用于真實(shí)圖像編輯的工具。

        一個(gè)非常實(shí)用的用途是,即使合影中某些同學(xué)的表情管理不過(guò)關(guān),你也可以為 Ta 換上自信的笑容:

        順便提一句,這張照片正是本篇論文的一作潘新鋼,2021 年在香港中文大學(xué)多媒體實(shí)驗(yàn)室獲得博士學(xué)位,師從湯曉鷗教授。目前是馬克斯普朗克信息學(xué)研究所博士后,并將從 2023 年 6 月開(kāi)始擔(dān)任南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 MMLab 的任助理教授。

        這項(xiàng)工作旨在為 GAN 開(kāi)發(fā)一種交互式的圖像操作方法,用戶只需要點(diǎn)擊圖像來(lái)定義一些對(duì)(操縱點(diǎn),目標(biāo)點(diǎn)),并驅(qū)動(dòng)操縱點(diǎn)到達(dá)其對(duì)應(yīng)的目標(biāo)點(diǎn)。

        這項(xiàng)研究基于 StyleGAN2,基本架構(gòu)如下:

        在 StyleGAN2 架構(gòu)中,一個(gè) 512 維的潛在代碼∈ N(0,)通過(guò)一個(gè)映射網(wǎng)絡(luò)被映射到一個(gè)中間潛在代碼∈ R 512 中。的空間通常被稱為 W。然后,被送到生成器,產(chǎn)生輸出圖像 I = ( ) 。在這個(gè)過(guò)程中,被復(fù)制了幾次,并被送到發(fā)生器的不同層,以控制不同的屬性水平。另外,也可以對(duì)不同層使用不同的,在這種情況下,輸入將是,其中是層數(shù)。這種不太受約束的 W^+ 空間被證明是更有表現(xiàn)力的。由于生成器學(xué)習(xí)了從低維潛在空間到高維圖像空間的映射,它可以被看作是對(duì)圖像流形的建模。

        實(shí)驗(yàn)

        為了展示 DragGAN 在圖像處理方面的強(qiáng)大能力,該研究展開(kāi)了定性實(shí)驗(yàn)、定量實(shí)驗(yàn)和消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明 DragGAN 在圖像處理和點(diǎn)跟蹤任務(wù)中均優(yōu)于已有方法。

        定性評(píng)估

        圖 4 是本文方法和 UserControllableLT 之間的定性比較,展示了幾個(gè)不同物體類別和用戶輸入的圖像操縱結(jié)果。本文方法能夠準(zhǔn)確地移動(dòng)操縱點(diǎn)以到達(dá)目標(biāo)點(diǎn),實(shí)現(xiàn)了多樣化和自然的操縱效果,如改變動(dòng)物的姿勢(shì)、汽車形狀和景觀布局。相比之下,UserControllableLT 不能忠實(shí)地將操縱點(diǎn)移動(dòng)到目標(biāo)點(diǎn)上,往往會(huì)導(dǎo)致圖像中出現(xiàn)不想要的變化。

        如圖 10 所示,它也不能像本文方法那樣保持未遮蓋區(qū)域固定不變圖 6 提供了與 PIPs 和 RAFT 之間的比較,本文方法準(zhǔn)確地跟蹤了獅子鼻子上方的操縱點(diǎn),從而成功地將它拖到了目標(biāo)位置。真實(shí)圖像編輯。使用 GAN inversion 技術(shù),將真實(shí)圖像嵌入 StyleGAN 的潛空間,本文方法也可以用來(lái)操作真實(shí)圖像。

        圖 5 顯示了一個(gè)例子,將 PTI inversion 應(yīng)用于真實(shí)圖像,然后進(jìn)行一系列的操作來(lái)編輯圖像中人臉的姿勢(shì)、頭發(fā)、形狀和表情:

        圖 13 展示了更多的真實(shí)圖像編輯案例:定量評(píng)估

        研究者在兩種設(shè)置中下對(duì)該方法進(jìn)行了定量評(píng)估,包括人臉標(biāo)記點(diǎn)操作和成對(duì)圖像重建。

        人臉標(biāo)記點(diǎn)操作。如表 1 所示,在不同的點(diǎn)數(shù)下,本文方法明顯優(yōu)于 UserControllableLT。特別是,本文方法保留了更好的圖像質(zhì)量,正如表中的 FID 得分所示。

        這種對(duì)比在圖 7 中可以明顯看出來(lái),本文方法打開(kāi)了嘴巴并調(diào)整下巴的形狀以匹配目標(biāo)臉,而 UserControllableLT 未能做到這一點(diǎn)。成對(duì)圖像重建。如表 2 所示,本文方法在不同的目標(biāo)類別中優(yōu)于所有基線。消融實(shí)驗(yàn)

        研究者研究了在運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤中使用某種特征的效果,并報(bào)告了使用不同特征的人臉標(biāo)記點(diǎn)操作的性能(MD)。如表 3 所示,在運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤中,StyleGAN 的第 6 個(gè) block 之后的特征圖表現(xiàn)最好,顯示了分辨率和辨別力之間的最佳平衡。

        表 4 中提供了 _1 的效果。可以看出,性能對(duì) _1 的選擇不是很敏感,而 _1=3 的性能略好。討論

        掩碼的影響。本文方法允許用戶輸入一個(gè)表示可移動(dòng)區(qū)域的二進(jìn)制掩碼,圖 8 展示了它的效果:

        Out-of-distribution 操作。從圖 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以創(chuàng)造出訓(xùn)練圖像分布之外的圖像,例如一個(gè)極度張開(kāi)的嘴和一個(gè)大的車輪。研究者同樣指出了本文方法現(xiàn)存的局限性:盡管有一些推斷能力,其編輯質(zhì)量仍然受到訓(xùn)練數(shù)據(jù)多樣性的影響。如圖 14(a)所示,創(chuàng)建一個(gè)偏離訓(xùn)練分布的人體姿勢(shì)會(huì)導(dǎo)致偽影。此外,如圖 14(b)和(c)所示,無(wú)紋理區(qū)域的操縱點(diǎn)有時(shí)會(huì)在追蹤中出現(xiàn)更多的漂移。因此,研究者建議盡可能挑選紋理豐富的操縱點(diǎn)。AI+EDA:引領(lǐng)芯片設(shè)計(jì)新未來(lái)

        5 月 23 日 19:00-21:00,機(jī)器之心聯(lián)合新思科技與微軟帶來(lái)線上分享,來(lái)自新思科技資深產(chǎn)品經(jīng)理莊定錚與微軟全球黑帶 - 數(shù)據(jù)與人工智能資深技術(shù)專家陳景忠將就 AI+EDA 這一行業(yè)熱議話題展開(kāi)討論。

        識(shí)別海報(bào)二維碼,預(yù)約直播。

        THE END

        轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

        投稿或?qū)で髨?bào)道:content@jiqizhixin.com

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        人人狠狠综合久久亚洲高清| 亚洲影视自拍揄拍愉拍| 亚洲人成在线免费观看| 久久久久亚洲av无码尤物| 中文字幕一精品亚洲无线一区| 在线精品自拍亚洲第一区| 亚洲av成人片在线观看| 亚洲av无码日韩av无码网站冲| 亚洲av无码专区国产不乱码| 亚洲精品无码久久久久APP| 亚洲欧美成aⅴ人在线观看| 亚洲女子高潮不断爆白浆| 亚洲日本天堂在线| 亚洲av综合av一区二区三区| 亚洲精品无码aⅴ中文字幕蜜桃| 亚洲精品无码不卡在线播放| 亚洲狠狠婷婷综合久久蜜芽| 亚洲精品国产av成拍色拍| 亚洲精品无码久久| 妇女自拍偷自拍亚洲精品| 亚洲国产精品成人一区| 亚洲国产精品无码久久久久久曰| 亚洲国产精品无码久久久久久曰| AV在线亚洲男人的天堂| 亚洲精品制服丝袜四区| 久久精品国产亚洲av麻豆 | 国产精品亚洲一区二区三区在线观看| 久久亚洲精品无码av| 亚洲av无码专区在线观看素人| 亚洲色欲久久久久综合网| 伊人久久亚洲综合| 亚洲AV无码一区二区二三区入口 | 亚洲国产成人一区二区三区| 亚洲国产成人精品不卡青青草原| 久久亚洲精品无码AV红樱桃| 亚洲午夜久久久精品电影院| 亚洲日韩国产一区二区三区在线| 亚洲AV无码一区二区三区鸳鸯影院| www.亚洲精品| 国产亚洲福利精品一区| 亚洲综合一区二区精品导航|