首頁 > 新聞 > 智能 > 正文

        讓 GAN 再次偉大!拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴 & 大象轉(zhuǎn)身,湯曉鷗弟子的 DragGAN 爆火,網(wǎng)友:R.I.P. Photoshop

        2023-05-21 15:05:33來源:ZAKER科技  

        這兩天,一段 AI 修圖視頻在國內(nèi)外社交媒體上傳瘋了。

        不僅直接躥升 B 站關(guān)鍵詞聯(lián)想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊涂,轉(zhuǎn)發(fā)者紛紛直呼 "PS 已死 "。

        怎么回事?

        原來,現(xiàn)在 P 圖真的只需要 " 輕輕點(diǎn)兩下 ",AI 就能徹底理解你的想法!


        【資料圖】

        小到豎起狗子的耳朵:

        大到讓整只狗子蹲下來,甚至讓馬岔開腿 " 跑跑步 ",都只需要設(shè)置一個起始點(diǎn)和結(jié)束點(diǎn),外加拽一拽就能搞定:不止是動物的調(diào)整,連像汽車這樣的 " 非生物 ",也能一鍵拉升底座,甚至升級成 " 加長豪華車 ":這還只是 AI 修圖的 " 基操 "。

        要是想對圖像實(shí)現(xiàn)更精準(zhǔn)的控制,只需畫個圈給指定區(qū)域 " 涂白 ",就能讓狗子轉(zhuǎn)個頭看向你:

        或是讓照片中的小姐姐 " 眨眨眼 ":甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI 自動就能給它 " 安上 ":如此 " 有手就能做 " 的修圖神器,來自一個 MIT、谷歌、馬普所等機(jī)構(gòu)聯(lián)手打造的DragGAN新模型,論文已入選 SIGGRAPH 2023。沒錯,在擴(kuò)散模型獨(dú)領(lǐng)風(fēng)騷的時代,竟然還能有人把GAN玩出新花樣!目前這個項目在 GitHub 上已經(jīng)有5k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒發(fā))。所以,DragGAN 模型究竟長啥樣?它又如何實(shí)現(xiàn)上述 " 神一般的操作 "?拽一拽關(guān)鍵點(diǎn),就能修改圖像細(xì)節(jié)

        這個名叫 DragGAN 的模型,本質(zhì)上是為各種 GAN 開發(fā)的一種交互式圖像操作方法。

        論文以StyleGAN2架構(gòu)為基礎(chǔ),實(shí)現(xiàn)了點(diǎn)點(diǎn)鼠標(biāo)、拽一拽關(guān)鍵點(diǎn)就能 P 圖的效果。

        具體而言,給定 StyleGAN2 生成的一張圖像,用戶只需要設(shè)置幾個控制點(diǎn)(紅點(diǎn))和目標(biāo)點(diǎn)(藍(lán)點(diǎn)),以及圈出將要移動的區(qū)域(比如狗轉(zhuǎn)頭,就圈狗頭)。

        然后模型就將迭代執(zhí)行運(yùn)動監(jiān)督和點(diǎn)跟蹤這兩個步驟,其中運(yùn)動監(jiān)督會驅(qū)動紅色的控制點(diǎn)向藍(lán)色的目標(biāo)點(diǎn)移動,點(diǎn)跟蹤則用于更新控制點(diǎn)來跟蹤圖像中的被修改對象。

        這個過程一直持續(xù)到控制點(diǎn)到達(dá)它們對應(yīng)的目標(biāo)點(diǎn)。

        不錯,運(yùn)動監(jiān)督和點(diǎn)跟蹤就是我們今天要講的重點(diǎn),它是 DragGAN 模型中最主要的兩個組件。

        先說運(yùn)動監(jiān)督。在此之前,業(yè)界還沒有太多關(guān)于如何監(jiān)督 GAN 生成圖像的點(diǎn)運(yùn)動的研究。

        在這項研究中,作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡(luò)的運(yùn)動監(jiān)督損失(loss)。

        其關(guān)鍵思想是,生成器的中間特征具有很強(qiáng)的鑒別能力,因此一個簡單的損失就足以監(jiān)督運(yùn)動。

        所以,DragGAN 的運(yùn)動監(jiān)督是通過生成器特征圖上的偏移補(bǔ)丁損失(shifted patch loss)來實(shí)現(xiàn)的。

        如下圖所示,要移動控制點(diǎn) p 到目標(biāo)點(diǎn) t,就要監(jiān)督 p 點(diǎn)周圍的一小塊 patch(紅圈)向前移動的一小步(藍(lán)圈)。

        再看點(diǎn)跟蹤

        先前的運(yùn)動監(jiān)督會產(chǎn)生一個新的 latent code、一個新特征圖和新圖像。

        由于運(yùn)動監(jiān)督步驟不容易提供控制點(diǎn)的精確新位置,因此我們的目標(biāo)是更新每個手柄點(diǎn) p 使其跟蹤上對象上的對應(yīng)點(diǎn)。

        此前,點(diǎn)跟蹤通常通過光流估計模型或粒子視頻方法實(shí)現(xiàn)。

        但同樣,這些額外的模型可能會嚴(yán)重影響效率,并且在 GAN 模型中存在偽影的情況下可能使模型遭受累積誤差。

        因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特征空間上進(jìn)行點(diǎn)跟蹤。

        而這主要是因為 GAN 模型的判別特征可以很好地捕捉到密集對應(yīng)關(guān)系。

        基于這以上兩大組件,DragGAN 就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、布局等方面的變形。

        作者表示,由于這些變形都是在 GAN 學(xué)習(xí)的圖像流形上進(jìn)行的,它遵從底層的目標(biāo)結(jié)構(gòu),因此面對一些復(fù)雜的任務(wù)(比如有遮擋),DragGAN 也能產(chǎn)生逼真的輸出。

        單張 3090 幾秒鐘出圖

        所以,要實(shí)現(xiàn)幾秒鐘 " 精準(zhǔn)控圖 " 的效果,是否需要巨大的算力?

        nonono。大部分情況下,每一步拖拽修圖,單張 RTX 3090 GPU在數(shù)秒鐘內(nèi)就能搞定。

        具體到生成圖像的效果上,實(shí)際評估(均方誤差 MSE、感知損失 LPIPS)也超越了一系列類似的 "AI 修圖 " 模型,包括 RAFT 和 PIPs 等等:如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:值得一提的是,DragGAN 的 " 潛力 " 還不止于此。

        一方面,如果增加關(guān)鍵點(diǎn)的數(shù)量,還能實(shí)現(xiàn)更加精細(xì)的 AI 修圖效果,用在人臉這類對修圖要求比較嚴(yán)格的照片上,也是完全沒問題:

        另一方面,不止開頭展示的人物和動物,放在汽車、細(xì)胞、風(fēng)景和天氣等不同類型的圖像上,DragGAN 也都能精修搞定。除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像,也能通過 DragGAN 實(shí)現(xiàn):也難怪網(wǎng)友會調(diào)侃 " 遠(yuǎn)古的 PS 段子成真 ",把大象轉(zhuǎn)個身這種甲方需求也能實(shí)現(xiàn)了。不過,也有網(wǎng)友指出了 DragGAN 目前面臨的一些問題。

        例如,由于它是基于 StyleGAN2 生成的圖像進(jìn)行 P 圖的,而后者訓(xùn)練成本很高,因此距離真正商業(yè)落地可能還有一段距離。

        除此之外,在論文中提到的 " 單卡幾秒鐘修圖 " 的效果,主要還是基于256 × 256分辨率圖像:至于模型是否能擴(kuò)展到 256 × 256 以外圖像,生成的效果又是如何,都還是未知數(shù)。

        有網(wǎng)友表示 " 至少高分辨率圖像從生成時間來看,肯定還要更長 "。

        實(shí)際上手的效果究竟如何,我們可以等 6 月論文代碼開源后,一測見真章。

        團(tuán)隊介紹

        DragGAN 的作者一共 6 位,分別來自馬克斯普朗克計算機(jī)科學(xué)研究,薩爾布呂肯視覺計算、交互與 AI 研究中心,MIT,賓夕法尼亞大學(xué)和谷歌 AR/VR 部門。

        其中包括兩位華人:

        一作潘新鋼,他本科畢業(yè)于清華大學(xué)(2016 年),博士畢業(yè)于香港中文大學(xué)(2021 年),師從湯曉鷗教授。

        現(xiàn)在是馬普計算機(jī)科學(xué)研究所的博士后,今年 6 月,他將進(jìn)入南洋理工大學(xué)擔(dān)任助理教授(正在招收博士學(xué)生)。

        另一位是Liu Lingjie,香港大學(xué)博士畢業(yè)(2019 年),后在馬普信息學(xué)研究所做博士后研究,現(xiàn)在是賓夕法尼亞大學(xué)助理教授(也在招學(xué)生),領(lǐng)導(dǎo)該校計算機(jī)圖形實(shí)驗室,也是通用機(jī)器人、自動化、傳感與感知 ( GRASP ) 實(shí)驗室成員。值得一提的是,為了展示 DragGAN 的可控性,一作還親自上陣,演示了生發(fā)、瘦臉和露齒笑的三連 P 圖效果:是時候給自己的主頁照片 " 修修圖 " 了(手動狗頭)。

        論文地址:

        https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

        項目地址(代碼 6 月開源):

        https://github.com/XingangPan/DragGAN

        參考鏈接:

        [ 1 ] https://weibo.com/1727858283/N1iKl4zVG

        [ 2 ] https://twitter.com/_akhaliq/status/1659424744490377217

        [ 3 ] https://twitter.com/mrgreen/status/1659482594516377601

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        日韩va亚洲va欧洲va国产| 麻豆亚洲AV永久无码精品久久| 亚洲综合色在线观看亚洲| 亚洲精品无码av中文字幕| 国产成人精品日本亚洲18图| 亚洲午夜电影一区二区三区| 亚洲精品中文字幕乱码| 亚洲色偷偷av男人的天堂| 久久久久亚洲AV片无码下载蜜桃| 亚洲男人第一av网站| 亚洲天堂视频在线观看| 亚洲视频中文字幕| 久久亚洲中文字幕精品有坂深雪 | 日本亚洲视频在线 | 亚洲精品国产成人片| 亚洲一区精品无码| 亚洲一区二区三区AV无码| 亚洲无人区午夜福利码高清完整版 | 亚洲精品日韩专区silk| 国产成人毛片亚洲精品| 亚洲精品456播放| 亚洲美日韩Av中文字幕无码久久久妻妇| 亚洲成a∨人片在无码2023| 国产精品亚洲一区二区三区 | 亚洲一区二区三区久久| 亚洲人成人网毛片在线播放| 亚洲一本一道一区二区三区| 亚洲AV日韩综合一区尤物| 亚洲av无一区二区三区| 亚洲av无码一区二区三区四区| 亚洲AV永久无码精品一福利| 国产偷国产偷亚洲高清人| 亚洲高清偷拍一区二区三区| 亚洲国产综合人成综合网站| 亚洲一级特黄大片无码毛片 | 亚洲成AV人片在WWW色猫咪 | 亚洲AV无码一区二区三区牲色| 国产综合成人亚洲区| 久久精品国产亚洲一区二区三区| 亚洲视频在线免费| 香蕉视频在线观看亚洲|