首頁 > 新聞 > 智能 > 正文

        【快播報(bào)】可組合擴(kuò)散模型主打 Any-to-Any 生成:文本、圖像、視頻、音頻全都行

        2023-05-23 14:21:26來源:ZAKER科技  

        機(jī)器之心報(bào)道

        編輯:陳萍、杜偉


        (資料圖片僅供參考)

        一種模型統(tǒng)一多種模態(tài)實(shí)現(xiàn)了。

        給定一句話,然后讓你想象這句話在現(xiàn)實(shí)場景中的樣子,對于人類來說這項(xiàng)任務(wù)過于簡單,比如「一輛進(jìn)站的火車」,人類可以進(jìn)行天馬行空的想象火車進(jìn)站時(shí)的樣子,但對模型來說,這可不是一件容易的事,涉及模態(tài)的轉(zhuǎn)換,模型需要理解這句話的含義,然后根據(jù)這句話生成應(yīng)景的視頻、音頻,難度還是相當(dāng)大的。

        現(xiàn)在,來自北卡羅來納大學(xué)教堂山分校、微軟的研究者提出的可組合擴(kuò)散(Composable Diffusion,簡稱 CoDi)模型很好的解決了這個(gè)問題。比如,前面提到的「一輛進(jìn)站的火車」,CoDi 根據(jù)這句話生成的效果如下:

        與現(xiàn)有的生成式人工智能系統(tǒng)不同,CoDi 可以并行生成多種模態(tài),其輸入不限于文本或圖像等模態(tài)。

        眾所周知,隨著技術(shù)的發(fā)展,大模型的能力范圍已經(jīng)不僅僅局限于一種模態(tài)的生成,而是從一種模態(tài)生成另一種模態(tài)正在變成現(xiàn)實(shí),如我們常見的文本到文本的生成,文本到圖像的生成,以及文本到音頻的生成。

        然而,單一模態(tài)或一對一模態(tài)在應(yīng)用到現(xiàn)實(shí)世界中會(huì)受到限制,因?yàn)楝F(xiàn)實(shí)世界是多模態(tài)的,然而將多種模態(tài)串聯(lián)在一起難度較大。人們迫切期待開發(fā)出一種全面而具有多功能的模型,這種模型可以從一組輸入條件中生成任意組合的模態(tài),無縫地整合來自各種信息源的信息,從而實(shí)現(xiàn)強(qiáng)大的人機(jī)交互體驗(yàn)(例如,同時(shí)生成連貫的視頻、音頻和文本描述)。

        CoDi 就是為了實(shí)現(xiàn)這一目標(biāo)而進(jìn)行的,可以說這是第一個(gè)能夠同時(shí)處理和生成任意組合模態(tài)的模型。

        論文主頁:https://codi-gen.github.io/研究者表示 CoDi 不僅可以從單模態(tài)到單模態(tài)的生成,還可以接收多個(gè)條件輸入,以及多模態(tài)聯(lián)合生成。舉例來說,在給定文本 prompt 的情況下生成同步的視頻和音頻;或者在給定圖像和音頻 prompt 的情況下生成視頻。

        下面我們用具體的示例進(jìn)行展示。首先考察 CoDi 生成圖像的能力。

        CoDi 可以將文本 + 音頻作為輸入,然后生成一張圖片:

        在這個(gè)示例中,文本 prompt 大致為:油畫,恐怖畫風(fēng),craig mullins 風(fēng)格。

        除了文本 + 音頻,CoDi 還可以以文本 + 圖像作為輸入,然后生成一張圖片:

        在這個(gè)示例中,輸入 prompt 為:花瓶里的花朵,靜物畫,Albert Williams 風(fēng)格,以及一張圖片。

        除此以外,CoDi 還能以三種模態(tài)(文本 + 音頻 + 圖片)作為輸入,生成符合要求的圖片。

        接下來是展示 CoDi 視頻生成能力。給模型一句 prompt(坐在咖啡桌旁吃東西)+ 熊貓圖片,之后一只活靈活現(xiàn)的大熊貓就動(dòng)了起來:

        此外,CoDi 還能輸入單個(gè)或多個(gè) prompt,包括視頻,圖像,文本或音頻,以生成多個(gè)對齊輸出。

        在這個(gè)示例中,prompt 包括三部分(文本 + 圖像 + 音頻):文本 prompt 為滑板上的泰迪熊,4k,高分辨率。圖像是一個(gè)繁華的街道。語音輸入為嘩嘩的雨聲:

        生成的視頻如下:

        不僅如此,CoDi 還能根據(jù)一句話生成視頻和音頻,如:空中綻放的煙花。

        視頻 + 音頻效果如下:

        了解更多展示效果,請參考論文主頁。

        方法概覽

        潛在擴(kuò)散模型

        擴(kuò)散模型(DM)是這樣一類生成式模型,它們通過模擬信息隨時(shí)間的擴(kuò)散來學(xué)習(xí)數(shù)據(jù)分布 p ( x ) 。在訓(xùn)練期間,隨機(jī)噪聲被迭代地添加到 x,同時(shí)模型學(xué)習(xí)對示例進(jìn)行去噪。對于推理,擴(kuò)散模型對從簡單分布(如高斯分布)中采樣的數(shù)據(jù)點(diǎn)進(jìn)行去噪。潛在擴(kuò)散(LDM)學(xué)習(xí)對應(yīng)于 x 的潛在變量 z 的分布。通過降低數(shù)據(jù)維數(shù)來顯著降低計(jì)算成本。

        可組合多模態(tài)調(diào)節(jié)

        為了使自己的模型能夠以任何 input/prompt 模態(tài)的組合進(jìn)行調(diào)節(jié),研究者對齊文本、圖像、視頻和音頻的 prompt 編碼器(分別用 C_t、C_i、C_v 和 C_a 表示),將來自任何模態(tài)的輸入映射到同一個(gè)空間。然后通過對每個(gè)模態(tài)的表示進(jìn)行插值來實(shí)現(xiàn)多模態(tài)調(diào)節(jié)。通過對齊嵌入的簡單加權(quán)插值,他們利用單條件(即僅有一個(gè)輸入)訓(xùn)練的模型來執(zhí)行零樣本多條件(即有多個(gè)輸入)。整個(gè)過程如下圖 2 ( a ) ( 2 ) 所示。

        不過以組合方式同時(shí)對四種 prompt 編碼器進(jìn)行優(yōu)化具有非常大的計(jì)算量,因此需要 O ( n^2 ) 對。此外對于某些雙模態(tài),對齊良好的配對數(shù)據(jù)集有限或不可用,例如圖像音頻對。

        為了解決這些問題,研究者提出了一種簡單有效的方法「橋接對齊(Bridging Alignment)」,以高效地對齊編碼器。如下圖 2 ( a ) ( 1 ) 所示,他們選擇文本模態(tài)作為「橋接」模態(tài),因?yàn)樵撃B(tài)普遍存在于配對數(shù)據(jù)中,例如文本圖像對、文本視頻對和文本音頻對。研究者從預(yù)訓(xùn)練文本圖像配對編碼器 CLIP 開始,然后使用對比學(xué)習(xí)在音頻文本和視頻文本配對數(shù)據(jù)集上訓(xùn)練音頻和視頻 prompt 編碼器,同時(shí)凍結(jié)文本和圖像編碼器權(quán)重。

        如此一來,所有四種模態(tài)在特征空間中對齊。CoDi 可以有效地利用和組合任何模態(tài)組合中的互補(bǔ)信息,以生成更準(zhǔn)確和全面的輸出。生成質(zhì)量的高低不受 prompt 模態(tài)數(shù)量的影響。研究者繼續(xù)使用橋接對齊來對齊具有不同模態(tài)的 LDM 的潛在空間,以實(shí)現(xiàn)聯(lián)合多模態(tài)生成。

        可組合擴(kuò)散

        訓(xùn)練一個(gè)端到端的 anything-to-anything 模型需要廣泛學(xué)習(xí)不同的數(shù)據(jù)資源,并且需要保持所有合成流的生成質(zhì)量。為了應(yīng)對這些挑戰(zhàn),CoDi 被設(shè)計(jì)為可組合和集成的,允許獨(dú)立構(gòu)建特定于單一模態(tài)的模型,之后實(shí)現(xiàn)順利集成。具體地,研究者首先獨(dú)立訓(xùn)練圖像、視頻、音頻和文本 LDM,然后這些擴(kuò)散模型通過一種新機(jī)制「潛在對齊」來有效地學(xué)習(xí)跨模態(tài)的聯(lián)合多模態(tài)生成。

        先看圖像擴(kuò)散模型。圖像 LDM 遵循與 Stable Diffusion 相同的結(jié)構(gòu),并用相同的權(quán)重進(jìn)行初始化。重用該權(quán)重將在大型高質(zhì)量圖像數(shù)據(jù)集上訓(xùn)練的 Stable Diffusion 的知識和超高生成保真度遷移到 CoDi。

        再看視頻擴(kuò)散模型。為了對視頻時(shí)間屬性進(jìn)行建模的同時(shí)保持視頻生成質(zhì)量,研究者通過擴(kuò)展具有時(shí)間模塊的圖像擴(kuò)散器來構(gòu)建視頻擴(kuò)散器。具體地,他們在殘差塊之前插入偽時(shí)間注意力。不過研究者認(rèn)為偽時(shí)間注意力只能將像素(高度和寬度維數(shù))展平為批維數(shù)來使視頻幀在全局范圍內(nèi)彼此關(guān)注,從而導(dǎo)致局部像素之間跨幀交互的缺失。

        接著是音頻擴(kuò)散模型。為了在聯(lián)合生成中實(shí)現(xiàn)靈活的跨模態(tài)注意力,音頻擴(kuò)散器在設(shè)計(jì)時(shí)具有與視覺擴(kuò)散器相似的架構(gòu),其中梅爾頻譜圖可以自然地被視為具有 1 個(gè)通道的圖像。研究者使用 VAE 編碼器將音頻的梅爾頻譜圖編碼為壓縮的潛在空間。在音頻合成中,VAW 解碼器將潛在變量映射到梅爾頻譜圖,并且聲碼器從梅爾頻譜圖生成音頻樣本。研究者使用了 [ 33 ] 中的音頻 VAE 和 [ 27 ] 的聲碼器。

        最后是文本擴(kuò)散模型。文本 LDM 中的 VAE 是 OPTIMUS [ 29 ] ,它的編解碼器分別是 [ 9 ] 和 GPT-2 [ 39 ] 。對于去噪 UNet,與圖像擴(kuò)散不同的是,殘差塊中的 2D 卷積被 1D 卷積取代。

        基于潛在對齊的聯(lián)合多模態(tài)生成

        最后一步是在聯(lián)合生成中啟用擴(kuò)散流之間的交叉注意力,即同時(shí)生成兩種或多種模態(tài)。這通過向 UNet _ θ 添加跨模態(tài)注意力子層來實(shí)現(xiàn),詳見圖 2 ( b ) ( 2 ) 。

        此外在圖 2 ( b ) ( 3 ) 中,研究者在訓(xùn)練聯(lián)合生成時(shí)也遵循了與「橋接對齊」類似的設(shè)計(jì),即(1)首先訓(xùn)練圖像和文本擴(kuò)散器中的交叉注意力權(quán)重以及它們在文本圖像配對數(shù)據(jù)上的環(huán)境編碼器 V。(2)凍結(jié)文本擴(kuò)散器的權(quán)重,并在文本音頻配對數(shù)據(jù)上訓(xùn)練環(huán)境編碼器和音頻擴(kuò)散器的交叉注意力權(quán)重。(3)凍結(jié)音頻擴(kuò)散器及其環(huán)境編碼器,并在音頻視頻配對數(shù)據(jù)上訓(xùn)練視頻模態(tài)的聯(lián)合生成。

        從結(jié)果來看,盡管只接受了三個(gè)配對聯(lián)合生成任務(wù)(文本 + 音頻、文本 + 圖像和視頻 + 音頻)的訓(xùn)練,但 CoDi 能夠同時(shí)生成訓(xùn)練中未見過的各種模態(tài)組合,例如下圖 5 中的聯(lián)合圖像 - 文本 - 音頻生成。

        實(shí)驗(yàn)結(jié)果

        表 1 提供了數(shù)據(jù)集、任務(wù)、樣本數(shù)量和領(lǐng)域的概覽信息。

        下圖 3 展示了各種單模態(tài)到單模態(tài)的生成示例演示。CoDi 在音頻字幕和音頻生成方面實(shí)現(xiàn)了新 SOTA,如表 4 和表 6 所示。在圖像和視頻生成方面,CoDi 的表現(xiàn)與最先進(jìn)的技術(shù)相媲美,如表 2 和表 3 所示。如表 8 所示,CoDi 在給定的輸入模態(tài)分組中實(shí)現(xiàn)了高質(zhì)量圖像生成。此外,表 9 表明,CoDi 在給定各種輸入模態(tài)組的情況下與真值相似。了解更多內(nèi)容,請參考原論文。

        THE END

        轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

        投稿或?qū)で髨?bào)道:content@jiqizhixin.com

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        国内精品久久久久影院亚洲| 亚洲国产高清美女在线观看| 亚洲日韩av无码| 精品亚洲国产成人av| 亚洲精品一区二区三区四区乱码| 精品亚洲综合久久中文字幕| 亚洲色偷偷综合亚洲AVYP| 亚洲婷婷国产精品电影人久久| 亚洲欧美日韩综合久久久久| 91在线亚洲综合在线| 久久国产亚洲精品| 中文字幕亚洲综合久久综合| 国产午夜亚洲精品| 亚洲综合一区国产精品| 亚洲国产视频久久| 国产精品高清视亚洲精品| 亚洲影视自拍揄拍愉拍| 国产亚洲福利在线视频| 亚洲日本天堂在线| 久久精品国产亚洲av瑜伽| 午夜亚洲国产理论片二级港台二级| 亚洲日本久久久午夜精品| 亚洲国产成人资源在线软件 | 日本久久久久亚洲中字幕| 午夜亚洲国产理论秋霞| 亚洲综合一区二区精品导航| 亚洲第一二三四区| 亚洲娇小性色xxxx| 亚洲一区二区三区丝袜| 久久亚洲中文无码咪咪爱| 亚洲成年人啊啊aa在线观看| 亚洲无码精品浪潮| 一本色道久久综合亚洲精品| 亚洲AV综合色一区二区三区| 无码专区—VA亚洲V天堂| 亚洲精品91在线| 亚洲色大网站WWW永久网站| 国产精品亚洲AV三区| 亚洲午夜成人精品电影在线观看| 在线精品亚洲一区二区三区 | 亚洲人成人网毛片在线播放|