天天訊息:「大一統(tǒng)」大模型論文爆火,4 種模態(tài)任意輸入輸出,華人本科生 5 篇頂會(huì)一作,網(wǎng)友:近期最不可思議的論文

        2023-05-28 13:22:18來(lái)源:ZAKER科技  

        多模態(tài)大模型,終于迎來(lái) " 大一統(tǒng) " 時(shí)刻!


        (相關(guān)資料圖)

        從聲音、文字、圖像到視頻,所有模態(tài)被徹底打通,如同人腦一般,實(shí)現(xiàn)了真正意義上的任意輸入,任意輸出

        要知道,多模態(tài)一直是學(xué)術(shù)界公認(rèn)要達(dá)到更強(qiáng)智能的必經(jīng)之路,連GPT-4都在往這個(gè)方向發(fā)展。

        也正是因此,這項(xiàng)來(lái)自微軟、北卡羅來(lái)納大學(xué)教堂山分校的新研究一經(jīng) po 出,立即在社交媒體上爆火,有網(wǎng)友驚嘆:

        這是我最近見(jiàn)過(guò)最不可思議的一篇論文!

        究竟有多不可思議?

        只需告訴大模型,想要 " 一只玩滑板的泰迪熊 ",并輸入一張照片 + 一段聲音:

        它立刻就能精準(zhǔn) get 要點(diǎn),生成一段在下雨天在城市里玩滑板的心碎小熊錄像,仔細(xì)聽(tīng)還會(huì)發(fā)現(xiàn)配上了新的雨聲

        效果太過(guò)于鵝妹子嚶,以至于不少網(wǎng)友表示 " 有被嚇到 ":

        還有網(wǎng)友感嘆 " 新時(shí)代的到來(lái) ":

        等不及看到創(chuàng)作者們用這些 AI 工具制作各種沉浸式故事體驗(yàn)了。這簡(jiǎn)直給 RPG 角色扮演游戲賦予了全新的意義。

        值得一提的是,一作 Zineng Tang 雖然本科還沒(méi)畢業(yè),但他已經(jīng)在 CVPR、發(fā)了 6 篇頂會(huì)論文,其中5 篇都是一作

        所以,這個(gè)號(hào)稱能夠 " 轉(zhuǎn)一切 "(any-to-any)的大一統(tǒng)大模型,實(shí)現(xiàn)效果究竟如何?

        4 種模態(tài)隨意選,打出 " 組合拳 "

        大模型 CoDi,具有任意輸入和輸出圖、文、聲音、視頻 4 種模態(tài)的能力。

        無(wú)論是單模態(tài)生成單模態(tài)(下圖黃)、多模態(tài)生成單模態(tài)(下圖紅)、還是多模態(tài)生成多模態(tài)(下圖紫),只要指定輸入和輸出的模態(tài),CoDi 就能理解并生成想要的效果:

        先來(lái)看單模態(tài)生成單模態(tài)

        輸入任意一種模態(tài),CoDi 都能聯(lián)想并輸出指定的模態(tài),例如,輸入一張風(fēng)景圖像,就能輸出 " 山景,日出 " 這樣的文字提示詞:

        或是輸入一段鐵軌碰撞聲,就能生成一張地鐵圖像:面對(duì)多模態(tài)生成單模態(tài)時(shí),CoDi 威力同樣不減。

        輸入一張 " 熊貓吃竹子 " 圖像,加上一段 " 在咖啡桌上吃 " 的文字要求:

        CoDi 就能生成一段大熊貓坐在咖啡桌旁吃竹子的視頻:或是輸入一組文字提示詞 " 油畫(huà),恐怖畫(huà)風(fēng),優(yōu)雅復(fù)雜的概念藝術(shù),克雷格 · 穆林斯(CG 繪畫(huà)之父)風(fēng)格 ",加上一段拍打木板的水聲:

        CoDi 在經(jīng)過(guò)聯(lián)想后,就能輸出一張精致的、氣勢(shì)恢宏的黃昏時(shí)分海盜船畫(huà)像:

        最后來(lái)看看多模態(tài)生成多模態(tài)的效果。

        給 CoDi 提供一段鋼琴聲,加上一張森林中的照片:

        CoDi 就能想象出一段 " 在森林中彈鋼琴 " 的文字,并配上對(duì)應(yīng)的插圖:要知道在這之前,AI 生成的視頻不少都沒(méi)有配音,停留在老式的 " 無(wú)聲電影 " 階段。

        然而 CoDi 不僅能生成視頻,還能生成搭配視頻食用的聲音。

        例如根據(jù)一個(gè) " 天空中的花火 " 文字提示詞 + 一段對(duì)應(yīng)的音頻,就能生成一個(gè)帶有爆炸聲音的煙花錄像:

        所以,CoDi 究竟是如何做到理解不同的模態(tài),并 " 打出組合拳 " 的?

        用 " 對(duì)齊 " 來(lái)節(jié)省大模型訓(xùn)練數(shù)據(jù)

        事實(shí)上,CoDi 的打造面臨兩個(gè)難點(diǎn)。

        首先是缺少訓(xùn)練數(shù)據(jù)的問(wèn)題,以作者們能收集到的數(shù)據(jù)集為例:

        無(wú)論是像 Laion400M 這樣的文圖數(shù)據(jù)集、還是像 AudioSet 之類的音頻文字?jǐn)?shù)據(jù)集,或是油管上的圖像音視頻數(shù)據(jù)集,以及 Webvid10M 之類的視頻數(shù)據(jù)集,都屬于 " 單模態(tài)生成單個(gè)或兩個(gè)模態(tài) " 的類型。

        然而,多模態(tài)大模型的訓(xùn)練數(shù)據(jù)需求,隨著模態(tài)數(shù)量的增加呈指數(shù)級(jí)增長(zhǎng),許多輸入輸出組合,往往缺少對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集。

        其次,已有的擴(kuò)散模型大多是 1v1 的類型,如何設(shè)計(jì)并訓(xùn)練模型,確保多模態(tài)輸入輸出的效果,同樣是個(gè)問(wèn)題。

        針對(duì)這兩個(gè)問(wèn)題,作者們決定分兩個(gè)階段打造 CoDi,讓它不僅能實(shí)現(xiàn)單模態(tài) " 完美輸出 "、還能做到多模態(tài) "1+1>2"。

        階段一,組合條件訓(xùn)練,給每個(gè)模態(tài)都打造一個(gè)潛在擴(kuò)散模型(LDM),進(jìn)行組合訓(xùn)練。

        針對(duì) A 模態(tài)生成 B 模態(tài)數(shù)據(jù)集缺失的問(wèn)題,作者們提出了一種名為橋接對(duì)齊(Bridging Alignment)的策略。

        具體來(lái)說(shuō),就是以帶文本模態(tài)的數(shù)據(jù)集為 " 中介 ",對(duì)齊另外幾種模態(tài)的訓(xùn)練效果。

        以音頻生成圖像為例。

        雖然音頻生成圖像數(shù)據(jù)集不多,但文本生成音頻、文本生成圖像的數(shù)據(jù)集卻有不少,因此可以將這兩類數(shù)據(jù)集合并起來(lái),用于訓(xùn)練文本 + 音頻生成圖像的效果。

        在此期間,文本和音頻輸入經(jīng)過(guò)模型處理,會(huì)被 " 放置 " 進(jìn)一個(gè)共享特征空間,并用輸出 LDM 來(lái)處理輸入輸入的組合特征,輸出對(duì)應(yīng)的圖像結(jié)果。

        階段二,進(jìn)一步增加生成的模態(tài)數(shù)量。

        在階段一的基礎(chǔ)上,給每個(gè)潛在擴(kuò)散模型和環(huán)境編碼器上增加一個(gè)交叉注意力模塊,就能將潛在擴(kuò)散模型的潛變量投射到共享空間中,使得生成的模態(tài)也進(jìn)一步多樣化。

        最終訓(xùn)練出來(lái)的模型,雖然訓(xùn)練數(shù)據(jù)類型不是 " 全能的 ",但也具備了多模態(tài)輸入、多模態(tài)輸出的能力。值得一提的是,可別以為這種方法會(huì)降低模型生成的質(zhì)量。

        事實(shí)上,在多種評(píng)估方法上,CoDi 均超越了現(xiàn)有多模態(tài)大模型的生成效果。

        華人本科生,5 篇頂會(huì)論文一作

        一作Zineng Tang,本科就讀于北卡羅來(lái)納大學(xué)教堂山分校,也是微軟研究院的實(shí)習(xí)生,今年 6 月將進(jìn)入加州大學(xué)伯克利分校讀博。

        他的研究興趣在于多模態(tài)學(xué)習(xí)、機(jī)器學(xué)習(xí)和 NLP 領(lǐng)域,而從大一開(kāi)始,他就在 NeurIPS、CVPR、ACL 和 NAACL 等頂會(huì)上相繼發(fā)了 6 篇文章,其中 5 篇一作。

        就在今年 1 月,Zineng Tang 還獲得了 2023 年的美國(guó)計(jì)算機(jī)研究學(xué)會(huì)(CRA)設(shè)立的優(yōu)秀本科生研究員獎(jiǎng)。

        每年全美國(guó)能獲得這個(gè)獎(jiǎng)項(xiàng)的本科生,只有 4 人

        這一獎(jiǎng)項(xiàng)旨在表彰在計(jì)算機(jī)研究領(lǐng)域有杰出研究潛力的本科生,包括 MIT、斯坦福、哈佛和耶魯大學(xué)等不少北美名校在內(nèi),每年都會(huì)提名一些優(yōu)秀學(xué)生,經(jīng)過(guò)層層篩選后決定獲獎(jiǎng)?wù)摺?p>通訊作者Ziyi Yang,目前是微軟 Azure 認(rèn)知服務(wù)研究團(tuán)隊(duì)(CSR)的高級(jí)研究員,研究方向是多模態(tài)理解和生成,文檔智能和 NLP 等。

        在加入微軟之前,他本科畢業(yè)于南京大學(xué)物理系,并于斯坦福大學(xué)獲得電氣工程碩士和機(jī)械工程博士學(xué)位。

        通訊作者Mohit Bansal,是北卡羅來(lái)納大學(xué)教堂山分校計(jì)算機(jī)系教授。他于加州大學(xué)伯克利分校獲得博士學(xué)位,目前研究方向是 NLP 和多模態(tài)機(jī)器學(xué)習(xí),尤其側(cè)重語(yǔ)言生成問(wèn)答和對(duì)話、以及可解釋深度學(xué)習(xí)等。

        你感覺(jué)多模態(tài)大模型發(fā)展的下一階段,會(huì)是什么樣子?

        論文地址:

        https://arxiv.org/abs/2305.11846

        項(xiàng)目地址:

        https://github.com/microsoft/i-Code/tree/main/i-Code-V3

        參考鏈接:

        [ 1 ] https://twitter.com/AviSchiffmann/status/1660771055676588033

        [ 2 ] https://twitter.com/ZinengTang/status/1660726736642887681

        [ 3 ] https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/

        [ 4 ] https://codi-gen.github.io/

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        国产亚洲欧美日韩亚洲中文色| 亚洲综合男人的天堂色婷婷| 亚洲天堂一区二区三区四区| 亚洲av丰满熟妇在线播放| 亚洲精品乱码久久久久久自慰| 国产成人高清亚洲| 亚洲精品专区在线观看| 亚洲国产成人久久一区WWW| 亚洲不卡无码av中文字幕| 国产偷国产偷亚洲高清人| 国产成人综合久久精品亚洲| 国产天堂亚洲国产碰碰| 亚洲av片一区二区三区| 亚洲色欲久久久久综合网| 亚洲色偷拍区另类无码专区| 超清首页国产亚洲丝袜| 亚洲中文字幕无码久久精品1| 亚洲综合伊人久久大杳蕉| 亚洲精品无码专区久久久| 久久精品国产亚洲麻豆| 亚洲福利视频一区| 亚洲激情视频网站| 一区二区亚洲精品精华液| 亚洲sm另类一区二区三区| 国产亚洲精品美女2020久久| 亚洲欧洲日产国码一级毛片| 亚洲熟妇av一区二区三区| 亚洲AV乱码久久精品蜜桃| 亚洲综合小说久久另类区| 亚洲人配人种jizz| 亚洲第一第二第三第四第五第六| 亚洲 小说区 图片区 都市| 久久亚洲精品无码播放| 亚洲成AV人片在| 亚洲男人电影天堂| 亚洲欧洲无码一区二区三区| 国产亚洲精品91| 一本色道久久综合亚洲精品高清| 国产av天堂亚洲国产av天堂| 97亚洲熟妇自偷自拍另类图片| 亚洲专区一路线二|