焦點消息!Meta 開源文本生成音樂大模型,我們用《七里香》歌詞試了下
機器之心報道
編輯:杜偉、梓文
(資料圖片)
年初,谷歌推出了音樂生成大模型 MusicLM,效果非常不錯。有人稱這比大火的 ChatGPT 還重要,幾乎解決了音樂生成問題。近日,Meta 也推出了自己的文本音樂生成模型 MusicGen,并且非商業(yè)用途免費使用。
在進入正文前,我們先聽兩段 MusicGen 生成的音樂。我們輸入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」
然后嘗試輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴,你說這一句 很有夏天的感覺」(支持中文)
試玩地址:https://huggingface.co/spaces/facebook/MusicGen
文本到音樂是指在給定文本描述的情況下生成音樂作品的任務,例如「90 年代吉他即興搖滾歌曲」。作為一項具有挑戰(zhàn)性的任務,生成音樂要對長序列進行建模。與語音不同,音樂需要使用全頻譜,這意味著以更高的速率對信號進行采樣,即音樂錄音的標準采樣率為 44.1 kHz 或 48 kHz,而語音的采樣率為 16 kHz。
此外,音樂包含不同樂器的和聲和旋律,這使音樂有著復雜的結(jié)構(gòu)。但由于人類聽眾對不和諧十分敏感,因此對生成音樂的旋律不會有太大容錯率。當然,以多種方法控制生成過程的能力對音樂創(chuàng)作者來說是必不可少的,如鍵、樂器、旋律、流派等。
最近自監(jiān)督音頻表示學習、序列建模和音頻合成方面的進展,為開發(fā)此類模型提供了條件。為了使音頻建模更加容易,最近的研究提出將音頻信號表示為「表示同一信號」的離散 token 流。這使得高質(zhì)量的音頻生成和有效的音頻建模成為可能。然而這需要聯(lián)合建模幾個并行的依賴流。
Kharitonov 等人 [ 2022 ] 、Kreuk 等人 [ 2022 ] 提出采用延遲方法并行建模語音 token 的多流,即在不同流之間引入偏移量。Agostinelli 等人 [ 2023 ] 提出使用不同粒度的多個離散標記序列來表示音樂片段,并使用自回歸模型的層次結(jié)構(gòu)對其進行建模。同時,Donahue 等人 [ 2023 ] 采用了類似的方法,但針對的是演唱到伴奏生成的任務。最近,Wang 等人 [ 2023 ] 提出分兩個階段解決這個問題:限制對第一個 token 流建模。然后應用 post-network 以非自回歸的方式聯(lián)合建模其余的流。
本文中,Meta AI 的研究者提出了 MUSICGEN,這是一種簡單、可控的音樂生成模型,能在給定文本描述的情況下生成高質(zhì)量的音樂。
論文地址:https://arxiv.org/pdf/2306.05284.pdf研究者提出一個對多個并行聲學 token 流進行建模的通用框架,作為以前研究的概括 ( 見下圖 1 ) 。為提高生成樣本的可控性,本文還引入了無監(jiān)督旋律條件,使模型能夠根據(jù)給定和聲和旋律生成結(jié)構(gòu)匹配的音樂。本文對 MUSICGEN 進行了廣泛的評估,所提出的方法在很大程度上優(yōu)于評估基線:MUSICGEN 的主觀評分為 84.8 ( 滿分 100 分 ) ,而最佳基線為 80.5。此外,本文還提供一項消融研究,闡明了每個組件對整體模型性能的重要性。
最后,人工評估表明,MUSICGEN 產(chǎn)生了高質(zhì)量的樣本,這些樣本在符合文本描述,在旋律上也更好地與給定的和聲結(jié)構(gòu)對齊。
本文的主要貢獻有如下幾點:提出了一個簡單高效的模型:可以在 32khz 產(chǎn)生高質(zhì)量的音樂。MUSICGEN 可以通過有效的碼本交錯策略,用單階段語言模型生成一致的音樂;
提出一個單一的模型,進行文本和旋律條件生成,其生成的音頻與提供的旋律是一致的,并符合文本條件信息;
對所提出方法的關鍵設計選擇進行了廣泛的客觀及人工評估。
方法概覽
MUSICGEN 包含一個基于自回歸 transformer 的解碼器,并以文本或旋律表示為條件。該(語言)模型基于 EnCodec 音頻 tokenizer 的量化單元,它從低幀離散表示中提供高保真重建效果。此外部署殘差向量量化(RVQ)的壓縮模型會產(chǎn)生多個并行流。在此設置下,每個流都由來自不同學得碼本的離散 token 組成。
以往的工作提出了一些建模策略來解決這一問題。研究者提出了一種新穎的建模框架,它可以泛化到各種碼本交錯模式。該框架還有幾種變體。基于模式,他們可以充分利用量化音頻 token 的內(nèi)部結(jié)構(gòu)。最后 MUSICGEN 支持基于文本或旋律的條件生成。
音頻 tokenization
研究者使用了 EnCodec,它是一種卷積自編碼器,具有使用 RVQ 量化的潛在空間和對抗重建損失。給定一個參考音頻隨機變量 X ∈ R^df_s,其中 d 表示音頻持續(xù)時間,f_s 表示采樣率。EnCodec 將該變量編碼為幀率為 f_r f_s 的連續(xù)張量,然后該表示被量化為 Q ∈ {1, . . . , N}^K × df_r,其中 K 表示 RVQ 中使用的碼本數(shù)量,N 表示碼本大小。
碼本交錯模式
精確扁平化自回歸分解。自回歸模型需要一個離散隨機序列 U ∈ {1, . . . , N}^S 和序列長度 S。按照慣例,研究者將采用 U_0 = 0,這是一個確定性的特殊 token,表示序列的開始。然后他們可以對分布進行建模。
不精確的自回歸分解。另一種可能是考慮自回歸分解,其中一些碼本需要進行并行預測。比如定義另一個序列,V_0 = 0,并且 t ∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。當刪除碼本索引 k 時(如 V_t),這代表了時間為 t 時所有碼本的串聯(lián)。
任意碼本交錯模式。為了試驗此類分解,并準確測量使用不精確分解的影響,研究者引入了碼本交錯模式。首先考慮 = { ( t, k ) : {1, . . . , df_r}, k ∈ {1, . . . , K}},它是所有時間步和碼本索引對的集合。碼本模式是序列 P= ( P_0, P_1, P_2, . . . , P_S ) ,其中 P_0 = ,,并且 0 < i ≤ S, P_i ,這樣 P 是的分區(qū)。研究者通過并行地預測 P_t 中的所有位置來建模 Q,并以 P_0, P_1, . . . , P_T 中的所有位置為條件。同時考慮到實際效率,他們只選擇了「每個碼本在任何 P_s 中最多出現(xiàn)一次」的模式。
模型條件化
文本條件化。給定與輸入音頻 X 匹配的文本描述,研究者計算條件張量 C ∈ R^T_C × D,其中 D 是自回歸模型中使用的內(nèi)部維數(shù)。
旋律條件化。雖然文本是當今條件生成模型的主要方法,但更自然的音樂方法是以來自另一個音軌甚至口哨或哼唱的旋律結(jié)構(gòu)為條件。這種方法還允許對模型輸出進行迭代優(yōu)化。為了支持這一點,研究者嘗試通過聯(lián)合調(diào)節(jié)輸入的色譜圖和文本描述來控制旋律結(jié)構(gòu)。再最初的試驗中,他們觀察到以原始色譜圖為條件通常會重建原始樣本,導致過擬合。為此,研究者在每個時間步中選擇主要的時頻 bin 來引入信息瓶頸。
模型架構(gòu)
碼本投影和位置嵌入。給定一個碼本模式,在每個模式步 P_s 中只有一些碼本的存在。研究者從 Q 中檢索出對應 P_s 中索引的值。每個碼本在 P_s 中最多出現(xiàn)一次或根本不存在。
Transformer 解碼器。輸入被饋入到具有 L 層和 D 維的 transformer 中,每一層都由一個因果自注意力塊組成。然后使用一個跨注意力塊,該塊由條件化信號 C 提供。當使用旋律調(diào)節(jié)時,研究者將條件化張量 C 作為 transformer 輸入的前綴。
Logits 預測。在模式步 P_s 中,transformer 解碼器的輸出被轉(zhuǎn)換為 Q 值的 Logits 預測。每個碼本在 P_s+1 中最多出現(xiàn)一次。如果碼本存在,則從 D 通道到 N 應用特定于碼本的線性層來獲得 Logits 預測。
實驗結(jié)果
音頻 tokenization 模型。研究對 32 kHz 單聲道音頻使用非因果五層 EnCodec 模型,其步幅為 640,幀率為 50 Hz,初始隱藏大小為 64,在模型的五層中每層都增加一倍。
變壓器模型,研究訓練了不同大小的自回歸 Transformer 模型:300M, 1.5B, 3.3B 參數(shù)。
訓練數(shù)據(jù)集。研究使用 2 萬小時的授權(quán)音樂來訓練 MUSICGEN。詳細來說,研究使用了一個包含 10K 個高質(zhì)量曲目的內(nèi)部數(shù)據(jù)集,以及分別包含 25K 和 365K 只有樂器曲目的 ShutterStock 和 Pond5 音樂數(shù)據(jù)集。
評估數(shù)據(jù)集。研究在 MusicCaps 基準上對所提出的方法進行了評估,并與之前的工作進行了比較。MusicCaps 是由專家音樂家準備的 5.5K 樣本 ( 10 秒長 ) 和跨流派平衡的 1K 子集組成的。
下表 1 給出了所提方法與 Mousai、Riffusion、MusicLM 和 Noise2Music 的比較。結(jié)果表明,在音頻質(zhì)量和對提供的文本描述的一致性方面,MUSICGEN 的表現(xiàn)優(yōu)于人類聽眾的評估基線。Noise2Music 在 MusicCaps 上的 FAD 方面表現(xiàn)最好,其次是經(jīng)過文本條件訓練的 MUSICGEN。有趣的是,添加旋律條件會降低客觀指標,但是并不會顯著影響人類評分,且仍然優(yōu)于評估的基線。
研究者在給出的評估集上使用客觀和主觀度量,在文本和旋律表示的共同條件下評估 MUSICGEN,結(jié)果見下表 2。結(jié)果表明,用色譜圖條件化訓練的 MUSICGEN 成功地生成了遵循給定旋律的音樂,從而可以更好地控制生成的輸出。MUSICGEN 對于在推理時使用 OVL 和 REL 丟掉色度具有魯棒性。碼本交錯模式的影響。研究者使用 2.2 節(jié)中的框架評估了各種碼本模式,K = 4,由音頻 tokenization 模型給出。本文在下表 3 中報告了客觀和主觀評價。雖然扁平化改善了生成效果,但它的計算成本很高。使用簡單的延遲方法,只需花費一小部分成本就能得到類似的性能。模型大小的影響。下表 4 報告了不同模型大小的結(jié)果,即 300M、1.5B 和 3.3B 參數(shù)模型。正如預期的那樣,擴大模型大小可以得到更好的分數(shù),但前提是需要更長的訓練和推理時間。主觀評價方面,在 1.5B 時整體質(zhì)量是最優(yōu)的,但更大的模型可以更好地理解文本提示。THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
軟通動力加入華為 GaussDB 數(shù)據(jù)庫金融行業(yè)生態(tài)發(fā)展計劃
(全球TMT2023年6月12日訊)6月7日,以智領睿變,共建數(shù)智金融未來為主
2023-06-12 -
環(huán)球資訊:Meta 開源 AI 語言模型 MusicGen,可將文本和旋律轉(zhuǎn)化為完整樂曲
品玩6月12日訊,Meta近日在Github上開源了其AI語言模型MusicGen,該模
2023-06-12 -
傳蘋果 Vision Pro OLED 面板供應商為索尼 年產(chǎn)能 90 萬片 環(huán)球快播報
【CNMO新聞】此前,蘋果公司發(fā)布旗下首款頭顯——VisionPro。6月12日,
2023-06-12 -
「拖拽」就能實現(xiàn)精準 P 圖的 DragGAN,論文作者親自揭秘技術(shù)了
在圖像生成領域,以StableDiffusion為代表的擴散模型已然成為當前占據(jù)
2023-06-12
相關閱讀
-
焦點消息!Meta 開源文本生成音樂大模型,我們用《七里香》歌詞試了下
機器之心報道編輯:杜偉、梓文年初,谷歌推出了音樂生成大模型MusicLM
-
軟通動力加入華為 GaussDB 數(shù)據(jù)庫金融行業(yè)生態(tài)發(fā)展計劃
(全球TMT2023年6月12日訊)6月7日,以智領睿變,共建數(shù)智金融未來為主
-
環(huán)球資訊:Meta 開源 AI 語言模型 MusicGen,可將文本和旋律轉(zhuǎn)化為完整樂曲
品玩6月12日訊,Meta近日在Github上開源了其AI語言模型MusicGen,該模
-
環(huán)球今熱點:華為昇騰概念異動拉升,常山北明漲停
鈦媒體App6月12日消息,華為昇騰概念午后異動拉升,常山北明漲停,潤和
-
傳蘋果 Vision Pro OLED 面板供應商為索尼 年產(chǎn)能 90 萬片 環(huán)球快播報
【CNMO新聞】此前,蘋果公司發(fā)布旗下首款頭顯——VisionPro。6月12日,
-
每日熱點:看懵!市民烈日排隊 5 小時,有人花上百差價,只為嘗到網(wǎng)紅面包!消保委暗訪“插隊”都買不到……
這么熱的天,就為了買這幾個面包,排了快一個小時隊了。近日,潮新聞記
-
愛奇藝虧了 13 年都盈利了,電影行業(yè)該怎么和劇集競爭?-全球熱訊
AI時代的到來,對電影的影響是迫在眉睫,我們唯有入局才能破局。王健兒
-
天天熱門:市價打 7 折,浙商銀行為什么選擇低價配股?
6月11日晚間,浙商銀行(601916 SH)發(fā)布A股配股發(fā)行公告,歷時已超一
-
焦點!推特拒向谷歌云支付費用,其信用和安全團隊或受影響
據(jù)新浪科技消息,Twitter拒絕向谷歌云支付費用,兩家公司的合作將于
-
4個月爆賣1751億元!這屆年輕人左手刮刮樂,右手身份證,實名制讓財神爺“打款”500萬
這是一種類似于“建議專家別再建議”“禁止隨地大小爹”的精神反抗投射
-
「拖拽」就能實現(xiàn)精準 P 圖的 DragGAN,論文作者親自揭秘技術(shù)了
在圖像生成領域,以StableDiffusion為代表的擴散模型已然成為當前占據(jù)
-
佳能即將推出 RF 卡口變焦魚眼鏡頭?
根據(jù)海外媒體Canonrumors爆料,佳能將會推出一款RF卡口的魚眼變焦鏡頭
-
適馬仍致力于研發(fā) Foveon 傳感器 環(huán)球?qū)崟r
近日,海外媒體CineD在CineGearExpo2023展會上采訪了適馬社長山木和人
-
動態(tài):華為榮耀互懟:一塊屏幕引發(fā)的“口水戰(zhàn)”!
就在本月初,發(fā)生了一件頗為狗血的事情:榮耀和華為居然撕起來了,兩家
-
聯(lián)絡互動:子公司 Newegg 已接入 OpenAI Api 接口
品玩6月12日訊,聯(lián)絡互動6月12日在互動平臺表示,公司子公司Newegg作為
-
獲國家廣電總局表揚 《專精特新研究院》第一季圓滿收官
由北京市經(jīng)信局指導,北京銀行獨家冠名、聯(lián)合北京廣播電視臺制作推出的
-
呼和浩特能否超越蘭州?——分析兩城市GDP爭鋒-環(huán)球熱門
呼和浩特能否超越蘭州?——分析兩城市GDP爭鋒GDP爭鋒去年一年,呼和浩
-
意華股份于新疆投資設立新能源公司 注冊資本1億元 天天速遞
企查查APP顯示,近日,晟維新能源(新疆)有限公司成立,法定代表人為
-
安井集團與京東集團簽訂戰(zhàn)略合作框架協(xié)議 當前熱聞
近日,安井集團與京東集團加碼合作,簽訂了戰(zhàn)略合作框架協(xié)議,安井集團
-
全球消息!招商、浦發(fā)等多家股份制銀行下調(diào)人民幣存款利率
6月12日,招商銀行、浦發(fā)銀行、光大銀行、中信銀行、民生銀行、渤海銀
-
三星 Galaxy S24 Ultra 影像或擠牙膏 除 10 倍光變略調(diào)整無其他變化_每日消息
前段時間有傳聞,三星的下一代旗艦手機GalaxyS24Ultra可能將會支持5倍
-
大模型讓數(shù)據(jù)庫行業(yè)先撕起來了,Databricks 和 Snowflake:開發(fā)者們你們現(xiàn)在必須選邊站了 熱資訊
大模型的風已經(jīng)不可避免地刮到了大數(shù)據(jù)行業(yè),火藥味還不小。這不快臨近
-
iPhone 15 量產(chǎn)在即 富士康鄭州、深圳等園區(qū)擴大招工_環(huán)球快看點
iPhone15系列即將量產(chǎn),為應對新機量產(chǎn)人力需求,富士康鄭州、深圳等園
-
精彩看點:微軟 PC Game Pass 將登陸 GeForce NOW,計劃在今年晚些時候
微軟宣布,PCGamePass將會在今年晚些時候登陸GeForceNOW,這可以擴展對
-
要聞速遞:我在 Sony Expo 2023 現(xiàn)場,和索尼中國總裁聊了聊
Sony索尼這個品牌logo,現(xiàn)在可以說是無處不在。無論是手機耳機游戲機等
-
眼鏡來了!蘋果大招終發(fā)布
大家好,這里是【鈦短評】欄目,我是短評君。【鈦短評】是一檔針對近期
-
熱頭條丨重磅!招行、浦發(fā)、中信、光大、民生等銀行同時宣布:下調(diào)存款利率
繼上周四6大銀行宣布下調(diào)部分存款利率之后,6月12日,招商銀行、浦發(fā)銀
-
蔚來全系降價 3 萬元,新客戶取消終身免費換電
6月12日,蔚來汽車官方宣布調(diào)整旗下全系新車的價格及首任車主用車權(quán)益
-
太原:同一套住房的共有產(chǎn)權(quán)人申請?zhí)崛∽》抗e金需依次間隔一年_焦點播報
太原:同一套住房的共有產(chǎn)權(quán)人申請?zhí)崛∽》抗e金需依次間隔一年2023-0
-
天天熱頭條丨遠洋集團:前5月協(xié)議銷售額約286.2億元
遠洋集團:前5月協(xié)議銷售額約286 2億元2023年1-5月,遠洋集團累計實現(xiàn)
精彩推薦
閱讀排行
精彩推送
- 今年文博會有多火?參展方、交易...
- 被判單位行賄罪,華宇軟件遭罰30...
- 廣州交易集團:廣聚發(fā)展新要素,...
- 蔚來全系降3萬背后,免費換電由...
- 【速看料】勝任全場!斯巴魯竟是...
- 銀行轉(zhuǎn)賬一般多長時間到賬?銀行...
- 留存收益是什么意思?留存收益和...
- 機構(gòu):明日24時成品油零售限價調(diào)...
- 開悅生命完成數(shù)千萬人民幣Pre-A...
- 微軟游戲業(yè)務主管菲爾 · 斯賓...
- 環(huán)球觀焦點:李想說理想是豪華品...
- 微軟宣布推出新款 Xbox Seires...
- 華為 8 款產(chǎn)品通過 UFCS 融...
- 如何提升上市公司市值 今日熱聞
- " 游戲行業(yè)真的不行了嗎?" 世界視點
- 【世界熱聞】訊飛星火大模型 V1...
- 天天觀速訊丨聆聽援藏人才代表的...
- 天天報道:助力高考 “火焰藍”...
- 焦點滾動:拉薩市公交公司貼心服...
- 天天訊息:西藏高考成績及分數(shù)線...
- 動態(tài)焦點:太原:同一套住房的共...
- 怎樣防止u盤中毒?u盤中毒了怎么...
- ip電話怎么安裝?ip電話和普通電...
- 膽機是什么?膽機功放和數(shù)字功放...
- 安卓系統(tǒng)是哪個國家開發(fā)的?安卓...
- tft屏幕可以觸摸嗎?tft屏幕缺點...
- 環(huán)球觀察:馬斯克和任正非,都愛...
- windows7兼容性怎么樣?windows7...
- 抗干擾濾波器是什么?抗干擾濾波...
- 世界今熱點:文明實踐在行動|“...