基于擴散模型的音頻驅動說話人生成,云從 & 上交數字人研究入選 ICASSP 2023 世界最新
機器之心發布
機器之心專欄
近日,國際語音及信號處理領域頂級會議 ICASSP2023 在希臘成功舉辦。大會邀請了全球范圍內各大研究機構、專家學者以及等谷歌、蘋果華為、Meta AI、等知名企業近 4000 人共襄盛會,探討技術、產業發展趨勢,交流最新成果。
(資料圖)
云從科技與上海交通大學聯合研究團隊的《 基于擴散模型的音頻驅動說話人生成》成功入選會議論文,并于大會進行現場宣講,獲得多方高度關注。
論文地址:https://ieeexplore.ieee.org/document/10094937/ICASSP(International Conference on Acoustics, Speech and Signal Processing)是語音、聲學領域的頂級國際會議之一, ICASSP 學術會議上展示的研究成果,被認為代表著聲學、語音領域的前沿水平與未來發展方向。
本次入選論文,圍繞 " 基于音頻驅動的說話人視頻生成 " 這一視覺 - 音頻的跨模態任務,將語音與視覺技術結合,提出的方法能夠根據輸入的語音片段技術,生成自然的頭部動作,準確的唇部動作和高質量的面部表情說話視頻。該項成果在多個數據集上,都取得了優于過去研究的表現。
此外,在實戰場景中,隨著現實生活中對于數字人引用的愈來愈廣泛,實現用音頻驅動的生成與輸入音頻同步的說話人臉視頻的需求也越來越大。本項成果基于擴散模型的跨模態說話人生成技術,可以推廣到廣泛的應用場景,例如虛擬新聞廣播,虛擬演講和視頻會議等等。
簡介
基于音頻驅動的說話人視頻生成任務(Audio-driven Talking face Video Generation):該任務是根據目標人物的一張照片和任意一段語音音頻,生成與音頻同步的目標人物說話的視頻。由于其生成的說話人更自然、準確的唇形運動和保真度更高的頭部姿態、面部表情,該任務廣泛應用于如數字人、虛擬視頻會議和人機交互等領域,作為視覺 - 音頻的跨模態任務,基于音頻驅動的說話人視頻生成也受到了越來越多的關注。
為了構建音頻信號到面部形變的映射,現有方法引入了中間人臉表征,包括 2D 關鍵點或者 3D morphable face model ( 3DMM ) ,盡管這些方法在音頻驅動的面部重演任務上取得了良好的視覺質量,但由于中間人臉表征造成的信息損失,可能會導致原始音頻信號和學習到的人臉變形之間的語義不匹配。
此外基于 GAN 的方法訓練不穩定,很容易陷入模型崩塌,往往它們只能生成具有固定分辨率的圖像。針對以上問題,AD-Nerf 引入了神經輻射場,將音頻信號直接輸入動態輻射場的隱式函數,最后渲染得到逼真的合成視頻。但是基于神經輻射場的方法計算量大導致訓練耗時長,算力要求高。并且這些工作大多忽略了個性化的人臉屬性,無法準確的將音頻和唇部運動進行同步。因此本文的研究者們提出了本方法,通過借助去噪擴散模型來高效地優化人臉各部分個性化屬性特征,進而合成高保真度的高清晰視頻。
方法
該方法首先基于一個關鍵的直覺:唇部運動與語音信號高度相關,而個性化信息,如頭部姿勢和眨眼,與音頻的關聯較弱且因人而異。受到最近擴散模型在高質量的圖像以及視頻生成方面已經取得了快速進展的啟發,因此研究者們基于擴散模型重新構造音頻驅動面部重演的新框架,本方法來優化說話人臉視頻的生成質量和真實度。
本方法一共包含四大部分:(1)人臉屬性解耦;(2)唇 - 音對比同步;(3)動態連續性屬性信息建模;(4)基于去噪擴散模型的說話人生成人臉屬性解耦部分中,研究者采用 3DMM 提取源身份圖像的頭部姿態和表情系數,然后借鑒之前 DFA-nerf 的工作采用全連接的自編碼器從表情參數解耦得到唇部運動和眨眼動作信息。
唇 - 音對比同步模塊中,研究者通過引入自監督跨模態對比學習策略來部署一個確定性模型來同步音頻和唇部運動的特征。
動態連續性屬性信息建模模塊中,由于頭部姿勢和眨眼等個性化人臉屬性是隨機的和具有一定概率性的,因此為了對人臉屬性的概率分布進行建模并生成長時間序列,研究者提出采用了基于 transformer 的變分自動編碼器(VAE)的概率模型,一是 VAE 可以用于平滑離散的屬性信息并映射為高斯分布,二是利用 Transformer 的注意力機制充分學習時間序列的幀間長時依賴性。
基于去噪擴散模型的說話人生成模塊中,研究者生成的個性化人臉屬性序列與同步的音頻嵌入相連接作為擴散模型的輸入條件。然后利用條件去噪擴散概率模型(DDPM)將這些驅動條件以及源人臉作為輸入,通過擴散生成的方式生成最終的高分辨率說話人視頻。這些個性化人臉屬性序列與同步的音頻嵌入用來豐富擴散模型,以保持生成圖像序列的一致性。
實驗結果
研究者們通過實驗驗證了本方法對于基于音頻驅動的說話人視頻生成任務的優越性能。
定量比較實驗
研究者將本方法與現有音頻驅動的人臉視頻生成方法通過定量化分析實驗進行比較,采用了峰值信噪比 ( PSNR ) , 結構相似度(SSIM),人臉關鍵點運動偏移(LMD),視聽同步置信度 ( Sync ) 等多個客觀的評估指標,具體信息如表 1 所示。
本文所提出的擴散生成框架在所有的性能指標上都優于其他方法,其中 PSNR 和 SSIM 驗證了人臉屬性解耦方案能夠更好地捕捉說話人的頭部姿態、眨眼等個性化信息。而本方法的 LMD 分數意味著本方法的唇音一致性更強。此外,受益于輸入音頻和唇部運動的跨模態對比學習,本方法在 Sync 指標上大幅超越其他方法。定性比較實驗
研究者將本方法與現有音頻驅動的人臉視頻生成方法進行比較。通過個性化屬性的學習以及擴散模型的優化,我們的方法生成具有個性化的頭部運動,更加逼真眨眼信息,唇 - 音同步性能更好的人臉視頻。
模型中每個模塊帶來的效益
為了突顯出模型中每個模塊的重要性,研究者們做了消融實驗,如表 2 所示,當添加 DDPM 模塊之后,在推理速度和視覺質量方面相比于其他模塊的提升是最大的,其次,受益于解耦的人臉屬性信息以及 VAE 的屬性平滑以及動態連續性建模的作用,說話人人臉的自然度得到了提高。此外,唇音對比學習的模塊通過自監督的方式顯著提高了唇部運動和與輸入音頻的同步質量。
模型的效率研究者們還展示了模型的可訓練參數量,推理速度以及輸出的分辨率大小,并和之前的 SOTA 模型進行了對比,由于使用去噪擴散概率模型,該模型利用變分方法而不是對抗性訓練,并且不需要部署多個鑒別器,因此極大緩解了訓練時模型容易陷入模型坍塌的問題,并且采用了較短的時間步長,推理速度大大提高,效率得到了提升。
結論針對基于音頻驅動的高保真度說話人視頻生成這個任務,云從 - 上交的聯合研究團隊提出了,基于擴散框架的音頻驅動說話人視頻生成方法,只需要一幀或幾幀身份圖像以及輸入語音音頻,即合成一個高保真度的人臉視頻,實現了最先進的合成視頻視覺質量。此外利用了跨模態唇音對比學習的方法,從而提升了唇部和音頻的一致性,在公開數據集上取得了 SOTA 表現。
THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
相關閱讀
-
基于擴散模型的音頻驅動說話人生成,云從 & 上交數字人研究入選 ICASSP 2023 世界最新
機器之心發布機器之心專欄近日,國際語音及信號處理領域頂級會議ICASSP
-
小紅書上的減肥訓練營,背水一戰還是飲鴆止渴?
圖片來源@視覺中國文|五環外OUTSIDE,作者|劉奕然,編輯|車卯卯312斤女
-
環球快訊:夏天到了,給數據中心潑點“冷水”
圖片來源@視覺中國文|腦極體氣溫上升,還有什么能比工作沒了,更能讓人
-
取代 AMD!英偉達成大摩“ AI 首選股”:股價狂飆 200% 后有望再漲 17%_世界新消息
作為今年美股市場上最耀眼的明星,英偉達無疑是AI芯片領域的霸主,而其
-
折扣店的“羊毛”,年輕人快薅不動了
圖片來源@視覺中國文|Tech星球,作者|林京田雨最近逛嗨特購有些郁悶,
-
深刻感受西藏深厚歷史底蘊和獨特藝術魅力 天天實時
中國西藏自治區被稱為“世界屋脊”,也被認為是一望無際的大地上擁有獨
-
當前消息!為建設數字西藏添磚加瓦
盤石與西藏目前數字經濟產業布局有很高的契合度,將致力于服務西藏數字
-
全球滾動:irr增額終身壽險是什么意思?收益如何?
IRR的全稱是內部收益率(InternalRateofReturn),是指一個項目或投資
-
愛心人壽增額壽險可靠嗎?特點有哪些?
可靠。作為一家頗具聲譽的保險公司,愛心人壽保險公司在行業內擁有良好
-
大家鑫佑所享養老年金保險可靠嗎?有什么保障?
可靠。作為一款由大家保險公司推出的養老保險產品,大家鑫佑所享養老年
-
世界看點:增額終身壽險保費一般要多少?要交多久?
不同的產品,不同的情況,價格都不一樣,增額終身壽險一年交幾千、幾萬
-
富德生命大富翁年金保險怎么樣?好處有哪些?
很不錯。富德生命大富翁年金保險是一種專門為退休生活提供保障的保險產
-
4天3漲停 特斯拉FSD入華傳言“帶火”概念股 仍臨多重挑戰|全球即時
【4天3漲停特斯拉FSD入華傳言“帶火”概念股仍臨多重挑戰】新晉“特斯
-
最新便民措施來了!事關醫保轉移接續、異地就醫直接結算→-環球今亮點
6月17日,國家醫保局發布了《關于實施醫保服務十六項便民措施的通知》
-
今熱點:vivo X100 Pro+ 假想圖曝光 設計出人意料 明年年初登場
【手機中國新聞】近日,數碼博主@定焦數碼放出了根據相關爆料信息制作
-
視頻版 Midjourney 又進化了:一句話生成視頻,谷歌注資,網友大呼好萊塢已死! 熱消息
提到國外的生成式AI大模型,文本生成領域有ChatGPT,圖像生成領域有Mid
-
馬斯克稱人工智能對公眾存在風險 這項技術應該受到監管
據央視新聞消息,法國科技萬歲科技創新展正在巴黎舉行,當地時間16日,
-
業內人士:市場的“城投信仰”在中短期內仍將延續 每日速讀
受去年地產銷售下滑、部分平臺融資不規范等影響,14萬億規模的城投債市
-
騰訊電腦管家 6 月 20 日起下線“QQ 安全達人”功能
IT之家6月18日消息,騰訊電腦管家發布公告稱,自2023年6月20日起,QQ安
-
中韓悅未來養老年金保險可靠嗎?具體保障是什么?
可靠。中韓悅未來養老年金保險投保年齡在30天到60歲之間,保障期限到10
-
增額終身壽險4.025是什么意思?好嗎?-全球今日報
4 025是指增額終身壽險的保險金額增長率,也就是說,保險人每年可以獲
-
智惠安享年金保險條款有哪些?特點是什么? 天天時訊
投保年齡:本保險接受的被保險人投保年齡范圍為0周歲—55周歲。保險費
-
定期增額終身壽險是什么意思?好不好? 天天熱頭條
定期增額終身壽險是指在傳統的終身壽險基礎上增加了現金價值積累和投資
-
珠江智尊寶年金保險好不好呢?保障有哪些?
很好。作為一款養老保險產品,珠江智尊寶年金保險具有以下幾個好處:全
-
愛旭股份新品發布暨客戶答謝晚宴閃耀慕尼黑_世界通訊
當地時間6月14日晚,愛旭股份(以下簡稱“愛旭”,證券代碼:600732)
-
從小紅書到閑魚海鮮市場,窺探Z世代畢業照新晉流水生產線
隨著夏日氣溫攀升,一年一度的畢業季又來了。作為定格青春記憶的重要儀式,畢業照的拍攝成為畢業生們最...
-
熱門看點:包粽子、造龍舟、收艾葉——汨羅江畔迎端午
端午近,粽飄香。地道的汨羅人習慣將糯米用堿水浸泡一夜,再用粽葉包成
-
法拉第未來宣布首款車型 FF91 第二階段交付推遲至今年 8 月
品玩6月18日訊,據ev-edition消息,FF912 0FuturistAlliance第二階段FO
-
時隔一個月,中國再度減持!|今日精選
作者丨陳植編輯丨包芳鳴圖源丨圖蟲時隔一個月后,中國再度減持美債。6
-
超 73%QDII 基金今年取得正收益 多只投資美股的收益率超 40%-世界快訊
Wind數據顯示,截止6月15日,今年以來全市場432只QDII基金(不同份額分
精彩推薦
閱讀排行
精彩推送
- 瘋狂小楊哥是下一個辛巴嗎?-世...
- 五個正在省錢的年輕人,一個已經...
- 世界今日報丨第五屆中國西藏旅游...
- 受賄2281余萬元,甘肅省工信廳原...
- 福多多年金保險劃算嗎?有什么保...
- 香港增額壽險利率是多少?多少合...
- 增額壽險irr計算公式是什么?計...
- 補充養老保險和職業年金一樣嗎?...
- 當前動態:龍行富貴c款年金保險可...
- 一組長圖看懂中國古代治亂興衰史...
- 【世界獨家】青春之光,閃耀追夢...
- 【當前熱聞】為什么中國一有創新...
- 華為 MatePad Air 擊破移動辦...
- 聚焦新市民、年輕人,多地出臺公...
- 新品發布會邀請函文案請帖-新品...
- 信泰如意享養老年金保險的優點與...
- 當前動態:增額壽險坑在哪?增額...
- 如意來年金保險條款有哪些?特點...
- 增額終身壽險調整哪些地方?怎么...
- 當前視訊!國壽壽險怎么樣?有哪...
- 韻達股份變更持續督導保薦代表人...
- 在東京教課的馬云回來了:現身杭...
- 試用了蘋果新出的工具,Mac 暢...
- 法拉第未來宣布首款車型 FF91 ...
- 為什么中國一有創新,就被說套殼...
- 艾伯維和百濟神州:踏不進同一條...
- 騰訊入股,這家快遞黑馬要上市了...
- 拉薩:潛鴨“戲”水-天天微資訊
- 國道之行 從雪山奔向大海|尋找...
- 當前熱文:西藏丁青縣孜珠寺風景...