[網摘] 微軟零樣本對話化身生成 (GAIA, Generative AI for Avatar)

微軟零樣本對話化身生成 (GAIA, Generative AI for Avatar) https://microsoft.github.io/GAIA/

從語音和一張肖像照，就可以合成自然的談話影片

把原始語音改成別人相片
化身的表情可以完全跟原始影片的表情、姿體動作一樣
透過文字下指令，控制說話化身的表情與姿體動作，例如：張大嘴巴、震驚、悲傷

摘要：

「零樣本對話化身生成」 (Zero-shot talking avatar generation) 的目的在從語音和一張肖像照片合成自然的談話影片。以前的方法依賴於特定領域的啟發式，例如基於扭曲的動作和3D可塑模型，這限制了生成化身的自然性和多樣性。在這份論文中，我們介紹了GAIA（化身的生成人工智慧），它消除了對話化身生成中的「領域先驗」 (domain priors)。
鑑於觀察到語音僅驅動化身的動作，而化身和背景的外觀在整個影片中通常保持不變，我們將方法分為兩個階段：1）從每個影格 (frame) 取出為動作和外觀表示；2）根據語音和參考肖像圖片生成動作序列。
我們收集了大規模高品質的談話化身資料集，並以不同的規模（最多2B參數）對模型進行訓練。實驗結果驗證了GAIA的優越性、可擴展性和靈活性，因為1）生成的模型在自然性、多樣性、唇部同步品質和視覺品質方面超越了以前的基線模型；2）該框架是可擴展的，因為較大的模型產生更好的結果；3）它是通用的，並且可以用於不同的應用，如可控談話化身生成和文本指令的化身生成。

planetoid's blog

搜尋此網誌

世界鮮奶第一貴的國家？

[網摘] 微軟零樣本對話化身生成 (GAIA, Generative AI for Avatar)

留言

世界鮮奶第一貴的國家？

[網摘] 微軟 零樣本對話化身生成 (GAIA, Generative AI for Avatar)

留言

[網摘] 微軟零樣本對話化身生成 (GAIA, Generative AI for Avatar)