AI 工具研究社交流小聚聚會手記

[網摘] 微軟 零樣本對話化身生成 (GAIA, Generative AI for Avatar)

微軟 零樣本對話化身生成 (GAIA, Generative AI for Avatar) https://microsoft.github.io/GAIA/

從語音和一張肖像照,就可以合成自然的談話影片

  • 把原始語音改成別人相片
  • 化身的表情可以完全跟原始影片的表情、姿體動作一樣
  • 透過文字下指令,控制說話化身的表情與姿體動作,例如:張大嘴巴、震驚、悲傷

摘要:

「零樣本對話化身生成」 (Zero-shot talking avatar generation) 的目的在從語音和一張肖像照片合成自然的談話影片。以前的方法依賴於特定領域的啟發式,例如基於扭曲的動作和3D可塑模型,這限制了生成化身的自然性和多樣性。在這份論文中,我們介紹了GAIA(化身的生成人工智慧),它消除了對話化身生成中的「領域先驗」 (domain priors)。

鑑於觀察到語音僅驅動化身的動作,而化身和背景的外觀在整個影片中通常保持不變,我們將方法分為兩個階段:1)從每個影格 (frame) 取出為動作和外觀表示;2)根據語音和參考肖像圖片生成動作序列。

我們收集了大規模高品質的談話化身資料集,並以不同的規模(最多2B參數)對模型進行訓練。實驗結果驗證了GAIA的優越性、可擴展性和靈活性,因為1)生成的模型在自然性、多樣性、唇部同步品質和視覺品質方面超越了以前的基線模型;2)該框架是可擴展的,因為較大的模型產生更好的結果;3)它是通用的,並且可以用於不同的應用,如可控談話化身生成和文本指令的化身生成。

留言