五官亂飛,張嘴、瞪眼、挑眉,AI能模仿到位,視頻詐騙要防不住了

機器之心報道

編輯:陳萍、小舟

防不住,根本防不住,現在 AI 模仿能力已經發展到這種程度了?

你前腳讓自己的五官亂飛,後腳,一模一樣的表情就被複現出來,瞪眼、挑眉、嘟嘴,不管多麼誇張的表情,都模仿的非常到位。

加大難度,讓眉毛挑的再高些,眼睛睜的再大些,甚至連嘴型都是歪的,虛擬人物頭像也能完美復現表情。

你在左邊調節參數,右面的虛擬頭像也會跟着變換動作:

給嘴巴、眼睛一個特寫,模仿的不能說完全相同,只能說表情一模一樣(最右邊)。

這項研究來自慕尼黑工業大學等機構,他們提出了 GaussianAvatars,這種方法可用來創建在表情,姿態和視角( viewpoint )方面完全可控的逼真頭部虛擬( head avatars)。

該研究表示,在計算機視覺和圖形學中,創造可以動的人類虛擬頭部一直存在挑戰,特別是,極端的面部表情和細節,如皺紋、頭髮等這些細節都很難捕捉,生成的虛擬人物很容易出現視覺僞影。

一直以來,神經輻射場(NeRF )及其變體在從多視圖觀察中重建靜態場景方面顯示出了令人印象深刻的結果。後續研究又進行了擴展,使得 NeRF 可用於人類定製場景的動態場景建模。然而,這些方法缺乏可控性,因此不能很好地泛化到新的姿態和表情。

最近新出現的「3D Gaussian Splatting」方法實現了比 NeRF 更高的渲染質量,可用於實時的視圖合成。然而,這種方法不允許重建輸出的動畫。

本文提出了 GaussianAvatars,這是一種基於三維高斯 splats 的動態 3D 人頭表示方法。

具體而言,給定一個 FLAME(對整個頭部進行建模)網格 ,他們在每個三角形的中心初始化一個 3D 高斯。當將 FLAME 網格動畫化時,每個高斯模型都會根據其父三角形進行平移、旋轉和縮放。然後,3D 高斯在網格頂部形成輻射場,補償網格未準確對齊或無法再現某些視覺元素的區域。

爲了實現重建虛擬人物的高保真度,本文引入了綁定繼承策略。此外,本文還探索瞭如何平衡保真度和魯棒性,以新穎的表情和姿態來動畫化虛擬人物。結果表明,GaussianAvatars 在新穎視圖渲染、駕駛視頻重現等方面都遠遠優於現有的研究。

方法簡介

如下圖 2 所示,GaussianAvatars 的輸入是人頭的多視圖視頻記錄。對於每個時間步,GaussianAvatars 使用光度頭部跟蹤器(head tracker)將 FLAME 參數與多視圖觀察和已知相機參數相匹配。

FLAME 網格的頂點位於不同的位置,但共享相同的拓撲,因此研究團隊可以在網格三角形和 3D 高斯splat之間建立一致的連接。通過可微分的圖塊光柵器(tile rasterizer)將splat渲染成圖像。然後,這些圖像由真實圖像監督,以學習逼真的人體頭部頭像。

靜態場景還需要通過一組自適應密度控制操作來緻密化和修剪高斯splat以獲得最佳質量。爲了在不破壞三角形和splat之間連接的情況下實現這一點,研究團隊設計了一種綁定繼承(binding inheritance)策略,以便新的高斯點與 FLAME 網格保持綁定。

實驗結果

該研究通過新視圖合成來評估重建質量,並通過 self-reenactment 來評估動畫保真度。下圖 3 顯示了定性比較結果。對於新視圖合成,所有方法都會產生合理的渲染結果。對 PointAvatar 的結果的仔細檢查顯示,由於其固定的點大小,出現了點狀僞影,而 GaussianAvatars 通過3D 高斯的各向異性縮放緩解了這個問題。

從表 1 的定量比較中也可以得出類似的結論。GaussianAvatars 在新視圖合成指標方面遠遠優於其他方法,在 self-reenactment 方面也很突出,在 LPIPS 方面的感知差異顯著降低。請注意,self-reenactment 基於跟蹤的 FLAME 網格,可能無法與目標圖像完美對齊。

爲了對虛擬形象動畫進行現實世界的測試,該研究對圖 4 中的 cross-identity reenactment 進行了實驗,虛擬形象準確地再現了源演員的眨眼和嘴巴動作,顯示出活潑、複雜的動態,例如皺紋。

爲了驗證方法組件的有效性,該研究還進行了消融實驗,結果如下圖。