☰

逼真到恐怖！小姐姐擠眼挑眉五官亂飛，3D化身全新算法秒殺谷歌

新智元報道

編輯：編輯部

【新智元導讀】誰能想到，某天和你聊天的那個人竟是一個AI。來自TUM等研究人員提出了一種全新算法NPGA，能夠生成高保真3D頭像，表情逼真到讓你懷疑自己的眼睛。

真正的恐怖谷效應是什麼？

快看，下面這個女生做出了各種生動豐富的表情，擠眼，挑眉，嘟嘴....

再來看這個男孩，不停地變化嘴型，再加上細微的眼神動作，絲毫看不出來和我們有何區別。

然而，誰能想到，他們竟不是真人！

網友紛紛稱其爲AGI，簡直逼真到可怕。

如此厲害的3D頭像生成，完全不輸小扎此前帶着Quest 3 Pro做客「元宇宙」播客的逼真數字化身。

那麼，這項研究竟出自哪位民間高手？

最近，來自德國慕尼黑工業大學、倫敦大學學院等研究團隊提出了全新算法——NPGA，可生成高質量3D頭像。

論文地址：https://arxiv.org/pdf/2405.19331

這是一種基於數據驅動的方法，從多視角的視頻中創建出高保真、可控的虛擬化身。

傳統上，往往會用網格3DMM去生成渲染的頭像，但效果一般。

而NPGA的創新在於，採用了高斯點雲的方式，即通過無數個點組成3D人像形狀，讓渲染更加高效、逼真。

另外，研究的另一個創新在於，利用了神經網絡模型——「神經參數化頭模型」（NPHM）來捕捉人臉細微表情的變化，由此3D數字化身可以更真實模擬人類表情。

最後，爲了增強數字化身的表現力，研究人員還對潛在特徵和預測動態提出了「拉普拉斯項」（Laplacian terms）。

實驗評估結果顯示，NPGA比起之前SOTA模型，在自我重現任務中，大約有2.6PSNR提升。

有人驚呼，這簡直離詐騙又近了一步。

此時的網友還不忘調侃，谷歌最近放出的一個不可思議的視頻。

看這奇怪的畫風，再加上虛擬化身不穩定性，簡直無法和NPGA競爭。

這是谷歌團隊新提出的ChatDirector算法，按谷歌宣傳的話稱，3D虛擬頭像可以讓在線會議更具「沉浸感」

NPGA：神經參數高斯化身

這項技術可以應用在很多場景，比如電影、遊戲、AR/VR遠程會議，以及小扎心心念唸的元宇宙。

雖然視頻的效果看起來如此逼真，但其實，從現實世界捕獲圖像並重建3D頭像是一個極具挑戰性的課題。既需要計算機視覺（CV）準確的識別功能，也需要計算機圖形學（CG）的高保真和實時渲染性能。

近年來這兩項技術的交叉，讓虛擬世界的3D化身越來越逼真。然而，有一個核心問題還沒被解決——如何實現控制性。

谷歌ChatDirector的視頻之所以十分奇怪，主要原因不在畫面渲染，而在面部動作和表情的控制性差，說話時嘴動了但其他部位沒有動，有「皮笑肉不笑」的感覺。

Reddit評論區有網友發問，「我什麼時候能看到這個模型的開源版本，這樣只需要幾張照片就能生成類似的3D化身了？」

很遺憾，目前的技術應該還做不到通過幾張圖片就能進行3D重建。

團隊使用的訓練集NeRSemble是一個視頻數據集，用16個機位拍攝了220多個人體頭部的4700多個高分辨率、高幀率的多視圖視頻，包含了各種豐富頭部運動、情緒、表情和口語。

這個數據集同樣由NPGA的作者團隊發表於2023年，並被SIGGRAPH 2023和ACM TOG接收。

論文地址：https://tobias-kirschstein.github.io/nersemble/

溫馨提示，想點進去看示例視頻的話可能需要比較強大的心理素質，裡面收錄的各種誇張表情可以稱之爲人類抽象行爲大賞。

去年剛發表數據集時，重建出來的動作和表情還比較僵硬，也沒有豐富的面部細節。

短短一年時間就做到了如此逼真的效果，源於團隊在方法上做出的改進。

方法概述

a) 以MonoNPHM模型爲基礎，在NeRSemble數據集上使用COLMAP計算的點雲追蹤MonoNPHM，從而實現幾何精確的模型追蹤。

b) 提出循環一致性目標來反轉MonoNPHM的後向變形場，由此產生的前向變形場可以直接兼容基於光柵化的渲染。

c) NPGA由規範高斯點雲和MLP組成，包含蒸餾過的先驗網絡F進行前向變形，以及網絡G學習細粒度的動態細節。

d) 通過爲每個基元（primitive）附加潛在特徵，將變形場的輸入提升到一個更高維的空間，從而可以更準確地描述每個基元的變形行爲。

具體算法細節

之前的頭部重建工作大多會使用3D可形變模型（3D Morphable Model），使用主成分分析（PCA）學習人體幾何圖形的表示，將面部識別和表情變化的參數空間分開。

儘管3DMM的參數空間足夠緊湊，但論文作者認爲，其底層的線性本質限制了表達空間能夠實現的保真度。

論文同時表示，底層表達空間對於虛擬人的質量有至關重要的作用，不僅影響可控性，而且決定細節清晰度的上限。如果底層的表達不充分，很有可能在優化模型時導致過擬合。

因此，團隊使用了3DMM的改進版——NPHM（Neural Parametric Head Models，神經參數化頭部模型），從多視角的圖像序列中追蹤並提取身份識別的隱向量z_id和表情代碼z_exp。

之後，就可以用一個後向變形場B，將姿勢空間中的點x_p轉換爲規範空間中的座標x_c：

比較遺憾的是，這項研究只專注於重建頭部，屏蔽了數據集中的軀幹部分，因爲沒有包含在NPHM提取出的z_exp的表達空間內。

基於3DGS中的爲每個基元定義的場景表示，作者額外添加了高斯特徵，雖然它本身是一個靜態特徵，但可以爲每個基元的動態行爲提供語義信息，起到了一種類似於位置編碼的作用。

進行參數化表達後，論文提出的用於建模面部表情的動態模塊D由2個多層感知器（MLP）組成：

- 基於粗略先驗的網絡F

- 超越先驗知識、負責建模剩餘細節的網絡G

其中，模型F的訓練和使用是這篇文章的核心創新之一。首先讓F在NeRSemble數據集中20個人的圖像序列上進行訓練，之後會將這個網絡運用在所有虛擬化身的重建中。

F的先驗知識，則通過「循環一致性蒸餾」的方法，從後向變形場B中提取（實質上是B的逆元）.

之後使用動態模型D，就可以得到重建的姿勢空間中的高斯點雲表示A_p：

基於A_p完成屏幕空間的渲染後，團隊還提出使用一個CNN網絡提升潛在圖像的細節表達，取代了用超分辨率處理。之後的消融實驗也證明了CNN對性能提升的有效性。

除了算法和架構的設計，團隊也在優化策略上做了兩處改進。

其一是對規範空間A_c與動態模型D進行基於KNN圖算法的拉普拉斯平滑。

其二是自適應密度控制（Adaptive Density Control），這是3DGS成功的核心因素。使用啓發式的方法，在靜態場景下，對可能冗餘的高斯點雲密度進行剪枝處理。

實驗評估

研究人員通過自我重現（Self-Reenactment）任務來評估NPGA算法的保真度。

自我重現會更準確地描繪出看不見的表情，並在頭髮區域等相對靜態區域中，包含更清晰的細節。

有趣的是，GHA_NPHM的性能比GHA稍差，這表明僅使用MonoNPHM表達代碼，並不能立即提升性能。

相反，研究人員假設如果沒有NPHM的運動作爲初始化，NPHM的潛在表達分佈可能會，提供比BFM的線性混合形狀更復雜的訓練信號。

如下是，不同方法對保留序列的定性比較。

這些方法的定量結果如下。

再來看，在交叉重現（cross-reenactment）任務中，全新算法的表現又如何？

交叉重現是指，將另一個人的表情轉移到虛擬化身上。

如下圖所示，所有的方法都成功將身份和表達信息分裂出來，從而實現了有效的交叉重現。

不過，NPGA的化身保留了更多驅動表情的大部分細節。

爲了證明算法的現實世界適用性，圖6顯示了，研究人員利用MonoNPHM的單目RGB，來追蹤高保真化身動畫。

消融研究

在最後的消融實驗中，爲了驗證NPGA的幾個重要組成部分，研究人員通過使用三個受試者進行了消融實驗。消融的定量和定性結果分別見表2和圖5。

如果不利用全高斯特徵（Vanilla），3D頭像就無法呈現出非常精細的表情，包括眼睛和下齒等複雜區域。

不過，在添加全高斯特徵（p.G.F.）後，重建效果明顯更清晰，但在極端表情下容易產生僞影。

當研究人員添加了拉普拉斯正則化和屏幕空間CNN，最終解決這一僞影問題。

此外，實驗還證明了，默認的點雲密集化策略，會抑制細節的重建，因此使用自適應密度控制（ADC）的策略非常必要。

下表說明了，使用正則化策略可以顯著縮小訓練序列（NVS）和測試序列（自我重現任務）之間的泛化差距。

侷限性

研究人員表示，NPGA創建的虛擬化身的可控性、重建質量，從根本上講，會受到底層3DMM表達空間的限制。

因此，包括頸部、軀幹、舌頭、眼珠旋轉這些區域，無法用NPHM的表情代碼來完全解釋。

由此，算法無法可靠地進行動畫處理，甚至可能因爲過擬合而帶來僞影。

目前可能的解決方案是，將底層3DMM擴展，提供對人類狀態更詳細的描述。

此外，NPGA作爲一種數據驅動的頭像創建方法，在一定程度上受限於可用的數據。

參考資料：

https://simongiebenhain.github.io/NPGA/

https://www.reddit.com/r/singularity/comments/1d41fgr/ngpa_new_high_quality_real_time_3d_avatar_from/

逼真到恐怖！小姐姐擠眼挑眉五官亂飛，3D化身全新算法秒殺谷歌

相關資訊