逼真到恐怖!小姐姐擠眼挑眉五官亂飛,3D化身全新算法秒殺谷歌
新智元報道
編輯:編輯部
【新智元導讀】誰能想到,某天和你聊天的那個人竟是一個AI。來自TUM等研究人員提出了一種全新算法NPGA,能夠生成高保真3D頭像,表情逼真到讓你懷疑自己的眼睛。
真正的恐怖谷效應是什麼?
快看,下面這個女生做出了各種生動豐富的表情,擠眼,挑眉,嘟嘴....
再來看這個男孩,不停地變化嘴型,再加上細微的眼神動作,絲毫看不出來和我們有何區別。
然而,誰能想到,他們竟不是真人!
網友紛紛稱其爲AGI,簡直逼真到可怕。
如此厲害的3D頭像生成,完全不輸小扎此前帶着Quest 3 Pro做客「元宇宙」播客的逼真數字化身。
那麼,這項研究竟出自哪位民間高手?
最近,來自德國慕尼黑工業大學、倫敦大學學院等研究團隊提出了全新算法——NPGA,可生成高質量3D頭像。
論文地址:https://arxiv.org/pdf/2405.19331
這是一種基於數據驅動的方法,從多視角的視頻中創建出高保真、可控的虛擬化身。
傳統上,往往會用網格3DMM去生成渲染的頭像,但效果一般。
而NPGA的創新在於,採用了高斯點雲的方式,即通過無數個點組成3D人像形狀,讓渲染更加高效、逼真。
另外,研究的另一個創新在於,利用了神經網絡模型——「神經參數化頭模型」(NPHM)來捕捉人臉細微表情的變化,由此3D數字化身可以更真實模擬人類表情。
最後,爲了增強數字化身的表現力,研究人員還對潛在特徵和預測動態提出了「拉普拉斯項」(Laplacian terms)。
實驗評估結果顯示,NPGA比起之前SOTA模型,在自我重現任務中,大約有2.6PSNR提升。
有人驚呼,這簡直離詐騙又近了一步。
此時的網友還不忘調侃,谷歌最近放出的一個不可思議的視頻。
看這奇怪的畫風,再加上虛擬化身不穩定性,簡直無法和NPGA競爭。
這是谷歌團隊新提出的ChatDirector算法,按谷歌宣傳的話稱,3D虛擬頭像可以讓在線會議更具「沉浸感」
NPGA:神經參數高斯化身
這項技術可以應用在很多場景,比如電影、遊戲、AR/VR遠程會議,以及小扎心心念唸的元宇宙。
雖然視頻的效果看起來如此逼真,但其實,從現實世界捕獲圖像並重建3D頭像是一個極具挑戰性的課題。既需要計算機視覺(CV)準確的識別功能,也需要計算機圖形學(CG)的高保真和實時渲染性能。
近年來這兩項技術的交叉,讓虛擬世界的3D化身越來越逼真。然而,有一個核心問題還沒被解決——如何實現控制性。
谷歌ChatDirector的視頻之所以十分奇怪,主要原因不在畫面渲染,而在面部動作和表情的控制性差,說話時嘴動了但其他部位沒有動,有「皮笑肉不笑」的感覺。
Reddit評論區有網友發問,「我什麼時候能看到這個模型的開源版本,這樣只需要幾張照片就能生成類似的3D化身了?」
很遺憾,目前的技術應該還做不到通過幾張圖片就能進行3D重建。
團隊使用的訓練集NeRSemble是一個視頻數據集,用16個機位拍攝了220多個人體頭部的4700多個高分辨率、高幀率的多視圖視頻,包含了各種豐富頭部運動、情緒、表情和口語。
這個數據集同樣由NPGA的作者團隊發表於2023年,並被SIGGRAPH 2023和ACM TOG接收。
論文地址:https://tobias-kirschstein.github.io/nersemble/
溫馨提示,想點進去看示例視頻的話可能需要比較強大的心理素質,裡面收錄的各種誇張表情可以稱之爲人類抽象行爲大賞。
去年剛發表數據集時,重建出來的動作和表情還比較僵硬,也沒有豐富的面部細節。
短短一年時間就做到了如此逼真的效果,源於團隊在方法上做出的改進。
方法概述
a) 以MonoNPHM模型爲基礎,在NeRSemble數據集上使用COLMAP計算的點雲追蹤MonoNPHM,從而實現幾何精確的模型追蹤。
b) 提出循環一致性目標來反轉MonoNPHM的後向變形場,由此產生的前向變形場可以直接兼容基於光柵化的渲染。
c) NPGA由規範高斯點雲和MLP組成,包含蒸餾過的先驗網絡F進行前向變形,以及網絡G學習細粒度的動態細節。
d) 通過爲每個基元(primitive)附加潛在特徵,將變形場的輸入提升到一個更高維的空間,從而可以更準確地描述每個基元的變形行爲。
具體算法細節
之前的頭部重建工作大多會使用3D可形變模型(3D Morphable Model),使用主成分分析(PCA)學習人體幾何圖形的表示,將面部識別和表情變化的參數空間分開。
儘管3DMM的參數空間足夠緊湊,但論文作者認爲,其底層的線性本質限制了表達空間能夠實現的保真度。
論文同時表示,底層表達空間對於虛擬人的質量有至關重要的作用,不僅影響可控性,而且決定細節清晰度的上限。如果底層的表達不充分,很有可能在優化模型時導致過擬合。
因此,團隊使用了3DMM的改進版——NPHM(Neural Parametric Head Models,神經參數化頭部模型),從多視角的圖像序列中追蹤並提取身份識別的隱向量z_id和表情代碼z_exp。
之後,就可以用一個後向變形場B,將姿勢空間中的點x_p轉換爲規範空間中的座標x_c:
比較遺憾的是,這項研究只專注於重建頭部,屏蔽了數據集中的軀幹部分,因爲沒有包含在NPHM提取出的z_exp的表達空間內。
基於3DGS中的爲每個基元定義的場景表示,作者額外添加了高斯特徵,雖然它本身是一個靜態特徵,但可以爲每個基元的動態行爲提供語義信息,起到了一種類似於位置編碼的作用。
進行參數化表達後,論文提出的用於建模面部表情的動態模塊D由2個多層感知器(MLP)組成:
- 基於粗略先驗的網絡F
- 超越先驗知識、負責建模剩餘細節的網絡G
其中,模型F的訓練和使用是這篇文章的核心創新之一。首先讓F在NeRSemble數據集中20個人的圖像序列上進行訓練,之後會將這個網絡運用在所有虛擬化身的重建中。
F的先驗知識,則通過「循環一致性蒸餾」的方法,從後向變形場B中提取(實質上是B的逆元).
之後使用動態模型D,就可以得到重建的姿勢空間中的高斯點雲表示A_p:
基於A_p完成屏幕空間的渲染後,團隊還提出使用一個CNN網絡提升潛在圖像的細節表達,取代了用超分辨率處理。之後的消融實驗也證明了CNN對性能提升的有效性。
除了算法和架構的設計,團隊也在優化策略上做了兩處改進。
其一是對規範空間A_c與動態模型D進行基於KNN圖算法的拉普拉斯平滑。
其二是自適應密度控制(Adaptive Density Control),這是3DGS成功的核心因素。使用啓發式的方法,在靜態場景下,對可能冗餘的高斯點雲密度進行剪枝處理。
實驗評估
研究人員通過自我重現(Self-Reenactment)任務來評估NPGA算法的保真度。
自我重現會更準確地描繪出看不見的表情,並在頭髮區域等相對靜態區域中,包含更清晰的細節。
有趣的是,GHA_NPHM的性能比GHA稍差,這表明僅使用MonoNPHM表達代碼,並不能立即提升性能。
相反,研究人員假設如果沒有NPHM的運動作爲初始化,NPHM的潛在表達分佈可能會,提供比BFM的線性混合形狀更復雜的訓練信號。
如下是,不同方法對保留序列的定性比較。
這些方法的定量結果如下。
再來看,在交叉重現(cross-reenactment)任務中,全新算法的表現又如何?
交叉重現是指,將另一個人的表情轉移到虛擬化身上。
如下圖所示,所有的方法都成功將身份和表達信息分裂出來,從而實現了有效的交叉重現。
不過,NPGA的化身保留了更多驅動表情的大部分細節。
爲了證明算法的現實世界適用性,圖6顯示了,研究人員利用MonoNPHM的單目RGB,來追蹤高保真化身動畫。
消融研究
在最後的消融實驗中,爲了驗證NPGA的幾個重要組成部分,研究人員通過使用三個受試者進行了消融實驗。消融的定量和定性結果分別見表2和圖5。
如果不利用全高斯特徵(Vanilla),3D頭像就無法呈現出非常精細的表情,包括眼睛和下齒等複雜區域。
不過,在添加全高斯特徵(p.G.F.)後,重建效果明顯更清晰,但在極端表情下容易產生僞影。
當研究人員添加了拉普拉斯正則化和屏幕空間CNN,最終解決這一僞影問題。
此外,實驗還證明了,默認的點雲密集化策略,會抑制細節的重建,因此使用自適應密度控制(ADC)的策略非常必要。
下表說明了,使用正則化策略可以顯著縮小訓練序列(NVS)和測試序列(自我重現任務)之間的泛化差距。
侷限性
研究人員表示,NPGA創建的虛擬化身的可控性、重建質量,從根本上講,會受到底層3DMM表達空間的限制。
因此,包括頸部、軀幹、舌頭、眼珠旋轉這些區域,無法用NPHM的表情代碼來完全解釋。
由此,算法無法可靠地進行動畫處理,甚至可能因爲過擬合而帶來僞影。
目前可能的解決方案是,將底層3DMM擴展,提供對人類狀態更詳細的描述。
此外,NPGA作爲一種數據驅動的頭像創建方法,在一定程度上受限於可用的數據。
參考資料:
https://simongiebenhain.github.io/NPGA/
https://www.reddit.com/r/singularity/comments/1d41fgr/ngpa_new_high_quality_real_time_3d_avatar_from/