☰

解鎖AI的3D敘事李飛飛、谷歌先行一步

21世紀經濟報道記者孔海麗北京報道

AIGC的3D賽道突然熱鬧了起來。

12月5日，谷歌DeepMind放出了新一代世界模型Genie 2，可以“一張圖生成1分鐘遊戲3D世界”，網友驚呼“黑客帝國來了”。

就在兩天之前，“AI教母”李飛飛的World Labs剛官宣了“空間智能”模型，支持“一張圖生成一個3D世界”。

這是繼Sora之後，對世界模型的又一次討論熱潮。從文本到圖像，再到視頻和可交互的3D世界，AIGC總體上有了重大飛躍。

對於產業端來說，創造性設計類工作和交互式體驗工作流，都迎來了強大助力。世界模型可以爲Agent訓練、具身智能訓練、複雜的動畫製作、遊戲製作、物理學建模等領域，提供無限多樣、可操控的3D環境。

也有產業人士表示，世界模型的進展，意味着終極AGI（通用人工智能）又近了一步。

谷歌拓展通向AGI的廣度

Genie 2是谷歌第二代世界模型，給定一張圖像，就能生成一個通過鍵盤和鼠標輸入的、可操作的3D環境。

圖像中的角色，可以被鍵盤識別並響應智能操作。

同一個起始幀，可以生成不同的運動軌跡。

Genie 2前後記憶具有一致性，周圍場景即便不可見時，也不會發生扭曲。

可貴的是，Genie 2可以根據畫面實時生成新場景，最長可達一分鐘。

這樣的界面，和遊戲有共通之處。

“遊戲在人工智能研究領域發揮着關鍵作用。它們引人入勝的畫質、獨特的挑戰組合和可衡量的進步，成爲安全測試和推進AI功能的理想環境。”谷歌方面坦陳：“事實上，遊戲對谷歌DeepMind一直很重要，也是谷歌訓練Agent的重要途徑。”

但是對具身智能的訓練，行業是遇到了瓶頸的。

足夠豐富和多樣化的訓練環境，才能促進具身智能的實際進步。21世紀經濟報道記者從人形機器人產業人士處獲知，當前，泛化能力是人形機器人的一大痛點。

Genie 2有望幫助具身智能解決訓練瓶頸。

交互功能上，Genie 2可以對交互關係進行建模，例如爆破氣球、打開門和射擊炸藥桶等。

這使得製作多樣化交互場景簡單了許多。利用Genie 2快速構建的各種交互式體驗原型，研究人員能夠快速用新環境來訓練和測試具身智能AI。

例如，使用Imagen 3生成的不同圖像提示Genie 2對紙飛機、龍、鷹或降落傘飛行之間的區別進行建模，並測試Genie控制不同對象時的能力。

也就是說，AI智能體可以在世界模型裡，獲得近乎無限的訓練場景和交互體系。

雖然這項研究還處於早期階段，但谷歌研究人員認爲，Genie 2是解決安全訓練具身智能結構性問題的有效路徑，解鎖具身智能的下一波能力，也能夠實現邁向AGI所需的廣度和通用性。

李飛飛兌現空間智能設想

World Labs是著名AI學者、華裔科學家李飛飛的第一個創業項目，成立於2024年1月，公司創立半年時，估值已超10億美元。

這是一家空間智能公司，致力於構建能夠感知、生成並與3D世界互動的大型世界模型，計劃爲用戶生成可操控其中變量的虛擬3D空間，並允許人們“創建自己的3D世界”。World Labs指出，其軟件將對包括藝術家、設計師、開發人員和工程師在內的各類從業者有所幫助。

12月3日，World Labs交出了1.0版本作業。

由單張圖像可以生成3D世界，用戶可以實質意義上“走進”任何圖像，並在3D中探索。

該工具還配備了可操控的滑塊，來調節模擬景深與模擬推拉變焦，支持調整攝像機的位置和視野、更改對象顏色，創建聚光燈特效、自動運行的動態效果等交互方式，豐富了視覺體驗和更強的操控感。

與Genie 2一樣，World Labs的空間智能模型也可以保證3D世界的一致性，場景更加持久，一旦生成便會一直存在；用戶可以實時控制、實時移動場景，能夠仔細觀察場景中的細節。

世界模型遵循3D幾何的基本物理規則，兼具真實感和深度感，有效提升了內容的操控性和一致性，改變了電影、遊戲、模擬器以及物理世界其他數字呈現形式的製作方式。

英偉達高級研究科學家Jim Fan評價說：“GenAI正在創造越來越高維度的人類體驗快照。Stable Diffusion是2D快照；Sora是2D+時間維度的快照；而World Labs是3D、完全沉浸式的快照。”

目前，Worldlabs對公衆開放了候補名單申請，部分創作者已經可以將這個AI工具整合到現有的工作流程中。

在影視製作領域，AI的3D敘事能力將大大提高內容創作的效率和質量，降低製作成本。創作者可以更快速地生成虛擬場景和角色，通過AI生成的3D世界來構建更加豐富多樣的故事背景，爲觀衆帶來全新的視覺體驗。

例如，在拍攝前利用Worldlabs技術生成虛擬的拍攝場景，幫助導演和攝影師更好地規劃鏡頭和場景佈置，提高拍攝效率和準確性。

對於遊戲行業，3D生成將爲遊戲開發帶來更多可能性。開發者可以利用AI生成更加逼真、細膩的遊戲場景和角色，提升遊戲的沉浸感。

在教育領域，大模型生成的3D內容可以創建更加生動、直觀的教學場景，增加科學、歷史等學科的體驗感。

李飛飛認爲，“空間智能”是AI拼圖的關鍵一環。她今年4月份在TED演講中曾稱：“視覺變成了洞察力；洞察力變成了理解力；理解力推動了行動。所有這些都產生了智能。”

Genie 2和Worldlabs所代表的空間智能領域，是AI技術發展的一個重要新方向。它突破了傳統AI在二維平面上的侷限，將AI的感知和理解能力拓展到了三維空間，更直觀，也更趨近於交互本質。

解鎖AI的3D敘事 李飛飛、谷歌先行一步