解鎖AI的3D敘事 李飛飛、谷歌先行一步

21世紀經濟報道記者孔海麗 北京報道

AIGC的3D賽道突然熱鬧了起來。

12月5日,谷歌DeepMind放出了新一代世界模型Genie 2,可以“一張圖生成1分鐘遊戲3D世界”,網友驚呼“黑客帝國來了”。

就在兩天之前,“AI教母”李飛飛的World Labs剛官宣了“空間智能”模型,支持“一張圖生成一個3D世界”。

這是繼Sora之後,對世界模型的又一次討論熱潮。從文本到圖像,再到視頻和可交互的3D世界,AIGC總體上有了重大飛躍。

對於產業端來說,創造性設計類工作和交互式體驗工作流,都迎來了強大助力。世界模型可以爲Agent訓練、具身智能訓練、複雜的動畫製作、遊戲製作、物理學建模等領域,提供無限多樣、可操控的3D環境。

也有產業人士表示,世界模型的進展,意味着終極AGI(通用人工智能)又近了一步。

谷歌拓展通向AGI的廣度

Genie 2是谷歌第二代世界模型,給定一張圖像,就能生成一個通過鍵盤和鼠標輸入的、可操作的3D環境。

圖像中的角色,可以被鍵盤識別並響應智能操作。

同一個起始幀,可以生成不同的運動軌跡。

Genie 2前後記憶具有一致性,周圍場景即便不可見時,也不會發生扭曲。

可貴的是,Genie 2可以根據畫面實時生成新場景,最長可達一分鐘。

這樣的界面,和遊戲有共通之處。

“遊戲在人工智能研究領域發揮着關鍵作用。它們引人入勝的畫質、獨特的挑戰組合和可衡量的進步,成爲安全測試和推進AI功能的理想環境。”谷歌方面坦陳:“事實上,遊戲對谷歌DeepMind一直很重要,也是谷歌訓練Agent的重要途徑。”

但是對具身智能的訓練,行業是遇到了瓶頸的。

足夠豐富和多樣化的訓練環境,才能促進具身智能的實際進步。21世紀經濟報道記者從人形機器人產業人士處獲知,當前,泛化能力是人形機器人的一大痛點。

Genie 2有望幫助具身智能解決訓練瓶頸。

交互功能上,Genie 2可以對交互關係進行建模,例如爆破氣球、打開門和射擊炸藥桶等。

這使得製作多樣化交互場景簡單了許多。利用Genie 2快速構建的各種交互式體驗原型,研究人員能夠快速用新環境來訓練和測試具身智能AI。

例如,使用Imagen 3生成的不同圖像提示Genie 2對紙飛機、龍、鷹或降落傘飛行之間的區別進行建模,並測試Genie控制不同對象時的能力。

也就是說,AI智能體可以在世界模型裡,獲得近乎無限的訓練場景和交互體系。

雖然這項研究還處於早期階段,但谷歌研究人員認爲,Genie 2是解決安全訓練具身智能結構性問題的有效路徑,解鎖具身智能的下一波能力,也能夠實現邁向AGI所需的廣度和通用性。

李飛飛兌現空間智能設想

World Labs是著名AI學者、華裔科學家李飛飛的第一個創業項目,成立於2024年1月,公司創立半年時,估值已超10億美元。

這是一家空間智能公司,致力於構建能夠感知、生成並與3D世界互動的大型世界模型,計劃爲用戶生成可操控其中變量的虛擬3D空間,並允許人們“創建自己的3D世界”。World Labs指出,其軟件將對包括藝術家、設計師、開發人員和工程師在內的各類從業者有所幫助。

12月3日,World Labs交出了1.0版本作業。

由單張圖像可以生成3D世界,用戶可以實質意義上“走進”任何圖像,並在3D中探索。

該工具還配備了可操控的滑塊,來調節模擬景深與模擬推拉變焦,支持調整攝像機的位置和視野、更改對象顏色,創建聚光燈特效、自動運行的動態效果等交互方式,豐富了視覺體驗和更強的操控感。

與Genie 2一樣,World Labs的空間智能模型也可以保證3D世界的一致性,場景更加持久,一旦生成便會一直存在;用戶可以實時控制、實時移動場景,能夠仔細觀察場景中的細節。

世界模型遵循3D幾何的基本物理規則,兼具真實感和深度感,有效提升了內容的操控性和一致性,改變了電影、遊戲、模擬器以及物理世界其他數字呈現形式的製作方式。

英偉達高級研究科學家Jim Fan評價說:“GenAI正在創造越來越高維度的人類體驗快照。Stable Diffusion是2D快照;Sora是2D+時間維度的快照;而World Labs是3D、完全沉浸式的快照。”

目前,Worldlabs對公衆開放了候補名單申請,部分創作者已經可以將這個AI工具整合到現有的工作流程中。

在影視製作領域,AI的3D敘事能力將大大提高內容創作的效率和質量,降低製作成本。創作者可以更快速地生成虛擬場景和角色,通過AI生成的3D世界來構建更加豐富多樣的故事背景,爲觀衆帶來全新的視覺體驗。

例如,在拍攝前利用Worldlabs技術生成虛擬的拍攝場景,幫助導演和攝影師更好地規劃鏡頭和場景佈置,提高拍攝效率和準確性。

對於遊戲行業,3D生成將爲遊戲開發帶來更多可能性。開發者可以利用AI生成更加逼真、細膩的遊戲場景和角色,提升遊戲的沉浸感。

在教育領域,大模型生成的3D內容可以創建更加生動、直觀的教學場景,增加科學、歷史等學科的體驗感。

李飛飛認爲,“空間智能”是AI拼圖的關鍵一環。她今年4月份在TED演講中曾稱:“視覺變成了洞察力;洞察力變成了理解力;理解力推動了行動。所有這些都產生了智能。”

Genie 2和Worldlabs所代表的空間智能領域,是AI技術發展的一個重要新方向。它突破了傳統AI在二維平面上的侷限,將AI的感知和理解能力拓展到了三維空間,更直觀,也更趨近於交互本質。