☰

全球首個多模態世界模型Emu3來了！智源王仲遠：爲多模態大模型訓練範式指明新方向｜鈦媒體AGI

智源Emu3生成的 AI 視頻案例

全球首個原生多模態世界模型來了。

鈦媒體App獲悉，10月21日，北京 AI 領域新型非營利研究機構北京智源人工智能研究院（以下簡稱“智源研究院”，BAAI）發佈採用了自迴歸（autoregressive）技術路線的原生多模態世界模型Emu3，並同步上線技術文檔、開源關鍵技術等供產業界進一步探索。

據悉，Emu3參數量爲8B（80億），只基於下一個token（輸入數據的基本單位）預測，無需擴散模型或組合式方法，把圖像、文本和視頻編碼爲一個離散空間，在多模態混合序列上從頭開始聯合訓練一個Transformer模型。該模型實現了視頻、圖像、文本三種模態的統一理解與生成，傳統模型則只能處理一種類型。而在圖像生成、視覺語言理解、視頻生成任務中，Emu3的表現超過了圖像生成模型Stable Diffusion SDXL 、視覺語言理解模型LLaVA、視頻生成模型OpenSora等國內外主流開源模型，展示了國際領先的 AI 技術。

智源研究院院長王仲遠向鈦媒體App等表示，Emu3證明了下一個token預測能在多模態任務中有高性能的表現，這爲構建多模態AGI提供了廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上，爲大規模的多模態訓練和推理提供基礎，這一簡單的架構設計將利於產業化。未來，多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。

王仲遠強調，行業一定會有一個統一的多模態模型。

智源研究院成立於2018年11月，是全球最早開展 AI 大模型的中國非營利性新型研究機構，也是北京市繼腦科學與類腦研究中心、量子信息科學研究院之後，着力建設的又一個重要的新型研發機構。

智源研究院爲了加快 AI 前沿技術落地，圍繞大模型、類腦脈衝芯片、認知知識圖譜、安全人工智能、疾病腦電、智能信息處理等領先技術的成熟化、工程化建立創新中心，推動 AI 原創成果轉化及產業化。

2024年2月，智源研究院宣佈王仲遠博士擔任新任院長，全面負責研究院各項工作。在此之前，王仲遠在 AI 學術及產業領域深耕長達15年以上，曾在微軟、Facebook（現Meta）、美團、快手等多家頭部公司任職過。

Emu3所使用的自迴歸技術路線的核心思想是利用序列數據中的上下文依賴性來預測未來的數據點。該類型模型中，不同模態數據共享同一套參數，可實現跨模態的關聯和生成，無需人工設計的特徵工程。同時因自迴歸技術路線的特點，在生成數據時模型必須按順序進行，限制了並行計算的能力，導致生成速度較慢。也會遇到長期依賴問題，即模型難以捕捉序列中較遠距離的依賴關係。

所謂“世界模型”是目前技術流派中難度最高的一種，其特點在於讓機器能夠像人類一樣對真實世界有一個全面而準確的認知，不僅包括對事物的描述和分類，還包括對事物的關係、規律、原因和結果的理解和預測，從而進行推理和決策，而“世界模型”也被認爲是通往AGI的最優解。

同期，谷歌與麻省理工學院（MIT）何愷明團隊聯合推進了一個新研究項目，推出名爲Fluid的圖像自迴歸模型，採用連續token生成方式和隨機順序生成單張圖片；圖靈獎得主、Meta首席AI科學家楊立昆（Yann LeCun）領導的Meta AI團隊曾推出V-JEPA世界模型，一種通過觀看視頻來教機器理解和模擬物理世界的方法；李飛飛提到的所謂“空間智能”也是世界模型的一種技術方向；而在國內，智源研究院也率先推出自迴歸路線多模態世界模型Emu3。

王仲遠認爲，Emu3的發佈意味着大模型能夠通過更多維度的數據來理解、學習真實世界。

具體來看，根據智源研究院9月底發佈的技術報告，Emu3模型參數量爲80億，包括了文字、圖片和視頻原始數據，並將視覺數據Token化從而在統一的架構下進行訓練，可以生成文字、多樣化風格的圖片和最長爲5秒的視頻，並且能持續預測下一個Token詞元。

評測結果顯示，英文提示詞下，該模型圖片生成得分爲70.0分，領先於Stability AI於2023年7月推出的SDXL的66.9，落後於OpenAI於2023年8月推出的DALL E3的73.4分；文生視頻得分則爲81.0分，領先於今年6月開源的OpenSora 1.2的79.6分；語言能力，技術報告未提供相關測評數據，主要由於Emu3語言類數據佔比小，參數遠小於市面上其他的語言大模型，因此目前語言能力並不在第一梯隊，但Emu3模型詞彙量達184622，上下文長度達到131072，具有很多語言模型的技術能力。

王仲遠認爲，目前採用自迴歸架構構建統一的多模態世界模型仍處在應用爆發前的“GPT-3時刻”，如今的多模態領域還處於非常早期，因此Emu3只是在前沿技術層面證明了該路線的可能性，未來仍需和產業界合作進一步擴大訓練規模，並將Emu3推向大衆能夠觸及的應用。

算力、數據、生態仍是當前多模態世界模型的挑戰

事實上，近期關於“OpenAI研發的 AI 模型技術是否是未來通用人工智能（AGI）的方向”爭議頗多。其中，蘋果公司內部員工承認“生成式AI技術落後競品兩年以上”，外部直接質疑OpenAI o1的AI推理能力較差，無法解決部分小學數學題內容；而楊立昆則直言，今天的AI大模型比貓還笨，甚至認爲Sora並不能真的理解物理世界，這樣的視頻生成與世界模型的因果預測仍然存在巨大差異。

對此，王仲遠向鈦媒體App坦言，他部分認同楊立昆的說法，確實需要多模態世界模型通往AGI目標，但不一定要借鑑生物大腦設計多個可以類比的自主性 AI 系統子功能模塊這種方案。

Keras之父Francois Chollet也認爲，大模型通過提示使用時，無法理解與訓練數據中情況大相徑庭的情況，因此不具備通用智能，而大模型的主要作用是作爲實際AGI的知識和程序存儲，它們是一種記憶形式，而智能不僅僅是記憶。

不過，當前Emu3這種原生多模態世界模型依然存在諸多“侷限性”，比如整個訓練數據規模不夠大，低於Emu2的370億參數和人類的860萬億-1000萬億神經元規模，使得語言效果無法達到GPT-o1水平；算力規模不夠大，目前智源的AI異構算力平臺與行業最大規模的算力集羣規模依然有一定距離；另外，當前世界模型路線沒有生態和實踐者，亟待更多企業和大公司進行商業落地，從而驗證這條路線的正確性。

“我們需要更多資源，例如，Emu3參數擴大10倍所需的算力、工程化的能力是指數級增加的，所以需要合作伙伴和我們一起訓練下一代的模型。”王仲遠對鈦媒體App表示。

談及預訓練大模型不再訓練時，王仲遠強調，在技術路線收斂的趨勢下，廠商會更積極地探索模型的落地場景。從樂觀的角度來看，說明基礎大模型已經達到一定的能力水平。另從謹慎的角度來說，訓練轉推理說明僅靠市場驅動，會令廠商陷入“追隨者”的境地，不利於原始技術創新。

“我們一直強調智源的定位，是做原始創新，做企業不願意做，高校做不了的事情，所以這使得我們必須做下一代 AI 技術探索，做未來3年-5年可能被行業認可的技術路線。在多模態方向上，智源需要爲整個行業指明一個方向。”王仲遠稱。

以下是智源研究院團隊與鈦媒體App等部分對話交流整理：

智源研究院：首先簡單介紹Emu3 和 Emu 2的技術區別。Emu2 視覺用的還是embedding 的方式，Emu3 變成了離散的token。Emu1，Emu 2 是概念驗證加探索迭代。當時用了預訓好的語言模型和擴散的decoder，快速驗證統一的生成式是否能走通，智源是國際上最早做的探索。因爲不需要訓練語言模型，基於已有的，成本會比較低。Emu3我們是完全從頭訓練，是爲視頻圖像文本原生多模態設計的。

智源研究院：下一個 token 天然的好處是本身就可以續寫，看到前面的 token預測後面的token，可以無限續下去。只是如果在一個場景續寫，看到的長視頻都是一個場景，意義不大。現在整體的續寫能力還沒有突破長的有情節的視頻生成。Emu3這套框架的獨特優勢就是因果性，可以基於前面發生的事情預測後面發生的事情，而不是基於一堆噪聲去想象。Emu3現在可以 5 秒一直續寫。

智源研究院：AI for Science 多模態是非常必須的。GPT 3 到ChatGPT 花了兩年半的時間，Emu3好比當年的 GPT3，Emu3是一箇中間的milestone（里程碑），下一個期待類似 ChatGPT 的的milestone。

智源研究院：繼續研發原生多模態世界模型Emu系列，解決更大規模的數據、算力以及訓練。統一多模態基座大模型是人工智能進入到物理世界非常重要的基座。多模態具身大腦也是研究院正在做的研究。今年我們也看到了諾貝爾的物理學獎給了Hinton教授，化學獎是給了DeepMind團隊。AI for Science 也是智源非常關注的重要研究方向。

智源研究院：當前市場上的語言模型APP 已經開始基於百億模型在使用，這個前提是有了千億、萬億模型，達到更高的性能，百億模型效果隨之更好。而現在，多模態大模型還在不斷探索能力上限。智源探索出了Emu3這樣一條技術路線，那麼接下來需要展示，也期待在多模態領域的“ChatGPT” 的時刻。

我想再一次強調Emu3架構的優越性，將來多模態大模型都能夠非常容易使用，這是Emu3模型的意義。

（本文首發於鈦媒體App，作者｜林志佳，編輯｜胡潤峰）

全球首個多模態世界模型Emu3來了！智源王仲遠：爲多模態大模型訓練範式指明新方向｜鈦媒體AGI

相關資訊