智源舉辦2024具身與世界模型專題峰會 產學研共促技術創新與產業應用

2024年11月5日,北京智源人工智能研究院主辦的“智源論壇·2024具身與世界模型專題峰會”在智源大廈舉行,智源研究院理事長黃鐵軍、智源研究院院長王仲遠、智源研究院副院長林詠華出席大會。智源具身多模態大模型研究中心負責人、北京大學研究員仉尚航,智源具身智能研究中心負責人、北京大學助理教授、銀河通用創始人王鶴,Google DeepMind研究科學家,谷歌RT1、2,SayCan作者Ted Xiao以及來自清華大學、香港大學、康奈爾大學、UC Berkeley、英國曼徹斯特大學、大灣區大學(籌),中國科學院等知名高校和研究機構的學者專家,加速進化、傅利葉、樂聚機器人、星塵智能等具身智能頭部企業的創始人、CEO圍繞具身智能和世界模型的前沿方向、技術實踐進行了主題分享與深度探討。

具身智能的發展,無論是硬件穩定性,數據採集與仿真,具身大小腦模型分層架構或者端到端技術路線,還是終端使用場景,都面臨諸多挑戰,需要產學研深度協同與廣泛聯動。智源研究院院長王仲遠在開幕式致辭中表示,智源研究院將依託多模態大模型技術優勢資源,聯合北大、清華、中科院等高校院所以及銀河通用、樂聚、加速進化、宇樹等產業鏈上下游企業,建設具身智能創新平臺,重點開展數據、模型、場景驗證等研究,共同打造具身智能創新生態。

智源具身多模態大模型研究中心創新地設計了面向機器人具身基礎模型的快慢系統框架,快系統能夠高效快速的預測末端執行器位姿,慢系統則是在面對複雜和錯誤行爲時更加深入地思考和糾錯,不斷提升機器人大腦的能力。爲了實現該快慢系統框架,智源探索了具身端到端以及大小腦分層結構的不同技術路線,進行開放世界泛化物體操作,並基於大腦模型進行語義理解與常識推理,實現零樣本物體導航。無論是端到端模型還是分層結構,最終都是爲了讓機器人能更好地理解物理世界規律,更好地與環境交互,更好地執行時序上的準確行爲。因此,智源同時提出了四維世界模型Robo4D,爲世界模型構建四維時空,以解決機器人在開放世界中任務操作的物體泛化以及場景泛化等問題。相關研究被國際旗艦會議NeurIPS 2024、ICML 2024接收。

智源具身多模態大模型研究中心利用世界模型預測機器人與環境交互後的未來事件,從而生成準確的行爲,提前預測行爲是正確還是失敗。智源設計的世界模型的技術路徑是,首先將世界模型啓動和響應模態設置爲視頻模態,給定關於動作的語言指令和當前機器人的狀態去生成機器人執行完動作後的完整視頻。針對給定的任務,模型可以完整預測任務執行的過程,從物理世界中學習規律,生成視頻之後,通過模型將視頻轉換成機器人的行動。其中,任務到視頻生成以及視頻到行動的過程,利用了智源原生多模態世界模型Emu3將理解和生成大一統的技術思路,形成自我反思的思維鏈。

智源具身多模態大模型研究中心負責人仉尚航認爲,近期的一系列工作展現出具身基礎模型的廣泛前景,中心將繼續探索具身多模態大模型與大數據構建,踐行機器人領域的Scaling Law。實現真實世界的四維時空世界模型是邁向機器人整體AGI的重要一步。四維世界模型將作爲機器人的世界基礎模擬器,同時具備時間與空間智能,擁有長短期記憶與物理概念學習等能力,與真實物理世界進行交互並從中得到反饋。

智源具身多模態大模型研究中心在近期的研究中將世界模型從二維拓展至四維,採用先驗引導的3D Gaussian Splatting算法,基於單一視角的視頻片段生成四維世界空間。採用多輪世界空間映射模型將不同位置的世界空間映射到視頻域,最終應用於下游任務,生成式數據提升了機器人操作的泛化性。

智源具身智能研究中心負責人、北京大學助理教授、銀河通用創始人王鶴在特邀報告中強調,空間智能要注重三維信息的使用,否則對空間幾何的理解非常有限,還需注重交互智能,而交互智能背後所需的大量數據應該用合成數據替代真實世界的數據採集,才能達到大模型所需要的數據規模,實現真正的泛化性。

目前,智源具身智能研究中心展開了一系列技能的泛化研究和具身端到端大模型的訓練研究。首先把二維真實世界看到的二維圖像升維到三維,用擴散模型預測視差。並自研了大規模動作數據的仿真合成技術,覆蓋了桌面物體擺放、桌面紋理、光照等各種空間形態和位置關係,在仿真器中對光線折射和反射進行仿真並進行渲染。目前團隊最新的進展是完成了10億規模的靈巧抓取數據集DexGraspNet 2.0,覆蓋了基於各種物體的大規模的抓取標籤生成,在這樣的大規模數據上訓練的靈巧手抓取模型率先實現了泛化場景真機成功率90%以上。

在端到端模型研發方面,團隊訓練了全球首個基於視頻流的端到端導航大模型NaVid,無需建圖,也不依賴於深度信息和里程計信息等其它傳感器信號,完全依靠機器人攝像頭採集的單視角RGB視頻流,通過Sim2Real的方式,實現在真實世界室內場景甚至是室外場景的zero-shot真機泛化。近期,智源在導航大模型加入了三維模態,提出了端到端空間導航大模型NaVid-4D,該模型在一系列有更高要求的自然語言指令導航任務中實現了進一步突破。

大會期間,智源研究院院長王仲遠主持具身智能技術與應用發展前沿展望圓桌討論,清華大學自動化系教授,加速進化聯合創始人趙明國,智源具身智能研究中心負責人、北京大學助理教授、銀河通用創始人王鶴、傅利葉創始人兼CEO顧捷,樂聚機器人創始人顧捷,中科院自動化所研究員王鵬,UC Berkeley潘家怡,圍繞具身智能的本體形態、數據、泛化能力、產業落地前景等議題分享了最新的思考與觀察。

此外,下午的空間智能和世界模型圓桌討論由智源研究院副院長林詠華主持,清華大學機械工程系助理研究員陳睿,清華大學電子工程系副教授代季峰,星塵智能創始人兼CEO來傑,香港大學助理教授李弘揚 ,北京通用人工智能研究院研究科學家黃思遠,分別就機器人的世界模型技術路線、關鍵技術要點以及面臨的核心挑戰等問題進行了不同視角的解讀。

在閉幕致辭中,智源研究院理事長黃鐵軍指出,智能是環境的產物。人類智能來源於對環境的適應演化以及對世界的抽象。智能應該是大大小小各種形態的,不能變成一個完全統一的智能。具身智能的發展是必然趨勢,無論是人形還是其他形態的機器人,未來需要龐大的產業羣配套,促進具身智能的關鍵部件與材料,軟件與硬件協同發展。

雷峰網