具身智能持續火熱 專家提醒實現週期或需要十年

本報記者 曲忠芳 北京報道

6月14日,《中國經營報》記者在中關村國家自主創新示範區展示中心看到,三臺來自銀河通用的機器人正在“忙碌工作”,吸引了不少觀衆駐足圍觀。其中有兩臺分別接收到“我渴了”“我餓了”的指令,自主導航到貨架取出對應的瓶裝水、零食並放置到指定位置,另一臺則在執行家居收納的任務。現場一名技術人員告訴記者,機器人本體應用的是北京智源人工智能研究院(以下簡稱“智源研究院”)的具身智能大模型,基於視覺方案,能夠根據用戶的指令進行思考、交互並完成抓取任務。

銀河通用成立於2023年5月,由智源研究院孵化,投資方除了經緯創投、藍馳創投等風投機構之外,還有科大訊飛、商湯、美團等知名科技企業。需要指出的是,受AI大模型的帶動,具身智能機器人領域自去年中期火熱至今,涌現出大量的初創公司。

在同步進行的2024北京智源大會上,具身智能成爲熱議話題之一,也是智源研究院重點佈局的科研攻關方向之一。中國工程院院士、清華大學智能產業研究院院長張亞勤提到,實現通用人工智能(AGI)三個關鍵領域是信息智能、物理智能和生物智能。信息智能可能五年左右可以實現,比如當下在文本理解與生成層面已經實現,而視頻則還需要幾年。物理智能或具身智能領域,實現大模型在物理環境中的理解與操作能力,預計要十年;而到生物智能領域,聚焦人體腦機接口、生物科學,實現大模型與生物體聯結,則可能需要二十年左右才能實現。

AI大模型與具身智能

“具身智能”,譯自英文embodied AI,字面意思是“具有身體的人工智能”。簡言之,具身智能就是,讓機器人或智能系統像生物一樣,通過自己的身體去感知世界、理解世界,並在世界中行動和完成任務的智能技術。一年多來,隨着政策、資本、產業、學術界的共同推動,具身智能成爲廣爲人知的熱門詞彙。

值得一提的是,在大衆輿論語境中,具身智能常常會被認知爲人形機器人,以此作爲其通俗意義的指代稱呼。智源研究院院長王仲遠提醒道,具身智能不能等同於人形機器人,它代表的是一種智能技術,當具身智能走進物理世界、與不同硬件結合時,形成的硬件有可能是機械手臂、四足或六足機器人、輪式機器人,或者人形機器人,因此二者的範疇是不同的,人形機器人只是可能承載具身智能的一個本體。

AI大模型與具身智能有何關係?爲什麼能推動具身智能賽道趨於火熱,且吸引衆多企業的佈局與參與?

王仲遠解釋,多模態大模型能夠幫助計算機去感知和理解世界,接下來它能夠演化成一個智能體。當數字世界的智能體進入物理世界,即具身智能。智源研究院將具身智能作爲未來幾年內重點投入科研的重要方向之一,目前在機器人的末端操作、具身大小腦、硬件等方面都取得了一系列突破性的成果。

從智源研究院落地在銀河通用機器人本體上的研究成果來看,通過大規模、高質量的仿真系統建設、超過10億次抓取的數據,訓練出通用抓取的模型——抓取是整個機器人最重要的基本操作,在工業級的真機上能夠實現95%的成功率。除了抓取技術,大模型給具身智能帶來了思考能力的變化,智源研究院研發了兩個“專模專用”各司其職的大模型,能夠讓機器人在失敗時去反思、重新規劃操作動作,再次嘗試。需要說明的是,具身智能機器人在醫療場景也有很大的落地空間。智源研究院聯合清華301醫院實現了首臺智能心臟超智機器人,並在真人身上實現了自主超聲掃描,將結果與專業醫生掃描的結果進行對比後,準確性、效率與人類醫生基本持平,穩定性和舒適性明顯高於人類醫生。這在當下超聲醫生人手不足的情況下,對提升超聲醫療的普及度具有非常重要的意義。

王仲遠指出,具身智能距離真實的應用或者產業化還有比較長的時間,因此需要對具身智能——尤其是人形機器人要保持理性客觀地看待,存在非常多需要突破的問題,諸如數據、具身大腦模型、場景應用等,目前各層面數據比較零散。智源研究院將聯合清華、北大等高校,以及銀河通用、領視智遠等初創公司,還有上下游供應鏈的相關企業,共同搭建具身智能的創新平臺,以解決數據模型、場景等方面的問題,推動具身智能技術的發展,這將是下半年和明年智源研究院的重要工作重點。

具身智能還要走很長的路

在2024北京智源大會上,針對當下人形機器人賽道參與者衆多、創業項目層出不窮的現象,零一萬物CEO、創新工場董事長李開復“潑”了一盆冷水,他透露,目前創新工場投資了約6家無人駕駛公司,卻並沒有投資任何一傢俱身智能、人形機器人公司。李開復指出,具身智能是物理世界跟AI的結合,一旦大模型接入物理世界,就需要面臨包括安全問題、機器問題、機械問題、故障問題在內的各種問題,難度會增加很多倍。

“當前大模型更適合在虛擬世界服務,如在金融機構中擔綱後臺、客服等工作,很快會落地產生價值。”李開復表示,對於創業者而言,如果希望短期內技術落地產生價值,做虛擬世界的人工智能容易很多。具身智能是重要的,它可以很好地結合大模型多模態能力,而且一旦實現之後就可以產生數據,形成數據飛輪閉環,有很大的想象空間。但是他也坦言,具身智能要在短期做好,難度很大,必然要走漫長的道路。此外,從投資機構的視角,人形機器人在絕大多數應用場景中可能並不需要,包括波士頓動力在內的許多人形機器人公司的創始人、科學家可能從小熱愛科技,希望能複製出一個“人”來,這無可厚非,然而從投資機構的視角,可能會給出一個更加務實理性的判斷。

王仲遠在接受記者採訪時表示,過去一年裡,具身智能領域、人形機器人賽道變得非常火熱,但從技術發展週期規律來看,無論是具身智能大模型的技術,還是人形機器人,都要能夠接受行業未來幾年內進入低谷的可能性。智源研究院會持續潛心去研究攻關,直到跨越週期,迎來真正的爆發。“我們堅信智能體會從數字世界進入物理世界,具身智能與世界模型相互促進,最終實現通用人工智能。”

張亞勤從AI安全方面發出了提醒,隨着AI能力的不斷擴大,AI的安全風險也在擴大,因此現在考慮未來的風險是很重要的。當AGI達到一定能力並被大規模部署,那麼可能會有失控的風險。目前AI仍存在可解釋性問題,未來機器人數量可能會比人要多,當大模型被用到基礎物理設施、金融系統,包括國家安全、軍事系統等方面,就可能會有失控的風險。在張亞勤看來,一定要現在開始就把AI治理重視起來。

(編輯:吳清 審覈:李正豪 校對:顏京寧)