中信證券:AI算法快速迭代 機器人產業關注度持續提升
智通財經APP獲悉,中信證券發佈研報表示,OpenAI 和 Figure 合作推出的 Figure 01 機器人展示了驚人的理解、判斷、行動和自我評估能力,並引發廣泛市場關注。具身智能是機器人實現感知、決策、控制的關鍵,目前主流的算法方案分爲端到端模型(如谷歌 RT-2)和分層決策模型(如 Figure01)兩種路徑。端到端模型通過一個神經網絡完成從輸入到輸出的全過程,但需要海量數據訓練和大量計算資源。分層模型實現難度相對簡單,但不同步驟間的融合和一致性有待提高。但無論採用何種算法,都需要搭建完整的數據收集系統,形成數據飛輪來實現 scaling law,這是機器人算法公司的核心競爭力。
商業化方面,具身智能機器人需要具備移動能力和通用操作能力。通用型機器人(四足、輪式)在移動能力上實現門檻較低,成本更低,而人形機器人在複雜場景下移動仍面臨挑戰。通用操作能力是機器人能夠在不同環境中完成各種任務的關鍵,但目前技術路徑尚不確定。該行判斷,通用機器人相比人形機器人更有可能先實現商業化,且商業價值更大。未來最先落地的可能是移動抓取和放置(mobile pick-and-place)技能,應用於工廠、藥店/超市、商用清潔等場景。國內機器人公司以通用型爲主,領先廠商已實現盈利。展望未來,算法層面的進展將直接決定下一步商業化落地節奏。
中信證券的主要觀點如下:
投資策略:
人形機器人的商業化落地需要同時解決移動能力和操作能力兩大挑戰,而這兩種能力所需的技術路線和發展進程存在差異。
移動能力方面,該行預計人形機器人將在未來2-3年內取得突破性進展,但要實現穩定性和量產還需要額外2-3年的時間。總體而言,移動能力的技術門檻相對較低,競爭的關鍵在於成本控制和量產能力。從商業化的角度看,上半身具備通用操作能力,再加上移動底盤,即可在多個場景實現落地應用。初期可以針對特定場景開發專用機器人,隨着數據和場景的積累,逐步過渡到通用型機器人。如果最終目標是進入家庭,則需要在硬件、傳統機器人運動控制算法、AI技術應用、力控和觸覺反饋以及軟件系統等方面進行長期研發,形成軟硬件與算法高度耦合的產品形態。
操作能力方面,具身智能的發展路徑與當前大模型公司存在差異。由於機器人領域的數據極其有限,難以通過大規模數據訓練模型來實現奇蹟。因此,如何在商業落地的過程中高效收集高質量的數據,將成爲決定公司長期競爭力的關鍵因素。
報告緣起:AI算法快速迭代帶來機器人產業關注度持續提升。
近年來,隨着人工智能技術的快速發展,機器人領域也迎來了新的機遇和挑戰。OpenAI、Google等AI公司持續推出以Sora、RT-2等爲代表的多模態模型,引起了公衆對於計算機視覺以及多領域融合的興趣,使得機器人板塊的整體關注度持續提升。
2024年3月17日,OpenAI與人形機器人初創公司Figure合作推出了Figure 01機器人。一段長達2分35秒的視頻展示了Figure 01驚人的理解、判斷、行動和自我評估能力,迅速在網絡上引發了廣泛關注和討論。值得注意的是,Figure公司此前已經從亞馬遜創始人貝索斯、英偉達、OpenAI和微軟等科技巨頭處籌集了約6.75億美元的資金,公司估值也因此達到了26億美元。Figure 01機器人的亮相,再次將機器人、具身智能等推向了公衆討論的焦點。
隨着人工智能算法的不斷迭代優化,機器人在感知、理解、決策等方面的能力料將不斷提升,其商業化應用前景也將更加廣闊。本篇報告將深入分析當前機器人行業的發展現狀,並對其未來的商業化前景進行展望。
具身智能:感知、決策、控制三大部分結合機械件。
具身智能(Embodied Intelligence)是一種高級的機器智能形式,它使機器人能夠像人類一樣感知和理解環境,並通過自主學習和適應性行爲來完成任務。具身智能的實現過程可以抽象爲感知、決策和控制三個主要環節。
感知層負責獲取和處理環境信息,爲智能體的決策和行爲提供依據。這可以通過兩種方式實現:一是全感知,即構建一個包含操作環境各種知識的大規模數據庫;二是具身交互感知,即通過智能體與環境的實時交互獲取感知反饋,並利用物理定律和數據驅動的方法構建準確的環境表徵。
決策層是具身智能的核心,需要類似人類大腦的處理能力,以滿足機器人在理解指令、分解任務、規劃子任務、識別物體等方面的需求。傳統機器人在多維度人機交互方面存在難題,而RT-2、GPT等大模型的突破爲解決這一問題提供了新思路。這些模型可以充當機器人的"大腦",利用其強大的語言理解和生成能力,與人類進行多維度交互,更好地理解指令和意圖,生成恰當的響應和行爲。
控制層根據感知信息和決策指令,協調機器人各部件的運動,實現智能化的行爲控制。多傳感器融合是控制層的重要方面,通過綜合利用多種傳感器信息,提高機器人對環境的感知和理解能力,實現更具魯棒性和適應性的控制。
算法方案:端到端模型(VLA)與分層決策模型。
機器人算法與該行熟悉的語言類模型有所不同,主要區別在於機器人面對的外界信息都是未知的,因此無法直接照搬語言模型中的Transformer架構。當前具身智能的算法路徑主要分爲兩條:
1)以OpenAI與Figure合作的Figure01爲代表的分層決策模型。它通常分爲三層:策略控制系統(SLC)通過大模型整合任務、環境和本體感知信息;環境交互的控制系統(ELC)通過具身模型實現環境感知和動作規劃;行爲控制系統(PLC)通過傳統控制算法輸出機器人控制的力矩實現最終動作。這種分層架構實現難度相對簡單,但不同步驟間的融合和一致性是主要難點。
2)由Google RT-2爲代表的端到端模型,它首先在大規模互聯網數據上預訓練VLMs,然後在機器人任務上微調。輸入是任務和對象的組合,輸出是一系列動作,利用一個神經網絡完成從輸入到感知、推理、決策和行爲指令輸出的全過程。端到端方案看起來更加完美,谷歌也表示在RT-2模型中觀察到了涌現能力,Scaling是其繼續迭代的一條穩定路徑,但端到端模型在當前存在一定問題:首先需要海量數據進行訓練才能泛化;全程調用大模型,資源消耗巨大,機器人執行動作緩慢。
總體來看,無論何種算法方案,都需要搭建起一套完整數據收集系統,形成一個數據飛輪幫助scaling law的實現,這一套完整循環框架是當前機器人算法公司的核心競爭力。
商業化進展:通用型與人形機器人之爭。
具身智能機器人最終需要具備移動能力和通用操作能力。移動能力可以通過雙足、四足或輪式等方式實現。通用型機器人(四足、輪式)的優勢在於移動能力實現的門檻較低,相較於雙足重心等問題處理方式相對簡單,成本整體較低。雙足(即人形)技術已經能夠在平地行走,但在上下樓梯等複雜場景中還有待解決,不過技術路徑相對明確。機器人的通用操作能力是指機器人能夠在各種環境中,使用機械臂和靈巧手完成不同任務,甚至是任務組合,體現出泛化性。當前,無論是人形還是通用機器人通用操作的技術路徑尚不確定,業界主要從封閉場景的簡單操作開始落地。
該行認爲,通用機器人相比人形雙足(移動)更有可能先實現商業化,且商業價值更大。人類大多數操作都是由上肢和手完成的。由於機械臂技術已經相對成熟,使用夾爪或靈巧手就可以解決部分操作場景。此外,輪式底盤在大多數平面場景中,在穩定性、魯棒性、成本和電池續航等方面都遠超人形雙足。但在家庭場景,成爲通用服務機器人,可能還是需要雙足。
通用操作的實現是一個逐步發展的過程。目前無論是分層模型還是端到端模型,都處於類似自動駕駛L2初期的水平。但從L2到L4的過程中,存在大量可商業化的場景。未來最先實現商業落地的泛化機器人可能是移動抓取和放置(mobile pick-and-place),可以將其視爲一項可操作不同物體的技能。這項技能會從簡單環境和少量操作對象,向複雜環境和多種操作對象發展。
中短期內,機器人可能進入工廠(搬運、分揀、擰螺絲)、藥店/超市(分揀、補貨)、商用清潔(立體清潔)等封閉或半結構化場景。當前國內的機器人公司以通用型爲主,雙足類機器人進展相對較慢。國內通用型機器人基本採用四足形態(機器狗),代表的廠家包括宇樹科技、雲深處、銀河通用、智元機器人、小米以及蔚藍科技等,領先的廠商目前已經能夠維持盈利狀態。展望商業化的下一步,主要目標是能夠通過機器人完成更加精細化的動作,當前機械部分的困難較小,算法層面直接決定了下一步的商業化速度。
風險因素:
全球經濟增速放緩導致下游需求不及預期的風險;持續高通脹導致機器人企業成本上升和利潤率下降的風險;全球半導體芯片短缺持續加劇對機器人產業鏈的衝擊風險;機器人技術發展和產業化進程不及預期的風險;人工智能技術創新和算法迭代速度放緩的風險;機器人安全性、可靠性事故引發的法律訴訟和聲譽損失風險;人才競爭加劇導致企業研發和管理成本上升的風險等。