一年砸10億,理想發力端到端,只落後特斯拉半年了?

進階至端到端競賽,車企在智駕領域的段位便明顯拉開了差距。其中影響因素諸多,數據量和算力是兩個重要因素,也是車企在端到端時代面臨的最大挑戰。這背後,裹挾着車企的財力、人力與判斷力。也可能過去數年的數據積累,到如今一無用處。但是沒人可以置身事外,逃避就意味着被淘汰。角力智駕,端到端只是一個開始。

文 |魏冰

編輯 |李歡歡

運營 |土豆

智駕,已經成了衆車企不得不攻下的堡壘。

這是一個不進則退的賽場,稍不留神,就會被對手甩在身後。從2023年開啓的開城之戰,到如今的端到端競賽,場上的玩家不得不繃緊了神經,不敢有絲毫懈怠。

所謂端到端,即深度學習中的概念,英文爲“End-to-End(E2E)”,指的是一個AI模型,只要輸入原始數據就可以輸出最終結果。應用到自動駕駛領域,意味着只用一個模型,就能把攝像頭等傳感器收集到的感知信息,轉換成車輛方向盤怎麼轉、油門踩多少等操作指令,讓汽車自動行駛。

和傳統的通過感知、規劃與決策、控制三個模塊體系下的智駕方案不同,端到端的優勢在於,從感知到決策直接用一個大模型解決,輸入傳感器信號之後,系統直接發出行動指令,減少了信息在不同模塊之間傳遞時的“損耗”和偏差。

眼下,華爲、蔚小理、特斯拉,甚至比亞迪和奔馳等傳統車企,都在卷端到端,但各家的思路與進展,又各不相同。比如,特斯拉和理想的思路是One Model(一個大模型),在此基礎上,理想又率先在業內落地了雙系統——端到端+VLM(視覺語言模型),華爲和小鵬則是分段式端到端。

▲ 智能駕駛概念圖。圖 / 視覺中國

這其中孰優孰劣?理想認爲,要想向L3、L4級別的自動駕駛進階,One Model更適合,這代表着一種更高級的迭代和研發流程,而分段式更適合做L2級別的輔助駕駛。

比蔚來和小鵬晚兩年才自研智駕的理想,怎麼就後來居上了?

在理想內部,有RD和PD兩條脈絡研發智駕,PD是產品交付研發,推送給全量用戶、千人團測的版本由該團隊負責,RD可以理解爲“超前作業”,負責預研技術,探索理想通向未來人工智能的方向。在這樣的架構下,理想的這套“端到端+VLM”的方案,只用了大約一年多的時間便完成了三代迭代。

▲ 理想“端到端+VLM”方案。圖 / 理想汽車官方

這背後需要付出的時間與精力,旁人大概是難以想象的。理想汽車智能駕駛研發副總裁郎鹹朋坦言,大家爲此捨棄了“個人休息時間”,但也別無選擇、沒有退路,“大家都清楚公司的目標是什麼”。

去年理想秋季戰略會上,CEO李想明確強調,智能駕駛是核心戰略,並給內部確定了時間節點,“2024年要成爲智駕的絕對頭部”。

除了一號位自上而下傳導的壓力,還有用戶層面的鞭策,理想汽車智能駕駛技術研發負責人賈鵬自我調侃:“自從2020年由英偉達入職理想後,每天面臨的環境就是——我們是後進生,天天被家長(用戶)罵。”

這讓理想如履薄冰,不得不加速追趕,且沒有捷徑可走。雖然已經有特斯拉提前交卷,但直接抄作業卻行不通。郎鹹朋與曾經負責小鵬智駕業務的吳新宙達成共識,整個過程可以加速,但不能跳過,否則會跳過對很多技術的理解。

因此,雖然時間緊急,理想還是率先嚐試了NPN方案(Neural Prior Net,先驗神經算法,使用部分道路和地圖的先驗信息,幫助車輛識別道路特徵,減少對高精地圖的依賴),趕在年底實現了百城NOA的Flag,但理想發現“只要用圖就做不了全國落地”,因爲偏遠城市的車不多,數據迭代就有問題,而這些歸根結底都是受到了地圖的限制。

▲ 理想汽車系統1率先嚐試了NPN方案。圖 / 理想汽車官方

意識到問題,理想快速切換到無圖方案。不過無圖模式對資源的消耗很大,這種方式有解決不完的Coner case,郎鹹朋解釋:“我什麼時候超車變道?是前面車壓我30公里時速時,還是20公里時?在某個速度條件下,旁邊有實線我變不變?旁邊有車我變不變?後邊來車變不變?”Coner case的場景是無窮無盡的,但“邊界是顯而易見的”(依靠處理Coner case來解決極端場景的能力是有限的)。

到了這一步,端到端便擺在了理想面前。郎鹹朋表示,理想不是爲了端到端而做端到端,理想的智駕方案迭代,是“把技術全都做完一遍之後,遇到問題解決問題的一個實事求是的過程”。對手的進程不太會影響理想,李想強調,用戶體驗纔是做決策的衡量標準。

在這個過程中,理想漸漸摸索出自己的思路。

在天津實測的時候,郎鹹朋發現天津的紅綠燈是進度條式的,和其他城市的紅綠燈不太一樣,怎麼讓系統理解新的場景?這需要讓系統獲得邏輯推理的能力。在這個時候,理想看到了雙系統理論。

於是,理想在端到端模型外,連接了一個VLM (視覺語言模型),這樣便形成兩個系統,系統一負責行駛過程中及時的響應處理,系統二用來解決複雜的需要邏輯推理的問題。

▲ VLM(視覺語言模型)。圖 / 理想汽車官方

端到端能否做好,主要影響因素是數據和算力。

今年初,特斯拉正式在北美推送FSD V12,理想智駕團隊曾遠赴美國體驗該系統,總結下來,“特斯拉FSD在美國西海岸的體驗確實很棒,不過到紐約之後性能急劇下滑”,這可能和數據量有關。

在這方面,郎鹹朋表現出絕對的自信。一方面,理想是增程車,沒有里程焦慮,偏遠的地方都能去,所以數據分佈足夠廣。另一方面,被外界詬病的“套娃造車”,郎鹹朋卻覺得對自動駕駛來說是一種優勢,所有的攝像頭規格、安裝位置都是一致的,數據量非常充足且可以複用。

海量的數據,也不是拿來就能直接用,需要篩選出優質數據,餵給系統,好讓系統迅速學習、成長。理想建立了一套自己的數據篩選標準——“老司機”,按照駕駛安全情況、駕駛風格等維度對80萬車主進行篩選,只有不到3%的車主通過了考覈。在這套標準下,從12億公里的原始數據裡只能篩選出幾千萬公里的數據。

除了數量和質量,數據的配比也會影響大模型的學習效果。郎鹹朋和團隊曾經發現,在等紅綠燈的時候,系統總想併線、加塞。研發人員覺得很奇怪,他們從沒給系統輸入這樣的數據。後來發現,是因爲他們把用戶長時間等紅燈的數據刪除了,所以系統沒學會等紅燈,混淆了等紅燈和堵車時的場景。補充這部分數據後,問題消失了。

時間來到2024年8月,車企在智駕賽道的角力異常激烈。大約一個月前,蔚來正式宣佈量產端到端AEB(緊急制動功能),一週前,小鵬在AI智駕發佈會上強調,除了特斯拉,只有自己實現了端到端量產落地。不曾想,幾天後,華爲在享界S9實測中率先秀出了“車位到車位的端到端”能力。

▲ 享界S9。圖 / 享界汽車官方微博

但這只是一個開始,智駕是一場費時費力的馬拉松,沒有一定資本,甚至上不了賽道。

畢竟,在數據之外,影響端到端效果的另一個因素——算力,需要數額不菲的資金做後盾。據郎鹹朋透露,目前理想有1.5萬張等同於A100、A800算力的GPU,每年光是在租卡上就要投入10億人民幣,但這還遠遠不夠。將來,理想預計花在這方面的費用將高達每年10億美元。

“如果你一年拿不出10億美金訓練系統,可能會在將來的自動駕駛競爭中被淘汰。”理想很清楚,在卷向自動駕駛的過程中,會拖死一批友商。

以下是理想汽車智能駕駛副總裁郎鹹朋、理想汽車智能駕駛技術研發負責人賈鵬與每人Auto等對話的問答節選(在不影響原意的情況下,有刪改):

用系統一還是系統二,將來大模型自己決定

問:爲什麼要切換至端到端?

郎鹹朋:去年一年我們做了三代技術研發,從最開始的高速做到城市,城市裡面我們先是用了NPN方案。今年年初我們從“百城”切換到無圖,在做無圖的過程中,我們意識到無圖的能力是有上限的,如果再繼續做這個方案,就需要很多人和資源,去設計場景、實現場景、測試場景。

從無圖再迭代到現在的端到端方案。在這個過程中,我們發現這套方案對後期的L3、L4級別自動駕駛來說,有一個非常大的問題,就是遇到新的場景沒辦法正確處理。舉個例子,天津的紅綠燈是進度條式的,和其他地方燈泡或者倒計時類型的紅綠燈不太一樣。人類可以輕鬆識別,它就是紅綠燈,並且根據紅綠燈的指示,正常的停止啓動。

我們需要讓系統也有這種對場景的理解能力,在這個時候我們看到雙系統的理論:快系統做出及時的處理響應,慢系統對應複雜的思考和邏輯判斷,雙系統共同組成了人類認知和思維的機制,我們就想這套系統的理論怎麼運用到自動駕駛上,最終選擇了端到端模型來實現系統一,系統二用VLM的視覺語言大模型來實現。

問:系統一和系統二如何分工?

賈鵬:我們是兩個模型,有兩顆Orin-X,一顆是跑端到端,模型相對小一些,大概三四億的參數量,然後跑到十幾赫茲,會高頻地控車,因爲要實時控車。VLM雖然參數量大,但也不能一兩秒控一次,現在我們把它優化到大概三四赫茲的準實時水平,大概三百毫秒的延遲。系統每時每刻都在做決策,輸出兩個決策,比如一個是讓行減速還是避讓,然後第二個會給出參考的軌跡,比如說是朝這條車道還是朝那條車道開,這兩個信息都會直接喂到模型裡,然後同時出結果,大概是這麼一個結構,系統一併不是完全採納系統二的意見,系統二是增強系統一的決策。

L3階段的自動駕駛,系統一發揮主要的作用,系統二隻是一個參考或者諮詢特殊情況,到L4的時候,系統二發揮作用會更多,不是說系統二時時刻刻都在控車,而是它真的在發揮非常重要的決策和判斷作用,在一些未知場景下,系統二的能力決定了能不能到L4,但系統一的基礎能力是L3的必要保障。

▲ 雙英偉達Orin-X。圖 / 理想汽車官方

問:未來兩個系統會合二爲一嗎?

賈鵬:這是我們在預研的下一步,現在的想法是量產的還是兩個模型,目前無圖6.0已經全國都能開了,我們想端到端+VLM這套東西可以做到全國都比較好開,那再往後,到底怎麼做一個量產級的L4,我們的思路是把模型的規模變得更大,容量更大,同時幀率變得更高。有機會是不是這兩個模型可以合一,是走系統一還是系統二讓模型自己去決定。所以如果將來有更大的算力芯片,有更好的平臺,這套系統可以發揮極大的作用。

問:後悔做NPN嗎?

郎鹹朋:不後悔,無圖有圖這些東西不去做,是領悟不到這些技術的一些特點的,技術研發就是踩坑的,踩了坑就趕緊往外爬。有些友商就是做了一套東西捨不得丟掉,就掉坑裡了。

問:理想的端到端技術和友商相比,優劣勢在哪?

郎鹹朋:我們的雙系統端到端有一些獨特的地方。首先,我們的端到端模型是第一個One Model的端到端模型,跟其他友商採用的分段式有很大區別。第二,我們的VLM模型是第一個能在車端部署並且量產的模型,其他的模型可能在他自己的訓練集羣上做訓練和測試,但真正用Orin-X這種量產的車端芯片去優化並且部署到車上,我們是第一個。而且這個模型足夠大,有22億的參數量,這已經是一個實際意義上的大模型了。這套雙系統也是我們第一個提出來並且落地的,從系統架構到系統實施上。

▲ 4D One Model端到端架構圖。圖 / 理想汽車官方

問:小鵬跟華爲都是分段式的端到端?

郎鹹朋:根據公開資料來看是這樣的。

問:要做端到端,會面臨哪些挑戰?

賈鵬:我們做了一段時間端到端之後,發現非常重要的就是它的數據配比一定要做到均衡,不能因爲北京上海的用戶多,數據就加得多,而應該按照場景去均衡配置。因爲對於Orin-X平臺來說,它能支持的模型的上限可能也就三四億參數,我能跑到十幾赫茲就是它的天花板,但這1000萬數據我怎麼去匹配?新疆放多少,北京放多少,雨天放多少,雪天放多少,這其實要花精力去研究這件事。這是端到端時代大家面臨的一個最大挑戰。

1000萬肯定不是在某個城市或者某個場景。所以說訓練也是非常重要的,我們現在在持續探索和迭代階段,同時多版模型是在一起訓練的,你的算力如果足夠大,同時可以訓練多版模型。

問:端到端拼的是什麼?

郎鹹朋:一是有沒有足夠多高質量的數據;二是有沒有與之匹配的充足的訓練算力的集羣。

問:有車企苦惱,以前的數據在端到端時代有很多用不上,他們得拆以前的橋,同時搭新的橋,又要建能夠檢驗它的安全體系,你怎麼看這個問題?

郎鹹朋:在我看來,他這句話前後矛盾,他是說數據不那麼重要,但又暗涵數據很重要。我第一次跟李想談話的時候,他問我你覺得實現自動駕駛最重要的是什麼?當時很多人覺得是人才和資金,我和李想的想法非常一致,我們都覺得是數據,沒有數據,將來算法的訓練也好,驗證也好,都沒有基礎。

我們從2019年交付第一輛車開始,去積累數據並且搭建我們的數據平臺。大家都吐槽我們在套娃,但套娃對自動駕駛有極大的好處,所有的攝像頭規格和安裝的位置都是一致的,這些數據我們完全可以複用。其它車企有轎車,有SUV,可能傳感器也不太一樣,所以對他們來說確實是個挑戰。

問:現在國內車企在端到端這條路上是在同一起跑線嗎?

郎鹹朋:國內廠商在端到端是同一起跑線,如果是看One Model的話,可能我們會領先一些。在One Model的基礎上,我們首先發布了自己的鳥蛋版本,而且是千人規模這樣一個比較大量的發佈和交付,大家在使用過程中也切身體驗到端到端與之前無圖方案相比,在性能和體驗上的提升,這是我下判斷的基礎。

每年拿不出10億美元,玩不了智駕

問:理想怎麼篩選數據?

郎鹹朋:我們的產品團隊和主觀評價團隊都是老司機,這些人開車的經驗非常豐富,按照駕駛安全情況、駕駛風格等維度對80萬車主進行篩選,只有不到3%的車主通過了考覈。

問:理想篩選出的數據,是絕對正確的?

賈鵬:我覺得還是幻覺問題。我們去壓制幻覺,其實取決於後面GPU的部分怎麼去加入這種懲罰數據,跟教育孩子是一樣的,你教育多了他就不犯錯了,主要取決於最後做的好不好。

問:理想有多大算力,來支持端到端研發?

郎鹹朋:理想目前有等同15000張A100、A800算力的GPU。

▲ 端到端的四大亮點能力。圖 / 理想汽車官方

問:理想每年在算力上的投入有多少?

郎鹹朋:理想租卡一年要花費10萬人民幣,未來可能需要10億美金每年。

問:需要多大算力儲備,才能拿到未來的入場券?

郎鹹朋:現在理想實踐下來,一年10億人民幣的算力花銷,這是一定要有的。否則,要不迭代速度慢,要不產品競爭力不足,未來我們覺得可能10億美金一年是必須要有的算力投入。

我們自己也大概估算過,現在大概有15000張卡,已經挺緊張了,天天協調卡怎麼分配,但是隨着模型參數量的增長,我覺得至少需要3-4倍的算力,因爲算力本身就提升了很多,那麼它帶寬存儲都提高很多,約10萬張A100對應的可能是30億flops的算力。

問:端到端要正式推送給用戶的標準是什麼?

賈鵬:我覺得還是用戶體驗。我們爲什麼要有千人早鳥版本,而不是自己去設定一些接管目標,我覺得如果千人用戶和萬人用戶,他們體驗都挺好,就可以推,或者是超越無圖版的體驗也可以。

問:從後進生到提前交卷,理想做了什麼?

郎鹹朋:一是組織能力;二是效率,理想一直鍛鍊自己快速執行的能力;還有一點,就是我們5年來對數據驅動的工具鏈的建設。這個非常關鍵,即使現在有算力又有數據,如果沒有一個完整高效的工具鏈或者數據系統,就無法高效運轉。

問:理想的目標是今年要成爲智駕絕對頭部,怎麼定義絕對頭部?

郎鹹朋:最終還是看量,今年我們的AD MAX的車銷售數量是否在市場上是領先的?這是最硬核的指標。我只看MAX版本的銷量。

我們從6.0到端到端這一個月以來,進店量更多了,銷量也提升了十幾個點,這就證明用戶在實打實地爲你的技術買單,這是最有說服力的。

理想只落後特斯拉半年了

問:之前說,理想的產品體驗落後特斯拉半年,這個結論是怎麼推演出來的?

郎鹹朋:從特斯拉FSD V12.3開始,我們定期去美國測試。基本連續試了一週,西海岸東海岸都試過,感受下來,特斯拉在美國西海岸確實表現很棒,因爲數據是最多的。但到了東海岸就會發現性能急劇下滑,尤其到了紐約之後基本MPI到10、11左右,其實跟咱們現在在國內開基本沒什麼太大差別。但即使是紐約,你會發現它比上海、廣州的複雜程度還是差很多。另一方面因爲特斯拉可以獲得很多國內沒有的信息,是建在了很好的基礎之上,才能做到這個體驗,所以我們做出了這樣的判斷。

問:要達到特斯拉的這種所謂行業公認的能力,需要投入和他們一樣的算力?

郎鹹朋:也不是非要看特斯拉,只是說在過程中遇到問題解決問題。其實就兩點,一個是有充足的數據,一個是充足算力,這是建立在我們的模型參數的基礎上,加上我們現在是兩三個億的端到端加22億的VLM,將來可能隨着下一代芯片的擴展,參數量還會增大,特斯拉已經到百億參數量級,是我們的5倍,5倍的數據,算力也要成倍增加。

▲ 理想汽車的自動駕駛系統考試方案。圖 / 理想汽車官方

問:特斯拉是走純視覺路線,理想保留了激光雷達,激光雷達是未來實現自動駕駛的必須配置?

賈鵬:激光雷達就是一個傳感器,最大的作用是在安全上加分,這個安全不僅是對自動駕駛系統,在人開車的時候也可以提供安全,比如主動安全AEB、緊急轉向AES等。激光雷達相對於視覺方案安全係數更高。我們把激光雷達看作安全帶一樣的配置,以後可能是車的標配。

問:業內認爲,目前跑在最前面的是特斯拉和比亞迪。在下半場競爭中,會有什麼樣的格局呈現?

郎鹹朋:上半場是電動化,下半場肯定是智能化,接下來大家會看到我們在智能化方面的投入和表現,端到端只是一個開始。

文章爲每人Auto原創,侵權必究。