智能駕駛,駛向賽點

車圈“流量大戰”從北京蔓延到了深圳。

雷軍、餘承東、周鴻禕一個接一個來到了粵港澳大灣區車展,所過之處,人山人海,長槍短炮。

智能化技術解讀,成爲新的重點。

大咖們聚焦智能化,暢談智能駕駛,並且就智駕下一階段的發展方向,終於達成共識:

新技術、新名詞,圍觀者迷茫了:都在說端到端,什麼纔是真正的端到端?

何爲端到端?

所謂端到端,指的是一種新型的AI模型,採用BEV+Transformer技術架構等方式來實現感知決策一體化,以達到輸入原始數據後便能輸出最終執行指令的效果。這項技術令該版本比以往減少了數十萬代碼,讓汽車在沒有數據連接的情況下仍可在不熟悉的路段地形上行駛。

真正掀起這輪“端到端”熱潮的,還是特斯拉。

最近,特斯拉FSD V12在北美上線測試版本,全新升級的FSD,最大的賣點就是端到端的神經網絡模型上車。

英偉達CEO黃仁勳將其稱之爲自動駕駛革命性的進步。

因爲通過端到端,AI能夠通過分析視頻數據,來預測路徑,理解和駕駛汽車。

我們通常理解的自動駕駛系統,分爲感知、分析、決策三個模塊獨立運作,再通過系統集成,實現自動駕駛功能。

這和人類司機駕駛車輛的習慣是一樣的,這樣做的好處也很好理解,每一個環節特別清晰。

將一個複雜的系統,拆分爲一個個相對簡單的模塊,降低了每個模塊的開發難度。而且系統出現問題,容易找出源頭。

模塊化的背後,是大量的代碼,大量的代碼,意味着大量的人工,這時候弊端就出現了:上限不高,只能處理系統見過的場景,沒見過的就束手無策了。

系統處理不了怎麼辦?只能再往裡填更多的代碼,靠冗長的代碼來覆蓋更多場景。最後整個系統越來越複雜,信息傳遞的效率比較低。

複雜場景算力需求太大,解決長尾場景的難度和成本都很高,端到端就是來解決這些問題的。

特斯拉通過端到端神經網絡,將感知、分析、決策整合在一起,當輸入傳感器數據時,系統直接輸出車輛控制信號,其中的過程減少了成堆的代碼。

按照特斯拉的更新日誌,模型經過數百萬個視頻訓練後,可以減少30多萬行C++代碼。可以這樣解釋:特斯拉端到端的FSD系統,是將無數的人類駕駛的視頻數據,壓縮到了端到端神經網絡中,所以效率更高當然是一方面,更符合人類駕駛的習慣,像真人一樣開車,也是一個革命性的突破。

如何落地?

特斯拉是端到端自動駕駛的先行者,但並不是唯一的玩家。

因爲特斯拉的進展,也受到在大洋彼岸的中國同行的密切關注。端到端也成爲行業技術、產業進展的熱門詞彙,一場端到端的戰鬥已經山雨欲來。

而此前國內智能駕駛公司基本都追隨谷歌Waymo路線,要追上特斯拉並不容易。

端到端方案如何實現?

元戎啓行CEO周光認爲,端到端並不是一個突然轉變,而是一個循序漸進的過程,需要經歷傳感器前融合、去高精度地圖、感知決策控制三個模型一體化等環節。

例如,在過往多模塊方案中,高精度地圖的一把不可缺少的“柺杖”。“但高精度地圖是通過人去標註好道路結構和場景信息,系統根據人的標註去識別道路。這其實就是規則驅動。”周光說道。

而依賴人工規則的方法也決定了,高精度地圖無法大規模使用:爲了保持地圖的更新,車企必須付出高昂的成本。高精度地圖的採集製作成本大概在3000元/公里,如果一個城市按一萬公里城市道路來計算,建圖成本在3000萬左右。

就連華爲車BU董事長餘承東去年也公開表示,高精地圖覆蓋全國的難度太大,中國道路幾乎實時在變動,只有不依賴高精地圖的智駕系統,才具備大規模上車使用的價值。

於是2023年,國內智能駕駛公司就開啓了一場轟轟烈烈的“去高精地圖”運動。一衆公司紛紛效仿特斯拉,全面提升感知能力,大力學習基於Transformer的BEV、及Occupancy network(佔據柵格)等技術。而升級後的感知算法模塊,基本是全新的神經網絡架構了。

換句話說,沿着BEV等感知技術方向,繼續重構下游的規劃控制等模型,智能駕駛公司有機會抵達“療效更好”的端到端模型。據瞭解,到今年末,國內頭部智駕玩家基本都有端到端方案推出。

高階智駕的最終解

目前,高階智駕正在以超乎想象的速度推進。

極氪智能科技副總裁陳奇曾提到:2023 年 12 月,國內頭部廠商高階智駕選裝率達到了 48.73%,這相當於頭部車企每賣出兩臺智能車,其中一臺都具備城市 NOA。

再過一個季度,頭部車企們將會城市 NOA 進行全量推送,這將會是一場史上規模最大、難度最高的智駕檢驗:多數消費者與機器共駕的默契還有待提升,同時也要求車企能夠用高階智駕在複雜的城市道路中爲用戶安全兜底。

現階段,從國內目前多家車企的城市 NOA 體驗來看,多數遇到施工或道路有所更新的路段,幾乎都需要接管。這也意味着,目前用戶尚未享受到高階智能駕駛尚未達到用戶眼中的“可用”“好用”。

一個完善的端到端模型,將會在消費端爲用戶智駕體驗帶來質的改變。這裡存在兩個有些“反常識”的知識點。一方面,過去以深度學習爲基本盤的端到端模型,被外界詬病“就像一個黑箱系統,性能很好,但缺乏解釋性。”但這種“不可解釋性”,並不代表不安全。這就像人類面對複雜場景時產生的大多數駕駛行爲也存在不可解釋性。

另一方面,端到端模型即使是底層技術架構,其實在消費端也是可以被察覺的。這種“可察覺”,是把“數碼味”變成真正人類司機駕駛。今天,已經量產的傳統方案,在直行、加塞、變道時會有明顯的頓挫感,感覺還有不同的系統切換。但端到端模型上車的體驗,會更擬人化。底層原因是,如果單純基於人工規則,包括道路施工、壓實線、應對違停車輛等等在內的每種場景都需要單獨的規則,這樣的系統並不好用。

現在,端到端大模型的魔盒已經打開:馬斯克直播路測特斯拉 V12 版本 45 分鐘內僅接管一次、蔚小理陸續宣佈投入端到端研發......甚至還有一個小細節,最初特斯拉採用純視覺端到端被外界認爲不可靠、不安全,但當今年 1 月特斯拉舉辦 2023 年財報會時,馬斯克被問到特斯拉是否會在今年舉辦 AI Day 活動。他立即表示,今後謹慎透露技術,因爲競爭對手已經開始模仿創新。一個行業走向爆發前夕,往往會信息封鎖,迎來最爲緊張的時刻。

進入 2024 年,周光認爲,“端到端是打開物理世界通用人工智能大門的一把鑰匙。”本質上,Chat GPT、Sora、Midjourney,仍然屬於互聯網世界的生成式人工智能,所收集、生成的數據都是網絡虛擬數據。這就意味着,仍沒有針對物理世界的通用人工智能。要讓人工智能具備物理常識,就需要大量物理世界的真實數據。在這種情況下,智能駕駛就是最佳解。

正如地平線 CEO 餘凱所言,“手機是擊穿物聯網的關鍵,智能駕駛是擊穿物理世界通用人工智能的關鍵。”這也讓自動駕駛趨勢愈發清晰:以模塊化爲主導的原始人工智能時代終結了,物理世界通用人工智能時代正拉開帷幕。

結語

中國智能駕駛的競賽已然來到新的賽點。從元戎啓行、商湯絕影再到小鵬汽車,供應商和整車廠們都加速推進着端到端方案的上車速度,進一步推動智駕行業變革。