極越眼裡沒有激光雷達,只有特斯拉
多年之後,中國汽車行業會回想起智能駕駛演示視頻漫天飛舞的那些日子。
今年,當城市高階智駕的競賽愈演愈烈,發佈自家車輛丟開方向盤“攻佔”各個城市的視頻,已經成爲車企們搶佔用戶心智的重要競爭手段。最新的參賽選手是極越。
10月17日,一輛極越01自行穿越上海城區,全程無人接管的視頻在網上流傳開來。能在上海跑出類似效果的汽車品牌不算多,但一隻手也數不過來。
但是,與其他人不同的是,極越的城區高階智駕演示,是國內唯一一個去掉激光雷達、基於純視覺方案的演示。極越不依賴激光雷達的智駕方案和國內其他汽車品牌拉開了差別,同時也是一種炫技:
Less is more。同樣能力下,智能汽車依靠的硬件越少,軟件實力必然越高。
不過,這個演示與其說是炫技,不如說是宣戰:
此前,僅有特斯拉在量產車上部署純視覺算法並借其在北美實現了城市高階智駕(FSD)。而現在,在純視覺路線上,挑戰者與守成者,圍繞技術與市場的較量即將打響。
同時,極越也將用不依賴激光雷達的、更低成本的城市高階智駕方案,攪動高階智能駕駛潮水曾經翻涌的方向。
質疑特斯拉:你有視覺 我有Lidar
2021年年初,馬斯克發起裁決,考慮要不要砍掉特斯拉車型上的毫米波雷達,轉入純視覺自動駕駛路線:
“我們現在走到了十字路口,要麼讓產線停工,要麼讓(爲雷達設計的)鳳凰系統上線,要麼放棄(毫米波)雷達。[1]”
作出這個裁決的原因,一部分是毫米波雷達芯片缺貨,另一部分則是他信仰的“第一性原理”——既然人類是靠眼睛開車,而道路結構和標誌也是爲人眼設計,作爲“汽車之眼”的攝像頭理論上也可以實現同樣的效果。
科普一下,毫米波雷達的優點在於能測距和測速,且對惡劣環境有很強適應性,價格也便宜實在,缺點在於分辨率低,無法測高,噪點大,分不清物體的形狀和類別,這和能獲取大量二維特徵信息,但對能見度和算法能力要求高的攝像頭形成了鮮明的互補關係。
因此,放棄雷達這個乍一聽讓人心潮澎湃的想法,卻引發了高管們之間激烈的爭論,包括副總裁Jerome Guillien在內的工程師都在反覆強調:“雷達可以探測到攝像頭和人眼看不到的物體”[1]。但馬斯克無動於衷,反而撂下一句狠話:“你不幹,我找別人幹。”
這一干的結果是,當年5月,特斯拉出廠車型上的毫米波雷達被幹掉(雖然現在出於技術驗證目的將更先進的4D毫米波雷達裝回了Model X/S),Jerome在特斯拉的工作被幹掉。
雖然馬斯克是暴君型CEO,但他其實並沒有針對Jerome,主要是對毫米波雷達有意見。隨着特斯拉攝像頭的視覺感知能力突飛猛進,馬斯克發現毫米波雷達“信噪比太低”(信息與噪聲的比例),對感知系統產生了“干擾”和“污染”,進而會誤導其他傳感器,增加意外出現的風險,比如“幽靈剎車”。
爲了減少誤報,馬斯克選擇相信攝像頭,向視覺感知系統投餵了大量數據,表明它們通過訓練出的全新神經網絡獲得了接近甚至超越毫米波雷達的測速測距能力。
特斯拉本以爲這樣會減少由於信息干擾產生的幽靈剎車,結果恰恰相反。
當年越來越多的特斯拉車主發現,在取消毫米波雷達之後,幽靈剎車的現象不減反增,投訴量從Q3開始激增,以至於美國公路交通安全管理局(NHTSA)都看不下去了,着手調查此事,特斯拉也在2021年11月召回了1.1萬輛車,原因是FSD存在bug。
同一時期,《消費者報告》宣佈暫停將 2021 款 Model 3 列爲「推薦」,美國高速公路安全保險協會(IIHS)取消了 Model 3 曾經Top Safety Pick+的最高安全評級,甚至有軟件安全專家在《紐約時報》上撰文,批評特斯拉的自動駕駛系統是:“《財富》世界500強公司有史以來賣過的最差的軟件。[2]”
目睹了特斯拉All in純視覺的慘烈探索,大洋彼岸的車企們也堅定了道路自信,在多傳感器融合、大力出奇跡的方案上越走越遠,掀起一場智駕感知硬件的“軍備競賽”。
這種差異在激光雷達的使用上體現得最爲明顯,馬斯克一向對其嗤之以鼻,認爲它是“柺杖”和“雞肋”,但國內新勢力卻對它情有獨鍾:小鵬P5率先搭載了激光雷達,蔚來NT2.0平臺標配激光雷達,極越也選擇了視覺與激光雷達兩條腿走路,還曾爲激光雷達的佈置方案與理想在線battle。
相比於毫米波雷達,雖然激光雷達上車的時間不長,但它的探測距離遠,測量精度更高,可以直接輸出3D信息,無需複雜的算法和長時間的神經網絡訓練,也能描繪障礙物的立體輪廓,不至於出現把公交車上的董明珠識別爲行人的情況,也不會徑直撞上一輛側翻的貨車,能爲車輛行駛提供更多的安全冗餘。
當車企們開卷城市NoA功能,進入環境高度複雜的城市場景時,能夠直接進行三維重建的激光雷達更是帶給了車企與消費者更多安全感。目前,國內已經交付的帶城市NoA功能的車型,悉數搭載了激光雷達。
由此,大洋兩岸在自動駕駛感知路線的選擇上似乎分道揚鑣,也順便催生了相關供應鏈的冰與火——美國的激光雷達公司奄奄一息,中國的激光雷達企業蒸蒸日上。
理解特斯拉:追趕視覺升維
從今天國內的城市NoA開城進度來看,毫無疑問的是,激光雷達的量產應用,加速了國內車企高階智駕的商用步伐。
但智能電動汽車競賽的殘酷在於,車企要同時卷功能的持續領先、技術的快速迭代以及成本的總體可控。
2021年7月,在第一屆AI DAY上,特斯拉正式推出了BEV(鳥瞰圖)+Transformer的技術方案,進一步提升了攝像頭的測距、測速以及適應一些極端場景的能力(比如出隧道),雖然沒有徹底打消人們對純視覺的疑慮,但證實了純視覺方案的技術潛力,也讓市場的心態從之前一邊倒地否定變成了拭目以待。
而到2023年,國內智能汽車各種“冠軍版”車型相繼上市,產品換代反而降價的操作持續上演。席捲行業的價格戰,讓車企降低產品端硬件成本的需求迫在眉睫。一些價格不便宜的硬件,價值開始受到重新審視,激光雷達是其中之一。
今年,在一些擁有激光雷達和高階智駕功能的車型上,人們發現激光雷達發揮的作用並沒有想象中重大。比如有車型將廣告牌上的人像識別爲真人從而急剎,在正常情況下,激光雷達理應發揮三維重建的長處,告知感知系統那不太可能是個人。
之所以出現這種情況,問題出在激光雷達的固有特性和系統算法設計上。
激光雷達通過發射紅外激光探測回波工作,這種類似於“觸覺”的原理決定了其獲取幾何信息的能力強,可以直接輸出三維點雲。但和真實世界相比,激光雷達進行三維重建的結果比較仍然比較稀疏,對語義信息的理解遠不如視覺。
同時,在此前的多傳感器融合算法中,視覺與激光雷達進行的是目標融合(也稱後融合,即視覺和激光雷達分別判別物體種類,再對雙方結果加權採信),兩種長處不一致的傳感器能相互配合,但有時也堅持己見,造成感知結果“打架”,帶來置信問題。
理想化的解決方式,是將激光雷達與攝像頭獲取的原始信息先進行融合(又稱前融合),再輸出感知結果,兩者相當於用一個大腦思考,可以極大提高感知精度。
然而,由於激光雷達與攝像頭的數據形式不同(點雲VS圖像)、工作頻率不同(10Hz VS 36Hz),視場範圍不同(約25° VS 約68°),對兩者信息進行時空同步一直是業界的聖盃級難題。
退而求其次的選擇,是從激光雷達點雲和圖像中分別提取特徵,再進行特徵級融合,據此判定感知結果。相比後融合,特徵級融合相當於激光雷達與攝像頭“商量着來”,也能拉高感知效果的天花板。
但直到現在,大多數車企也依然不具備在量產車型上,將激光雷達與相機進行特徵級融合的算法能力,激光雷達的潛力事實上並未得到充分發揮。
由於激光雷達成本高、與視覺數據級融合算法的門檻高,在部分車企看來,眼下激光雷達並不便宜,也不算好用, 在量產車上應用的價值更多體現爲,花錢多買了一重安全冗餘。在經歷了上車的嘗試後,他們更形象地理解了馬斯克爲何將激光雷達稱爲柺杖,轉而開始思考如何去掉柺杖。
就在車企開始重估激光雷達的價值之時,純視覺路線悄然開始打造激光雷達的平替。
2022年CVPR(Conference on Computer Vision and Pattern Recognition,計算機視覺學術頂會)上,特斯拉提出了Occupancy Network(佔用網絡)。它引入了“體素”這一概念:在二維平面圖像上,基本單元是像素;而在三維空間總中,基本單元就是體素。
在佔用網絡中,神經網絡會從攝像頭獲取的數據中提取特徵,將其“升維”並切分爲一個個三維格柵(即體素),再結合特徵判定每一個體素被佔用的概率和動靜狀態。相比於此前的視覺算法,佔用網絡可以進一步得到物體的體積信息。
這使視覺感知無需具體識別物體是什麼,根據其體積、運動狀態也能判別它是否是障礙物,純視覺算法由此走出了“識別才能感知”的白名單困境,擁有更強的泛化能力。比如各種工程車輛,由於形狀不規則、常常有脫離車身主體的部件存在(如吊車掛鉤),此前視覺算法常常會出現誤檢、漏檢,佔用網絡則能更好地應對。
佔用網絡被引入自動駕駛領域後,讓攝像頭將語義信息與立體幾何信息統一起來,三維感知能力得到史詩級提升,這與人眼更加相似——同樣,人類在開車觀察的時候,既會判別物體的種類、邊緣,又會判斷其大致距離、體積,兩種信息相互配合,爲人類作出恰當的駕駛操作打下了堅實的基礎。
換句話說,佔用網絡的引入,確實能使智能駕駛更接近人類。並且,攝像頭獲取的信息是稠密的,這給純視覺算法的進化留下了一座富礦,而目前激光雷達獲取的信息相對稀疏,這決定了充分挖掘其潛力的難度更大。
純視覺由此成爲自動駕駛感知算法的顯學,論文數量在2022年後迎來井噴。一批車企與供應商也開始嚴肅思考,以佔用網絡加持的純視覺方案替代激光雷達,一方面可以降低車輛的BOM成本,在市場競爭中贏得更多騰挪空間;另一方面也能精簡算法與研發團隊架構,集中有生力量加速開發、快速迭代。
然而,佔用網絡並不完全是一個全新概念。
此前在機器人領域,便在使用佔用格柵、體素表達三維世界,幫助機器人進行更好的路徑規劃與控制。只是機器人通常低速運動,對算法的實時性、感知精度要求可以放低,但高速運動的車輛,則有嚴格要求。
這也意味着,具備純視覺、佔用網絡的論文能力,和具備將算法部署至車輛上的工程能力,完全是兩碼事——在Ocuupancy Network公開後的一年半時間中,並沒有其他車企量產純視覺佔用網絡。
不過,特斯拉短暫構建的次元壁很快將被打破。
超越特斯拉?東方戰場的阻擊
極越很可能是那個“破壁人”。
10月17日,展示純視覺方案在上海實現城市NoA的同時,極越也預告了佔用網絡將在第四季度量產的消息。屆時,極越在純視覺感知算法上將與特斯拉同處領先梯隊。甚至於,由於特斯拉的FSD在國內尚處測試階段,極越還可能領先前者一步在國內交付城市NoA。
這是一個出乎意料的“後起之秀”——行業對佔用網絡的開發興起之時,極越才成立滿一年。爲何一個新品牌,能在佔用網絡的量產進度上後發先至?這與極越管理團隊的判斷分不開。
有業內人士算過一筆賬,走純視覺路線實際上比使用激光雷達更貴、更難——雖然在終端消費者要付出的硬件成本低了,但廠家在研發端付出的算法開發成本、雲端算力成本會成倍提升。
但極越認爲,純視覺路線的上限更高。及早將消費者購置成本更低的純視覺方案跑通,向更廣泛的用戶交付保證體驗與安全的城市NoA,才能形成更高效的數據閉環體系,在智駕技術成長的道路上越跑越快。對純視覺路線的重視,帶來的是大量資源傾斜。
另一方面,這與極越的背景也有關係。
作爲百度Apollo深度賦能的汽車品牌,極越選擇了與百度合作開發純視覺方案和佔用網絡算法,也由此受益於前者在自動駕駛領域長年積累的體系能力。雖然百度Apollo聲名在外的Robotaxi都頂着激光雷達,但他們在純視覺路線上的探索,比想象中更早一些。
2019年CVPR上,百度公開了依靠純視覺感知實現L4自動駕駛的技術方案Apollo Lite。在隨後數年中,這套低成本方案被搬上Robotaxi測試車,在多地城市道路上順利運行,形成了純視覺路線寶貴的技術積累。
Apollo Lite項目的負責人,百度智能駕駛事業羣組技術委員會主席王亮,在2021年極越成立後也與極越CEO 夏一平搭伴,協助極越智能駕駛的聯合開發。
由於這些工作,當純視覺路線迎來BEV+Transformer、Occpancy Network兩次重大進階時,極越的智駕開發團隊第一時間意識到它們的價值,立即啓動了感知算法的重構——訓練更大的模型,對視覺投以更高的信任。
不過,意識到純視覺的價值,和能在量產車上發揮純視覺的價值之間,存在巨大的鴻溝。極越展示的佔用網絡,要落地到量產上,必須解決一些AI領域經典的難題:算力,數據。
衆所周知,相機的像素越高,對ISP等計算單元的算力需求就越高;同樣,佔用網絡輸出的體素越密集,也會消耗更多芯片算力,而高算力消耗往往會影響智駕系統的實時性。此時,一個工程經驗豐富的團隊,更有能力部署輕量化的佔用網絡,兼顧性能與算力消耗。
論自動駕駛領域經驗豐富,極越與同其聯手的百度顯然榜上有名。
而作爲一種新的神經網絡算法,佔用網絡需要大量的數據訓練才能表現出足夠高的感知精度。但其訓練並不能沿用此前的二維數據,而要使用三維真值數據。三維真值是高度接近三維世界真實情況的數據表達,它是佔用網絡訓練的參考答案,但在算法開發前期難以用攝像頭直接獲取。
此時,百度的Robotaxi車隊,以及極越此前在驗證車上部署的激光雷達發揮了作用。搭載激光雷達的車輛,自帶三維重建能力,在測試過程中自動化地收集了大量三維真值。這些真值不僅能直接用於佔用網絡的訓練,也進一步通過仿真系統生成了更多合成數據。
由此,激光雷達的存在反而提供了數據養料,進一步加速了純視覺算法的開發。
用兩年時間走完了其他企業三年甚至五年才能走完的路時,極越有了底氣在智駕技術上叫板特斯拉。
不過,消費者最終只會爲體驗買單,而特斯拉FSD入華的時間也越來越近。不少車企戰戰兢兢,因爲FSD在北美表現出色,而它們甚至還沒有開始交付高速NoA。
但夏一平對極越與特斯拉的對壘充滿了信心。他背後是一支深耕國內,在中國進行了多年自動駕駛開發的團隊,對中國的道路環境與規則有更深的理解,也有完備的數據、地圖體系。在這個體系支持下,極越01將做到城市NoA功能標配、“上市即交付”。特斯拉的FSD,不僅要等等,還得加錢。
顯然,在全球最大的智能電動汽車市場,本土力量正在給特斯拉上強度。在剛剛發佈的第三季度財報中,特斯拉營收增速下滑,毛利率創下近年新低,市值一天就蒸發了上百億美元。在電話會議上,馬斯克對在中國市場遭受的阻擊避而不談。
這會是特斯拉“過去一年最差財季,未來一年最好財季”嗎?極越們會給出答案。
參考資料
[1] 《埃隆·馬斯克傳》,沃爾特·艾薩克森
[2] New York Times ad warns against Tesla’s “Full Self-Driving”,TechCrunch