李想:無監督的L4級自動駕駛可在三年內實現

版權聲明:本文版權爲本站汽車所有,轉載請註明出處。

本站汽車6月8日報道 6月6日-8日,“2024中國汽車重慶論壇”在重慶悅來國際會議中心召開。本次論壇依然以“在變革的時代塑造行業的未來”爲主題,探討變革中行業現狀,激辯百年汽車工業未來。

理想汽車董事長兼CEO李想先生在論壇上分享了自動駕駛技術的突破。他強調:“我講的是4個字‘自動駕駛’,不是‘智能駕駛’,也不是‘輔助駕駛’。” 李想先生介紹了公司對自動駕駛技術的兩大系統——系統1(端到端)和系統2(視覺語言模型VRM)的研究。他指出,端到端技術需要高質量數據和強大算力,並提到“人類開車95%的時間使用系統1,5%的時間使用系統2”。

通過學習人類駕駛行爲,理想汽車開發了視覺語言模型,可以應對複雜路況和解決泛化問題。李想先生還分享了自己的親身經歷,通過提升駕駛能力解決問題,並應用於自動駕駛技術。他表示:“在現有的計算平臺上,帶有監督L3級別的輔助駕駛,L3級別的自動駕駛可以百分之百的實現。”

未來,理想汽車將在第三季度推出無圖NOA,並在年底前將端到端和VRM結合的監督型自動駕駛體系推向市場。李想先生堅信,隨着技術的發展和算力的增強,L4無監督的自動駕駛將在三年內實現。

現場實錄:

感謝王俠會長和重慶市,給我這樣一個向大家學習和交流的機會。我今天分享我們在過去半年多的時間做的一個重要技術的突破,是關於自動駕駛的技術的突破。我這裡強調一下,我講的是4個字“自動駕駛”,不是“智能駕駛”,也不是“輔助駕駛”,這是最關鍵的。自己內部從去年9月份開始來思考一個問題,並專門建立了一個用於自動駕駛研究的一個團隊,一個最簡單的問題,人類開車爲什麼不涉及學習?如果不解決這個問題,所有自動駕駛團隊每天干的活都是靠人工去調試,而且放的人越多問題越多,和真正的自動駕駛就越遙遠。最核心的一個原因,當人工智能技術不斷髮展的時候,其實人類開車的方式不是過去這麼多年用的自動駕駛研發的一個方式,這是一個根本的不同,因爲人開車沒那麼辛苦,沒那麼累,不需要養幾千人的團隊去做。而且團隊越多,它就越多。從理論和技術的兩個角度研究,人類到底怎麼開車,新的技術如何解決人類開車,解決自動駕駛開車的問題。從理論的角度,先是從一本書得到了啓示,叫做思考快與慢慢講述了我們日常的時候,大腦在工作的時候,分爲系統1和系統2。系統1來處理一些直覺、快速響應的事情,其實就像我們在開車,很多時候我們在開車,腦子在想別的事情,但我們仍然在處理路上的各種事情,用系統一直在工作,並不是大腦不在工作,是大腦以一種獨有的低能耗的方式工作。當去到一個複雜的,比如十字路口卡死或者開到一個地方遇到一個水坑,這時候調用大腦系統2工作,處理複雜邏輯推演的能力,但是大對大腦的消耗比較大,所以大家不會一直用系統2的方式來開車。但是解決各種複雜路況,解決泛化的問題、未知的問題,大腦會啓用系統2工作。正常我們開車95%的時間使用系統1,5%的時間使用系統2,所以人腦每天不需要每天的功耗,人不需要學習這些就學會開車。

如果這樣的人類工作方式,自動駕駛應該怎麼工作,什麼是自動駕駛的系統1,什麼是自動駕駛的系統2?我們自己隨着對各種技術的研究,自動駕駛系統1,今天很多自動駕駛團隊都在做的端到端這樣一個技術。端到端,就意味着我們把完整的訓練頻段放進來,最後結果是輸入直接產出輸出。不像一個感知的模塊、規劃的模塊、執行的模塊,這樣效率更高。但是它的挑戰也來了,各種人類規則在裡面也步發揮作用了。挑戰有三個方面:一是要有真正做端到端包括這方面數據訓練的人才,二是需要真正高質量的數據,三是需要足夠多的算力。因爲端到端對於算力的需求,和以往變得不一樣了。我們在端到端,過去做整個研究的測試,大概一個月十輪左右的訓練。但是面對中國的複雜路況,只有端到端不夠,我們要思考什麼是系統2。系統2的啓發在於什麼呢?在於解決各種各樣問題和各種泛化的問題,人類並不是通過學習它的。最明顯的一個案例和啓發是什麼呢?我的愛人剛學會開車,很長一段時間連續好多年不停的刮蹭,分析下一次怎麼不刮蹭,還是沒有用,他還是刮蹭。分析是不是買的車太大,換一輛小的車,她仍然刮蹭,怎麼說都會刮蹭。這時我們會發現學習它沒有用,能不能通過提升能力的方式?當時我做了挺重要的一個決定,給我愛人報寶馬駕駛培訓的初級班。寶馬駕駛培訓初級班一整天,通過各種各樣的方式只教了兩個:一是無論在賽道上過彎還是繞樁還是處於環形路面的時候,你在打轉向之前眼睛看向哪裡?不是看你通過的路口,而是看你接下來要去的地方。用各種各樣的方式,教我們開車要看路。另外寶馬駕駛培訓班教了另外一個能力,各種複雜場景裡如何把剎車踩到底,包括溼滑的路礦、轉彎的路礦,一半鋼板一半道路的路面。寶馬培訓班交了兩個事情:一是教你看路的能力,二是教你剎車的能力,只經過這麼一天的訓練,我愛人就徹底和刮蹭告別了。所以在接下來的十幾年裡,沒有出現過任何的刮蹭。所以這是人類學習的一個方式。

我們在考慮如何把這樣能力給到車上,就是VRM。視覺語言模型,爲什麼不是大語言模型?因爲沒有把一個大語言模型在雲端使用。如何把一個視覺大語言模型進行足夠壓縮,最後放到車上去。他能夠在面對一個沒有紅綠燈的左轉路口提前作出預判,來知道我這個路口如何進行特殊的處理、進行復雜的處理,還有另外一個重要的功能,就是告別高清地圖。爲什麼?因爲視覺的語言模型還有一個最重要的功能,能夠像人類一樣去讀懂導航地圖。包含導航地圖的橫向、縱向、速度、時間,包括紅綠燈,哪怕車輛的遮擋紅綠燈也不再成爲問題。我們發現有效通過視覺語言模型解決系統2的問題,一方面爲端到端進行一個兜底,另一方面解決各種各樣泛化的問題。整個驗證結果非常興奮,認爲最早在今年年底,最晚在明年上半年,真正有監督的L3自動駕駛就能駕駛,而不是做實驗了。

解決這兩個問題還有第三個問題,端到端是黑盒子,VRM也是黑盒子,AI最大的區別是能力,過去的編程體系最重要是功能,功能要通過實驗和測試來驗證,而能力怎麼拿測試和實驗驗證,是不可能。這時候一個新的挑戰,用什麼樣的技術方式驗證能力,這時候又找到一個新的方式,主要的原理來自於Sroa,我們用一些方式來構建一個重要的、一個小型的視覺模型,拿這個視覺模型讓我們的車在裡面考試。所以這麼做,其實我們模擬人的一套真正工作原理開始呈現了,端到端承載人的系統1,VRM來承載人的系統2。系統1來解決所有正常自動駕駛這些反應、駕駛的能力,系統2來解決兜底和泛化的能力,並應用生成式的小的視覺模型來進行考試。這是我們在過去一段時間裡做的最重要的一個技術性突破,而且我們的研究團隊已經完全通過了正常的研究驗證。

接下來會怎麼樣呢?我們會在3季度推無圖NOA,會推端到端+VRM一套監督型的自動駕駛體系。最早會在今年的年底,最晚明年年底,推出端到端+VRM的訓練體系。端到端+VRM+生成式的驗證系統,也會使未來整個物理世界、機器人最重要的架構體系。接下來一段時間,包含最近本月還有下月幾個關鍵AI方面的技術論壇,我們技術研究的同事也會向整個行業來分享我們對這方面的研究、治理原理和實際結果,把我們進行的一些探索,能夠和同行進行有效的分享。另一方面剛纔講會在7月份,最早年底、最晚明年年初,把這樣的技術帶給用戶。通過這樣的技術,可以確定的堅信一件事情,在現有的計算平臺上,帶有監督L3級別的輔助駕駛,L3級別的自動駕駛可以百分之百的實現,隨着這套技術的演進、算力增強,L4無監督的自動駕駛在三年內一定能夠實現。