小馬智行樓天城:自動駕駛已經沒有技術阻礙|36氪專訪

文|李安琪

編輯|李勤

陷在價格戰泥潭的汽車公司們終於看到了差異化突圍之路,就是AI大模型對智能駕駛的塑造。

“新的時代到來了。”9月10號,理想汽車CEO李想在朋友圈如此吶喊,今年開始,藉助大模型能力,他們在智能駕駛中部署了端到端+視覺語言模型VLM+世界模型的新技術體系。華爲、蔚來、小鵬等同航道選手,也無不將“端到端”“世界模型”等技術奉爲圭臬,開始重新整肅智能駕駛團隊和技術。

用AI改造智能駕駛,汽車公司似乎看到了“通往自動駕駛之路”。他們雄心勃勃,喊出“每年10億美元”的投入計劃。更早採用“端到端”技術的特斯拉更爲激進,已經宣佈在10月份發佈Robotaxi(自動駕駛出租車)。

似乎“端到端”成了智能駕駛行業的“銀子彈”。車企有製造、現金流和里程數據,如果再手握自動駕駛技術棧,無疑是另一番產業圖景。

對此,小馬智行CTO樓天城表現出了冷靜。作爲成立第一天就錨定L4自動駕駛技術的公司,樓天城明確表示,今天的高階智能駕駛,即便採用了端到端技術,上限也只能做到L2.99,難以抵達L4。在行業中,L2通常指智能輔助駕駛,需要人類司機承擔駕駛責任,而L4則爲自動駕駛,車輛是駕駛責任主體。

樓天城認爲,根本原因在於大語言模型自身的屬性,“端到端或者大語言模型的本質,只是擬合現有數據,並沒有給出某些智能邏輯。所以模型的能力會被數據的表現所限制。”

8月下旬,我們在小馬智行北京辦公室見到了樓天城。小馬智行作爲國內頭部的L4級自動駕駛公司,同時也是車企的L2智駕方案供應商,站在兩條路徑的激烈交匯處。

近2個小時交流中,樓天城談論了端到端的不同形態、世界模型的重要性、Robotaxi商業化、人類與AI共存等話題。

小馬智行是國內的自動駕駛明星公司。2016年,樓天城與好友和百度同僚彭軍離開百度,共同成立了小馬智行。創業之前,樓天城是編程競賽圈中的風雲人物,“樓教主”的稱號也由此得名。

樓天城告訴36氪,他對智能駕駛的認知出現較大分水嶺的時間點是2019年。在此之前,他也認同數據量多寡對自動駕駛系統訓練的重要性,但有一天他忽然意識到,過度的數據可能會造成負擔。

他表示,L2作爲輔助駕駛,駕駛表現只要表現得跟人一樣就行,所以用大量的數據訓練,能夠灌出L2級別的智能駕駛,但天花板也相對很明顯;

而L4自動駕駛系統的表現,要好於正常人類認知的10倍,因此,大量平庸的數據其實沒有益處。

“行業現在對數據的盲目依賴,是沒有意識到靠數據其實沒法越過這條線(人類司機的線)。當真正接近這條線時,會意識到其實越不過去。最頂尖的人其實都知道,比如Waymo就從來沒有說過要純依靠數據。”

他打了一個比方:如果自身乒乓球水平不夠,很難培養出一個能拿奧運冠軍的選手。這也類似於跟一個棋藝不高的人下棋過招,自身水平也難以精進,“類似臭簍棋子的數據越多,數據就會變成負擔,垃圾數據越多,干擾越大。”

更好的辦法是找到出色的教練——也就是先訓練出一個足夠好的世界模型。

“這是最重要的事情,沒有之一。”樓天城說。

世界模型可以理解爲對真實世界的仿真與建模,可以真實準確地還原比如十字路口等場景的變化。

比如鬼探頭時被遮擋的行人軌跡;車輛碰撞瞬間的行人與他車反應;甚至反應出人在跑步時減速度可以達到重力加速度等各種細節。

同時,世界模型還可以充當一個評分體系,對自動駕駛系統的表現做出評價。“雖然不知道哪個自駕系統是最好的,但可以知道A比B好。”

在新勢力中,蔚來與理想等也強調世界模型的重要性。但樓天城認爲,因爲L2與L4產品屬性不一樣,後者對世界模型的要求更高。

在創業之前,樓天城常常參加編程競賽。他說編程競賽圈有個習慣,大牛們會經常分享自己的解決思路,叫題解。“大家都是先把題做出來了後再寫題解,而不是自己還沒做出來就開始教別人怎麼做。”

樓天城也給出了自己的“自動駕駛題解”。去年8月,小馬智行已將感知、預測、規控三大傳統模塊打通,統一成One Model端到端自動駕駛模型,目前已同步搭載到L4級Robotaxi和L2級量產智駕中。

樓天城認爲,當下自動駕駛已經沒有了技術阻礙,技術進程已經過半,技術的商業化是另一項重要工作。對於Robotaxi的大規模落地,他表示在明年的時間節點,公司可以做到單車盈利轉正,這將讓公司進入良性的正反饋之中。

樓天城對AI依然抱有相當高的天花板期待。“Robotaxi是AI第一個最大的應用,後面AI應用絕不侷限在此,還有更高更顛覆性的發展空間。”

“人其實也是AI。別覺得自己跟他們有本質不同,一個新的AI Agent做的一些事情,跟人相比,有些地方平分秋色,甚至平級,甚至更好。”站在人類的角度,他認爲,應該好好思考如何與AI一起以更好的方式去駕馭它,而不是逃避。

以下是36氪汽車與小馬智行CTO樓天城的對話,略經編輯:

談端到端:世界模型是最重要的事情,沒有之一

36氪汽車:L4公司似乎普遍比車企智駕團隊對端到端有更早關注?

樓天城:因爲L4的挑戰更大,更需要端到端的加持,需要用所有能想到的辦法來加持。端到端好處是,解決了信息丟失的問題。以前不同的模塊非要描述一些東西,其實在一定程度上限制了給下游傳遞的信息。

對L2來說,端到端更多的價值在於成本下降等,但對L4來說可能是從0-1的價值,意義更大,所以L4公司對端到端接觸會更早。

36氪汽車:您是什麼時候開始關注到端到端方案?

樓天城:端到端有非常廣義和非常狹義的定義。早些年傳感器的前後融合,就有端到端的概念了,嚴格講,前融合是端到端的開始。因爲前融合就是解決傳感器信息丟失的問題,跟端到端強調的東西是一樣的。

2016年也有公司提出了狹義端到端概念,其實不一定要基於Transformer才能做端到端,但Transformer架構確實讓端到端變得非常好。

36氪汽車:“端到端大模型”這個詞您是怎麼理解的?

樓天城:端到端有常見的基本過程,很多公司都是從感知BEV開始,慢慢把感知和預測做在一起,然後Planning(規劃模塊)用AI來做,然後再combine(聯結)到一起,慢慢發展到One Model端到端的狀態。

小馬沒有跳過某個階段,我們端到端走的很快的原因在於,不在於端到端模型本身,而是我們用於訓練端到端的東西,一個基於仿真的世界模型,這是個很好的基礎。

但端到端不是大模型。如果以模型參數多少來衡量,確實讓一個更大的模型縮小,比直接去做一個小的模型效果要好,先做大再做小沒有任何問題。模型有大有小,但沒有一個東西叫做大模型。

36氪汽車:L4端到端跟L2端到端有什麼不一樣的地方?

樓天城:L4的端到端有很多不同之處,可能其他玩家不做、也沒有考慮到。端到端跟數據有關係,但我提過,過度的數據是burden(負擔),端到端或者大語言模型的本質,只是擬合現有數據,並沒有給出某些智能的邏輯。所以模型的能力會被數據的表現所限制。

說更明確一點,你跟一個臭簍棋子學下棋,那你就是他的水平,不會更高了。如果類似臭簍棋子的數據越多,數據就會變成負擔,垃圾數據越多,干擾越大。

更深一層來講,這些數據已經教不了模型了。就像教小孩兒乒乓球,你水平都不如他那不是瞎教嗎?所以要找教練。現在的做法是,訓練一個很好的模型來訓練端到端。而能訓端到端模型的模型,本身就是一個很難的東西。

36氪汽車:所以對自動駕駛來說,世界模型是更重要的東西?

樓天城:對,可能都沒有之一。我覺得我們在世界模型上做的還不錯,反正比我教的好。

這也是L4公司不一樣的地方,如果做L4,一定會走到這天。我是從2018年開始想這件事情,那時候我有預感未來我可能教不了自動駕駛,的確,到2020年我已經教不了了。

36氪汽車:教不了自動駕駛,具體是什麼樣的表現?

樓天城:就是我水平不如他了。先說明一點,端到端的黑盒和不可解釋性是對的,只是它做的事情可能挺對的,只是我當時沒有想到而已。跟早年看阿爾法狗下棋是一樣的,我看不懂罷了,所以我得慢慢培養一個世界模型來幫助我判斷駕駛模型的水平。

世界模型幫助我們一步步走過來,世界模型是最重要的事情,沒有之一。車輛的好壞表現也是由這個世界模型決定的。

36氪汽車:怎麼看現在車企提出的L2級別世界模型?

樓天城:如果是L4,那系統表現要好於正常人類的10倍;但L2不需要,L2本來就是人類駕駛輔助,只要跟人想的一樣就行了。但L4的系統可能你都不知道哪個更好,但又不能限制它,所以需要一個更好的教練。

這跟技術管理是一樣的,作爲公司技術管理層,千萬別覺得自己是公司技術最好的,如果天天這麼想公司早完蛋了。最重要的是找到比自己厲害的人,培養他們,給他們發揮的空間。

36氪汽車:所以L2沒有辦法進化到L4?

樓天城:過度的數據沒有幫助,但其他的東西比如車端芯片、雲端芯片還是有幫助進化的。數據是裡面關鍵的部分,拿數據去灌輸一個世界模型是很容易的,但灌出一個好的世界模型很難。就像找一個教練容易,但找一個能教出世界冠軍的教練很難。

我也是意識到這件事情之後,才做了很多其他的事。比如選擇更好的數據,比如做一種比較的方法,雖然不知道哪個自駕系統是最好的,但我知道A比B好。

就像2018年騰訊的絕藝(AI圍棋)對戰AlphaGo一樣,我哪裡評判得了他們的水平,都比我好太多了,哪知道哪個更好對不對?

36氪汽車:怎麼看待當下行業討論的分段式端到端跟One Model,兩者之間有本質區別嗎?

樓天城:區別還是有的,還是信息傳遞和丟失的問題,分段式的話,模型與模型之間肯定會存在信息丟失,所以整個模型表達能力確實不如one model。但好處是,訓練的難度會低一些,每段之間會有明確的輸出披露。one model的模型表達會更強,但訓練難度也更大。

36氪汽車:端到端的黑盒、不可解釋性的挑戰要怎麼應對?

樓天城:看用戶接不接受黑盒,如果要輸出是可以輸出一些意圖的,比如要左轉右轉,或者掉頭這種,用戶如果需要就可以做。端到端確實解釋性差,但沒有差到讓你不安心。它不是一個blocker(阻擋者)。

談進化:L4需要的東西,L2根本不用

36氪汽車:傳統基於規則的多模塊方案已經完全走到頭了嗎?

樓天城:進展上確實不如端到端,BEV加規則的方式,差的其實不是運動員,而是教練。寫規則的人就是教練,是教練水平不夠,不是運動員不行。

假如rule based方案能力在最下層,L2在中間水平,L4水平往上走。基於端到端,智駕水平可以提升到L2天花板,但更往上,我們不叫端到端,而是叫foundation model (基礎模型)。對L4來說,資源是個加速器,可以提升更快,但資源不改變天花板。你的做法,團隊的能力,纔是天花板。

36氪汽車:小馬有L4的產品,也有L2的產品,你們怎麼平衡?

樓天城:我們有不同的團隊,大家已經走過了當年的分歧點。2020年的時候,我們意識到要有不同的技術和產品,於是把技術往回退到2018年水平,拆成不同的技術和產品方向。L2走端到端模型,L4的東西叫基礎模型。

36氪汽車:兩個模型之間有明顯的區別嗎?

樓天城:完全不同。L4需要的東西L2根本不需要,L2的做法是拼命灌數據,L4要做的是先訓練世界模型。

L2考慮的是成本、用戶體驗之類的需求,L4還是考慮安全性,更注重精確操作和答案。L2是輔助,要很好的交互,操作不了就人來接管,但L4不行的時候要做得特別好。兩者剛好互補。

36氪汽車:從rule based到端到端,到基礎模型的訓練,你們的工具鏈發生了什麼變化?

樓天城:其實是反過來的,工具鏈的成熟度,決定了最後模型做的好壞的關鍵。比如仿真的好壞,影響着系統的好壞。世界模型的本質,可以理解爲是對世界的建模,可以認爲它是一個評價體系。它是更重要的,它關係到L4基礎模型的天花板,也關係到L2端到端的學習速度和一定天花板。

36氪汽車:L4的世界模型,跟之前用的仿真工具有什麼不一樣?

樓天城:世界模型必須要更好反應世界上其他物體的真實狀態。比如在十字路口,紅綠燈的變化,行人怎麼過馬路等行爲。

比如著名的鬼探頭問題,在十字路口綠燈,左邊有個巴士停着,前面是空的,但它不走,可能是因爲他前面有人。我們雖然看不到,但是車會減速,這個可以被表述成端到端邏輯。但另一個維度,世界模型會真正模擬一個人在車前走,只不過被擋住了。

再舉個例子,我到美國的時候,有個在美國開了很多年車的老師傅告訴我,美國行人過十字路口不看車的。他只說這一件事,所以我開車就得注意旁邊的人。我就是端到端模型,老師傅就是世界模型。

36氪汽車:但反應世界真實情況本身,是不是就很難?

樓天城:對,但必須做到。

36氪汽車:假如說世界模型是端到端的評分體系的話,那世界模型本身的好壞怎麼評價?

樓天城:這很有意思,嚴格講沒有明確的體系,他們倆互相之間糾結,然後通過實際路測來評價。現在通過模型來訓練和評價模型都是常見的事情。今天,chatbot(聊天機器人)水平已經不比人低,所以也需要訓練模型來評價chatbot水平。

36氪汽車:您覺得特斯拉現在遇到的問題是什麼?

樓天城:特斯拉現在能也很好達到L2.99的水平,這是今天已經公開的,但還有它還沒公開的部分。

從去年末Elon的直播來看,45分鐘美國路程接管了1次,但我們無人車的里程是50萬公里出一個事故,不同的世界模型教出來的學生水平差了1萬倍。智駕系統的差距,光着急是沒用的,真正的差距會在世界模型這一側體現出來。

36氪汽車:世界模型起來之後,對智駕系統的泛化能力有什麼幫助?

樓天城:用大語言模型幫助建立世界模型的好處巨大,因爲大語言模型的數據源於世界上各種各樣的數據,比如歐洲的很多路牌我都不認識,大語言模型其實都看過。

甚至都不需要是多模態大模型,只要是大語言模型就可以。當然多模態大模型會更好,比如SAM模型就行。

36氪汽車:什麼時候可以見到小馬世界模型訓練出來的量產智駕?

樓天城:我們不太方便透露主機廠的進度,但小馬的L2也有個世界模型,它訓出來的產品叫PSD,它的水平也是30公里左右接管一次,這是L2普遍的水平。

訓練一個這樣的世界模型,不需要太多數據,把我們L4的數據拿出來灌一灌就行了。我們用的都是高質量數據,大概3000多萬公里。我們大概訓練了半年,沒花多少人在這上面。

談投入:資源是門檻,人才會拉開差距

36氪汽車:之前連rule based(規則爲基礎)的方案都沒有做過的車企,有可能通過端到端彎道超車嗎?

樓天城:可以,但只做到L2天花板這裡。資金投入不是小數目,特斯拉買了這麼多萬張卡,它一買,英偉達的股票都能長,但不是所有車企都有這樣的投資意願。

關鍵是,還要有配套的人和團隊才能發揮出最大價值。如果這方面很差,整個投資性價比很低。所有投入下來幾個billion(十億)不止,有錢纔有資格這麼玩。沒錢的話,換個辦法吧。

36氪汽車:世界模型的訓練,會對車端、雲端芯片硬件有多高門檻要求?

樓天城:雲端顯卡我們也有,加上預訓練環節,投入也非常大。

當車端算力少且傳感器少的時候,對世界模型的要求就很高。車端算力多一些肯定有好處,但今天L2 雙Orin也還ok,L4也最少要千TOPS。

行業現在對數據的盲目依賴,其實是沒有理解一些事情的,至少沒有意識到靠數據其實沒法越過這條線(人類司機的線)。當真正接近這條線時,會意識到其實轉不過去。最頂尖的人其實都知道,比如Waymo就從來沒有說過要靠數據。

36氪汽車:大家對高質量數據會有清晰的畫像嗎?

樓天城:比如50萬公里出一次事故的水平,拿200萬公里纔出事故的數據來訓練不過分吧。50萬公里的可能好找一點,某種程度上這是更可怕的司機,基本上都是被別人撞纔有事故。

我們L4日常的數據採集司機,都是經過幾年訓練的,我們還專門提醒說好好開,不要瞎開,還不夠,因爲每個人擅長的東西不一樣,我們專門開發了一些系統幫助辨別司機開的好壞,所以高質量數據是有門檻的。

當年ChatGPT出來的時候,OpenAI也在印度找了標註團隊。你能感覺它說話是很nice的,這就是標註好的數據的結果,否則就是胡來。

36氪汽車:這種屬於長時間不出錯的數據,像碰撞瞬間這種case的數據怎麼獲得?

樓天城:這個的難點是在於,碰撞那一瞬間,其他車的行爲是什麼?因爲碰撞的瞬間,其他車的行爲也不是正常行爲,大家也會下意識避開,所以平時積累的數據加進來可能會添亂。

非常急的情況下,人在跑步時減速度可以達到重力加速度。所以一定要對這些東西有正確的認識,世界模型纔會教出好東西。這樣的仿真建模其實挺難的,我們做的還不錯。

36氪汽車:端到端之後所有的模塊要一起訓練?會不會出現負優化的情況?

樓天城:這是端到端全局梯度傳遞問題,但其實梯度消失不是負優化,梯度消失是可能的,需要想辦法讓梯度變正,這是大語言模型或者模型中最難的部分,早年深度學習的出現,其實就是爲了防止梯度消失。

這個有點複雜,就是你的訓練數據,沒有辦法幫助系統認識到,某個地方應該朝着局部最優以外的地方走,它停在那裡。得想辦法讓它走出去。

比如模型結構變化、數據增多,模型表達能力提升,反正要想辦法給它一些prompt(提示),纔可能跳出原來的局部最優。訓練過程中99%的時候都是負優化,只有偶爾找到正確的路往前走。

36氪汽車:現在會有一些新的技術方案出來,可以避免負優化嗎?

樓天城:很難,而且負優化現在是越來越嚴重。隨着模型變深,參數更大,問題會越來越嚴重。或者說梯度優化太小,模型就只在一個範圍不動了。

但反過來,這個東西更難了,解決問題的能力就是一個團隊能力的體現,聰明的腦袋可以又派上用場。我的觀點是,端到端其實拉開了不同能力團隊的差距。

36氪汽車:您怎麼看特斯拉說下一代模型參數量擴大了5倍?

樓天城:特斯拉是個很優秀的公司。我猜他的5倍指的是世界模型的參數擴大五倍,而不是FSD(特斯拉的全自動駕駛)的參數放大5倍,其他東西提5倍是沒有用的,因爲天花板不在這邊。

「談落地:遺憾Waymo不進中國,小馬遠比它好」

36氪汽車:您會把Waymo和特斯拉的體驗做對比嗎?

樓天城:一個是極致的L4,一個是極致的L2。

36氪汽車:從技術或者商業運營來看,今天你們跟Waymo還有明顯區別嗎?

樓天城:我很遺憾它不能進中國,所以我很遺憾我不能向世界證明,其實小馬遠比它好,包括在安全性、體驗、市場效、成本這些方面。

36氪汽車:你們的L2與特斯拉的產品相比呢?

樓天城:我們在做車企的項目,但不能說名字。這事其實不用崇洋媚外,特斯拉進了中國,也不見得能比得過中國這幾家。

在創業之前,我在編程競賽圈,競賽圈有一個習慣,我們經常會分享自己的解決思路,叫題解,競賽圈的人都是把題做出來了再寫題解,而不是還沒做出來的時候教別人怎麼做。我說我做到,來給大家說怎麼做到的,沒做到的人請做到再說。

36氪汽車:Robotaxi大規模商業化,需要等到世界模型出現之後再到來嗎?

樓天城:這個可能跟端到端都沒有關係,或者端到端有幫助但不是最直接的決定。L4的量產跟成本、運營、政策這些都有關係,如果有世界模型可能會讓成本進一步下降,會更好。

一些L2的說法,我不太認同的根本原因是,今天L4已經到了沒有技術blocker的狀態了。當大家技術都沒做到的時候,可能說有個做法將來更好;但當技術已經做到的時候,我們考慮的是真正商業化,你們還沒做到的話,我不會再等幾年了。

36氪汽車:Robotaxi的量產現在卡在哪裡了?

樓天城:所有的車輛量產都需要時間,僅此而已。

36氪汽車:預計一年內做到什麼樣的規模?你會對什麼樣的節點比較滿意?

樓天城:1年30倍,這是車企標準的車輛數量增長的速度。路上跑幾萬輛車,我覺得還比較滿意。

36氪汽車:現在Robotaxi的技術已經達到你的理想狀態了嗎?

樓天城:技術本身是過半的,覺得其他方面還要再努力。量產我們正在做,今年我們和豐田成立了合資公司,他教我們怎麼量產、成本控制,和運營。技術上也還有改進的空間,但它已經過半了。

36氪汽車:過半是指什麼水平?

樓天城:好於人類駕駛10倍以上。

36氪汽車:那終極目標是什麼水平?

樓天城:我覺得需要接近駕駛的極限,但極限不是無窮大,極限可能是幾十萬公里才被撞一次,因爲我不撞人,別人也可能會撞我。

36氪汽車:現在自動駕駛似乎變成了耐力賽,量產智駕公司有數據閉環作爲養料,像Waymo和小馬這種技術公司怎麼保證耐力不斷?

樓天城:Waymo有Google的支持,嚴格講這不是它擔心的問題,但問小馬很合適。所以量產對我們來說有很重要的意義,一年上多少量不是說有多少實際盈利,而是保證整個公司進入了正反饋節奏。

車輛規模越大,就能夠支撐研發、支撐車輛規模增加,公司也快達到這個狀態了,時間上就是今明兩年。

36氪汽車:有更具體的指標嗎?比如現金流爲正之類的?

樓天城:比如單車盈利至少爲正,百度蘿蔔快跑也提到這個概念,單車爲正已經是很大的milestone,只要車量上去,就能把研發的錢填過來。今天很多新勢力其實也還沒有達到單車盈利轉正。

當然,從長期發展來看,公司研發纔是真正關鍵優勢體現,我並沒有覺得非要這麼急,讓整個公司盈利回正,這是一種平衡關係,不是一個商業化成熟的關係。我們明年會達到單車層面盈利回正,這是我們期待的。

談AI:人也是AI,沒有本質不同

36氪汽車:近年來AI領域迸發的技術特別多,像pony這種技術公司,怎麼判定要不要把技術拿到車上用?

樓天城:關注最新技術是公司很重要的事,所以基本上技術被媒體或大衆朋友關注到的時候,我們其實早就已經研究過,甚至已經在用了。

我對AI天花板看得很高,我覺得Robotaxi是AI第一個最大的應用,後面AI應用絕不侷限在此,還有更高更顛覆的發展空間,肯定要積極擁抱。

站在人類的角度,人們更容易接受AI作爲輔助幫助人類,但AI的真正意義價值遠不止,人要思考怎麼跟技術配合,人如何在新的AI環境中主導事情,不要逃避。

36氪汽車:下一個大的AI賽道會屬於哪一塊?

樓天城:最近資本圈火的市場很明顯,首先chatbot就很火,還有“地上無人,天上也無人”也很火。通過很多技術,短期讓人看到AI的能力,這個是很好的起點。

拿chatbot來說,平時它他幫我寫點東西。很多行業大家的AI起點找得很好,但AI的天花板可能不能被起點的形式所限制。AI可能會顛覆人的很多創新,甚至人的很多職業,這是真正有價值的地方。

36氪汽車:聽說內部有個AI team,近期哪些技術會讓你感到比較興奮?

樓天城:像仿真、類似Sora視頻生成的技術我們還是很感興趣。因爲車的傳感器數據本身還是很多的, 生成模型其實也很多年沒有這麼長足的進步了。

像Sora這種虛擬現實是很可怕的,它在一定程度上顛覆了人類能區不能區分是虛擬現實的點,你甚至都看不出來它是不是虛擬現實的東西。

36氪汽車:這種技術競爭似乎面向更廣泛AI行業?小馬會想往機器人發展嗎?

樓天城:我們會先把自動駕駛做好,顯然AI技術在很多相關領域都有應用,但自動駕駛模式更成熟,是大家更能接受、有真實需求的方式,它可能應該是所有AI應用中最容易落地的。

所有的人最後都會遇到同樣的問題,如果我這塊沒有走通,很難讓其他資源方支持我,反過來說這塊走通了我有更多立場,要求更多支持。

36氪汽車:對於AI展現出來的高水平,你發現教不會它更好的東西時,是什麼樣的感受?

樓天城:我個人目標驅動這一點還是抓得很準,我們要把它做好,方法不同就不同,我不會對一個方法上有太大的堅持。回到2019年,當時我還強調我們一年採集了多少實驗數據,在那之前我一直說數據多好,現在我就不說了。就是突然有一天發現,其實不是這樣的,但這種東西只能意會,自己明白了才明白。

36氪汽車:所以2019年,你發現AI的發展超過了你的預期?

樓天城:最近幾年尤其超過預期。

人也是AI。別覺得自己跟他們有本質不同,一個新的AI agent做的一些事情跟人相比,有些地方平分秋色,甚至平級,甚至比你高,在公司也是這樣,要來找比自己更牛的人來加入公司,給他們展示空間,這纔是公司CTO該做的事情。

36氪汽車:公衆會對AI的到來有一種恐慌認知。

樓天城:恐慌沒有用,它一定會來,應該好好思考如何跟AI在一起以更好方式去駕馭它。恐慌可能世界上最沒用的東西,沒有問題是靠恐慌解決的。