甩開英偉達芯片,特斯拉算力要自己說了算

汽車算力正在狂卷,作爲特斯拉的專有D1芯片,Dojo計劃在持續發展。Dojo是特斯拉設計的超級計算機系統,用作人工智能,特別是FSD的訓練場。這個名字是對武術練習道場的致敬。

這意味着特斯拉將來可能不必依賴英偉達的芯片,用低成本就可獲取大量算力。預計今年年底前,Dojo1將實現與約8000塊H100等效的在線訓練。

預計到今年10月,Dojo的總算力將達到100 exaflops,約等於320500塊英偉達 A100 GPU的算力水平;預計今年年底前,Dojo1將實現與約8000塊H100等效的在線訓練。

呈指數級增長的汽車算力需求

智能汽車的算力是其智能化功能實現的核心驅動力。隨着自動駕駛技術的發展,智能汽車對算力的需求也在不斷增加。

智能汽車需要處理來自多種傳感器(如攝像頭、毫米波雷達、激光雷達等)的海量數據,這些數據需要通過強大的計算平臺進行實時處理和分析,以實現環境感知、路徑決策規劃和車輛運動控制等功能。

對算力的需求呈指數級增長。根據公開資料顯示,L4/L5級自動駕駛對算力的要求是L2級的10倍,達到1000+ TOPS。這表明,隨着自動駕駛技術的發展,對車載計算平臺的算力要求也在不斷提升。

此外,智能汽車中的大模型和複雜算法也對算力提出了更高的要求。例如,端到端的智能駕駛模型每兩天就會更新一次,訓練和研發過程中所需的算力更是增長兩個數量級。因此,算力成爲智能汽車發展的關鍵因素之一。

02

特斯拉算力水平等於國內車企總和

在智能汽車領域,人們通常用EFLOPS來衡量車企算力高低。

EFLOPS(Exa FLOPS)本身是衡量計算機性能的一個重要指標,尤其在高性能計算領域。它代表每秒百億億次浮點運算,即每秒執行10^18次浮點運算。這個單位通常用於描述超級計算機或大規模並行計算系統的計算能力。

據公開數據顯示,國內車企現有的算力都在10 EFLOPS以下,到2024年底,中國移動、中國電信、中國聯通的規劃算力分別是17 EFLOPS、21 EFLOPS和15EFLOPS,三大運營商合計53 EFLOPS,但圍繞“端到端”大模型,一家企業需要的理想算力就高達100 EFLOPS。

相比之下,特斯拉擁有的算力水平是100 EFLOPS,是所有車企所擁有算力的總和。

長期以來,特斯拉在人工智能和智能駕駛領域進行了持續投入,其算力主要包括雲端算力、超算集羣和車端算力三個部分。

特斯拉在雲端算力方面取得了顯著的進展。根據最新數據,特斯拉的人工智能訓練算力已經達到了相當高的水平。具體來說,特斯拉的雲端算力已經從2019年的不到1500個GPU,增長到2024年二季度的約35000 H100 GPU等效算力,並預計到年底將飆升至約90000 H100 GPU等效算力。這一增長幅度之大,體現了特斯拉在算力投入上的決心和實力。

特斯拉的雲端算力主要用於自動駕駛系統的訓練和推理。通過大規模的算力支持,特斯拉能夠不斷優化其自動駕駛算法,提高系統的準確性和可靠性。此外,特斯拉還推出了自研的雲端計算芯片D1,這款芯片在自動標註、佔用網絡等自動駕駛任務上相比英偉達同期主力芯片A100實現了數倍的性能提升。

建設強悍雲端算力的同時,特斯拉還建設了強大的超算集羣來支持其自動駕駛技術的發展。

其中,特斯拉的Dojo超級計算機是其算力體系的重要組成部分。Dojo超級計算機採用了特斯拉自主研發的D1芯片,具備高可擴展性和分佈式系統特點。特斯拉計劃利用Dojo對海量的視頻數據進行無監督學習,以加速特斯拉的Autopilot和完全自動駕駛(FSD)系統的迭代。

此外,特斯拉還透露了其超算集羣“Cortex(大腦皮層)”的名稱和規模。該超算集羣可以容納高達10萬張H100/H200顯卡,代表了巨大的算力規模。Cortex超算集羣專門用於訓練特斯拉的自動駕駛系統FSD和Optimus機器人,進一步彰顯了特斯拉在AI領域的領先地位。

除了雲端算力和超算集羣外,特斯拉還在車端算力方面進行了大力投入。特斯拉的HW4.0計算平臺已經實現了數百TOPS的算力水平,而即將推出的新一代計算平臺AI5的算力將是HW4.0的10倍。這意味着特斯拉的車型將具備更強的數據處理和決策能力,從而支持更高級別的自動駕駛功能。

此外,特斯拉的算力投入不僅限於硬件,還包括軟件優化。爲了實現對神經網絡模型的自動調優和並行化,特斯拉爲Dojo編譯了一套完整的軟件棧,包括Dojo編譯器、Dojo Ingest Pipeline、Dojo Runtime和Dojo Library。

03

努力提升算力的國內車企

隨着智能駕駛和智能座艙技術的快速發展,國內車企對算力的需求急劇增加。

具體來說,在端到端智能駕駛領域,車企所需的算力目標已經高達100 EFLOPS(每秒浮點運算次數),但目前大多數車企的算力投入尚未達到這一水平。此外,在智能座艙大模型領域,基礎模型算力需求也遠大於10 EFLOPS,而垂域模型的算力需求更是高達數百到數千PFLOPS(1 EFLOPS = 1000 PFLOPS)。

儘管需求旺盛,但國內車企的算力供給卻面臨諸多挑戰。

目前,國內車企的算力主要依賴於英偉達等國外芯片供應商的存量芯片,而這些芯片在當前國際形勢下變得難以獲取。此外,國內運營商雖然規劃了一定的算力規模,如中國移動、中國電信、中國聯通分別規劃了17 EFLOPS、21 EFLOPS和15 EFLOPS的算力,但這些算力主要集中在雲端,且難以滿足車企在車載算力方面的需求。

國內車企的算力來源主要包括車載算力和雲端算力兩部分。

車載算力主要通過安裝在車輛上的計算芯片來提供,如NVIDIA DRIVE Orin SoC,它提供了254 TOPS的算力,能夠支持自動駕駛功能、置信度視圖、數字儀表盤以及AI座艙等應用。此外,華爲MDC810芯片也提供了強大的算力,使得阿維塔11僅需一顆芯片就能達到400 TOPS的算力。

而特斯拉的算力支持主要由D1芯片、訓練模塊和超算Dojo構成。D1處理器採用臺積電7nm製造工藝,擁有500億個晶體管,單片FP32算力爲22.6TOPs,BF16算力爲362 TOPs。此外,特斯拉通過將多個D1芯片組成訓練模塊,每個模塊的算力高達9 PFLOPs。

對比發現,單看車端算力,國內車企和特斯拉已經有一定差距了。由於國內車企在芯片研發和製造方面相對落後,因此車載算力主要依賴進口芯片,好在雲端算力可以分擔車端算力的壓力,特別是在處理複雜場景和大量數據時,通過邊緣計算和雲計算相結合的方式,可以有效提高整體系統的算力和效率。

當然,雲端算力雖然規模龐大,但如何高效、安全地傳輸到車輛上並滿足實時性要求仍是一個亟待解決的問題。

從目前的現狀看,國產車企想要在算力上迎頭趕上,不僅要應加大在自動駕駛專用雲端算力芯片與計算集羣方面的自研力度,更要加強與科研機構、高校及科技企業的合作,共同研發優化算法,提升軟件的智能化水平,從而更高效地利用算力資源。

同時,通過百度、阿里、騰訊等科技巨頭合作,共建自動駕駛智算中心,也可以大幅節省車企在算力建設上的時間和成本。而且針對自動駕駛等算力需求較大的領域,國產車企應集中有限的算力資源,形成規模效應。通過算力集中,提高模型迭代效率,加速技術突破,進而應對智能化和電動化的行業挑戰。

微信訂閱

郵發代號:77-19

單價:8元,年價:408元

編輯|張毅

審覈|吳新

爆料聯繫:cpcfan1874(微信)

壹零社:用圖文、視頻記錄科技互聯網新鮮事、電商生活、雲計算、ICT領域、消費電子,商業故事。《中國知網》每週全文收錄;中國科技報刊100強;2021年微博百萬粉絲俱樂部成員;2022年抖音優質科技內容創作者