AI浪潮下的數據:自動駕駛需要何種標註?|GAI進化論

南方財經全媒體記者江月 上海報道

自動駕駛是人工智能時代裡最令人興奮的科技之一。過去大約十年來,自動駕駛技術開始起步並得到一定程度發展,但目前仍然在等待里程碑式的突破,以期未來真正實現規模化應用。

Holger Caesar是荷蘭代爾夫特理工大學智能車輛組助理教授,他的學術生涯幾乎和這一代自動駕駛浪潮同步啓程,因此,他將過去約10年的時光專注在了這個領域的技術研究。其間,他在自動駕駛明星公司Motional作爲項目負責人主導開發了自動駕駛數據集nuScenes和nuPlan,自2019年以來,這兩個數據集也位居全球範圍內最爲使用廣泛的開源自動駕駛數據集前列。

事實上,數據是算法、算力之外第三駕驅動人工智能發展的馬車,不少行業人士都認爲,好的數據集十分難得,甚至是算力和算法發揮價值的前提條件。

在人工智能新一輪浪潮來臨時,Holger Caesar正致力於將自動駕駛數據集帶向第三代。他告訴南方財經全媒體記者:“自動駕駛數據集的標註量可以縮小至目前水平的1/20至1/100,未來可能覆蓋全球場景。”其中,基礎模型的迅速發展帶來了更便利的自動化,但帶來的行業格局演變也正引起從業者的警惕。

數據標註進入自動化的第三代

“基於模型訓練、減少人工標註,數據集應該是更加可拓展(scalable)、成本可負擔(affordable)的。”5月末在上海,Holger向南方財經全媒體記者講述了他開發三代自動駕駛數據集的經歷。

在自動駕駛數據集起步之初,數據採集的小時數、車輛行駛區域等均受到限制,而且所有的標註全由人力操作。第一代數據集nuScenes正是如此,它採樣于波士頓和新加坡,總時長僅有5.5小時。

儘管如此,這已經包含大量信息。這短短數小時的素材獲取了1000個場景,同時涵蓋北美洲和亞洲城市不同的路況和天氣,也同時覆蓋了左行和右行交通規則,其中,多雨的新加坡給數據標註帶來了相當大的挑戰。

nuScenes也是全球首個全感應的數據集,這意味着它並非僅依靠相機或激光雷達採集數據,而是結合了二者以及雷達、GPS和IMU(慣性測量單元)數據。這個數據集最終包括140萬張圖片,其中在4萬張關鍵圖片中包含140萬個標註框。

從2016年到2019年,全球不同機構採集均使用人工方法爲自動駕駛數據集進行標註,nuScences的標註量已經足夠說明,人工方法下的數據集建立有場景數量天花板(通常不超過1000個),而且開發時間長、人工培訓成本高。儘管如此,初代數據集的開發令自動駕駛研發打開了局面。

第二代數據集nuPlan是全球第一個大規模的規劃型數據集,這一代數據加強了標註階段的自動化,將數據集的小時數從5小時水平提升到1000小時以上。數據最終採集自波士頓、匹茲堡、拉斯維加斯和新加坡,包含1282個小時的行車數據。使用如此大的訓練量,將數據集能力從感知(perception)提升到了規劃(planning),也意味着將自動駕駛技術從低等級的輔助駕駛進一步提升到了自動駕駛能力。

和上一代數據集不同的是,nuPlan將離線和實時數據進行了結合,利用離線感知(offline perception)進行了場景標記和交通燈模擬,更適合用於自動駕駛規劃(planning)和預測(Prediction)。

然而,底層離線感知系統仍然需要人力標註,這仍然導致數據集昂貴且耗時。

目前,Holger 設想第三代數據集將幾乎不需要人類標註工作,這樣可以極大降低數據集開發成本,並進一步提升可拓展性。“目前,全球僅有少數超大公司可以負擔自動駕駛數據集開發,我希望能將AI開發進一步普及化,激發小公司和創新公司利用AI的能力。”Holger稱。

第三代數據集利用主動學習(active learning)、自監督學習(self supervised learning)、基礎模型(foundation model)和語言模型(language model)等技術,這些方法可以將人力標註工作降低數個數量級,大約是上一代技術標註量的1/20至1/100。它還能靈活地適應新車輛、新城市等變量,未來可以開發有關自行車、火車和船隻的新數據集。

“未來,數據集開發方法還可以進一步應用到機器人、無人機、衛星、安防等領域。”Holger表示,這意味着自動駕駛領域的又一新技術將帶來新的行業革命。

人工智能令從業者興奮

人工智能爲自動駕駛解決了一個又一個難題,令後者不再只是一個封閉場景裡的幻想,而更可能在未來於廣闊世界裡成爲現實。作爲從業者,從2022年下半年開始的人工智能浪潮令他感到興奮,同時新格局變化也令他產生了一些警惕。

首先是基礎模型經由“轉換器(transformer)”改造以來,變得更加強大,適應大規模的神經網絡模型建立,併產生了不少震撼市場的大語言模型和多模態模型。“Transformer的到來讓人驚歎,它把數據集提升到了一個高得多的量級,分析能力也更強勁了。”Holger指出。

Transformer是一種新型神經網絡,大衆熟知的ChatGPT、GPT系列模型、BERT模型等正是基於transformer開發的。

目前,全球基礎模型仍在不斷開發,而這給數據標註帶來了更多便利。Holger表示,這是因爲基礎模型能讓圖片訓練適用於所有條件,也就是說,當天氣、城市、攝像頭等條件變化時,模型仍能自動訓練。

隨着大語言模型在全球範圍的流行,Holger認爲這也可以給數據標註行業帶來更多便利。“設想使用自然語言進行數據標註,例如對一張圖片進行所有車輛標註,還能進一步修改標註目標,例如將圖片中的卡車排除標註,這會令數據標註更加方便。”Holger稱。

除此以外,數據集訓練也在更趨人道、環保和節能。由於在第三代數據集中使用自監督學習和主動學習,標註量成倍縮小。“從算力的角度,這更加高效,也意味着更節能環保。”Holger稱,另外,數據標註行業從前幾乎等同於“低薪高壓”工作的代名詞,未來也可能縮小這種工作量,轉而增強職業訓練技能。

此外,新的模型訓練也將覆蓋更多的“邊界情況(corner case)”,即那些不常見但對自動駕駛安全至關重要的場景,令自動駕駛真正從實驗室裡走到現實道路中。“在第三代技術中,我們正試圖通過結合無監督學習去抓捕混合的車輛等,從而覆蓋更多的‘邊界’。”Holger稱。

不過,部分人工智能科技的發展正在悄然改變行業格局,這給從業者帶來了一些關於未來的隱憂。

算力硬件設備明顯變得更加昂貴、供不應求,這是因爲超大型人工智能公司正在囤積算力芯片,而部分公司擁有供應相關芯片的壟斷地位。“未來的算力市場上,應該有更多公司供應算力芯片,而非只有一兩家。”Holger表示。

此外,“儘管基礎模型的通用性非常強大,但這可能導致技術掌握在個別超大公司手中,這對於其他也在開發基礎模型的創新機構不利。”Holger稱。

不過,Holger對大學和創新型研究機構在人工智能中的角色保持信心。“大型商業機構並不總是關心人工智能技術發展,因此這是我們(大學)發揮創新之處,我們也將把現有商用人工智能變得更加高效節能。”Holger稱。

商用AI可能會追逐週期浪潮,資金總是在行業高峰期進行堆積,但在行業低谷期撤退。Holger認爲,人工智能發展也應該更加理性,一些熱潮還需要時間驗證。