VLAM會是自動駕駛的黑盒解藥嗎?

機器之心PRO · 會員通訊 Week 38

---- 本週爲您解讀 ⑤ 個值得細品的 AI & Robotics 業內要事 ----

1. VLAM會是自動駕駛的黑盒解藥嗎?

VLAM 是什麼?VLAM 是誰開發的?VLAM 和 LLM、VLM 有什麼關係?VLAM 有什麼技術特點?VLAM 跟自動駕駛有什麼關係?VLAM 和數據問題有什麼關係?...

2. 「大一統」的多模態大模型賽道有何變數?

OpenAI 又被曝在訓模型了?通用多模態大模型又是誰在做?谷歌 Gemini 有新消息嗎?此前還有誰發了多模態大模型?多模態大模型有哪些特點?...

3. OpenAI 招募 LLM 攻防安全專家

「紅隊」網絡是做什麼的?OpenAI 爲什麼要組紅隊?OpenAI 會招募哪些專家?「紅隊」測試和 LLM 什麼關係?Open AI 對 LLM 有哪些安全保障?...

4. 前深鑑科技創始人清華汪玉再創業

汪玉新公司要做什麼?爲什麼都在做大模型一體機?大模型一體機能賣給誰?大模型一體機可以滿足什麼需求?有哪些公司在做大模型大模型一體機?各家一體機產品有何特點? …

5. 工信部擬籌建元宇宙標準化工作組

爲何要籌建元宇宙標準化工作組?業內有哪些問題亟待解決?「籌建方案」裡有哪些信息值得重點關注?該組成立後會做些什麼?...

...本期完整版通訊含以上 5 項專題解讀 + 30 項本週 AI & Robotics 賽道要事速遞,其中技術方面 10 項,國內方面 8 項,國外方面 12 項...

本期通訊總計 23522 字,可免費試讀至 8 %

消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元)

要事解讀 ①VLAM會是自動駕駛的黑盒解藥嗎?

時間:9 月 14 日

事件:倫敦的自動駕駛 Wayve 近期於技術博客提出了基於視覺-語言-動作模型(VLAM)開發的自動駕駛交互模型 LINGO-1,可通過語言解釋自動駕駛系統的行爲邏輯。

基於 VLAM 的自動駕駛模型瞭解一下?

1、LINGO-1 是基於 VLAM 開發的自動駕駛模型,基於各種視覺和語言數據源上訓練所得,能夠執行視覺問答(VQA)任務,並且能對駕駛行爲和推理進行描述。

① LINGO-1 能夠生成自動駕駛車輛行爲背後的原因,Wayve 稱其爲「開環駕駛評論器(open-loop driving commentator)」

② VLAM 是 Wayve 在視覺語言模型(VLM)基礎上的進一步探索,包含三種信息,即:圖像、駕駛數據和語言。

2、開發 LINGO-1 的關鍵在於採用了一項「可擴展且多樣化的數據集」,其內容包括了專業駕駛員在英國各地駕駛時的解說,涉及圖像、語言和動作數據。

① Wayve 稱,這種解說的模式類似在駕校與教練學開車的場景,教練會不時評論視野中的場景,並解釋自己爲什麼會有相應的駕駛行爲,方便學員舉一反三。

② 當諸如「前方車輛/信號燈有變,請減速」、「現在該變換車道了」等語句和感官圖像、底層駕駛動作在時間上同步,研究者就得到了豐富的視覺-語言-動作數據集來訓練用於不同任務的模型

3、在具備生成駕駛行爲評論和解說能力的同時,LINGO-1 還能夠回答用戶提出的有關駕駛場景的問題,幫助用戶用自然語言理解模型的場景理解能力和推理邏輯。

4、與人類水平相比,LINGO-1 的準確率約爲 60%。

VLAM 爲自動駕駛帶來了哪些機會?[17] [18]

1、以往在機器人訓練(尤其是自動駕駛領域)中,很少有工作會用到自然語言。Wayve 在 LINGO-1 中結合了自然語言、視覺與動作,對自動駕駛基礎模型在感知、推理和行爲規劃上能夠帶來更好的解釋和和訓練效果。

① 可解釋性:駕駛模型不再是神秘的黑盒,通過語言闡明 AI 系統的決策邏輯能夠幫助人們深入瞭解模型,而乘客和自動駕駛系統的對話能夠提高透明度,使人們更容易理解和信任系統;

② 規劃和推理:集成語言和駕駛模型的關鍵在於,語言模型準確解釋各種輸入模式場景的能力,駕駛模型則將中層推理轉化爲有效底層規劃的熟練程度;

③ 長尾場景處理與新場景學習:在模型訓練中,一段文字可以節約上千圖片,用少量示例配上簡短的文字說明即可教會模型聯繫場景中元素和動作間的關係,方便應對 corner cases;

④ LLM 本身已從互聯網數據集中掌握了大量人類行爲知識,因此能夠理解識別物體、交通法規和駕駛操作等概念,VLAM 使用更廣泛的信息對圖像數據進行編碼,提供了更好、更安全的自動駕駛的潛力。

2、英偉達高級 AI 科學家 Jim Fan 於 X 評論 LINGO-1,表示以往的自動駕駛系統是「感知 -> 駕駛操作」,以後則會是「感知->文字推理->行動」,其中增加的顯示推理步驟將帶來一系列好處:

① 可解釋性:駕駛模型不再是一個神秘的黑盒。

② 反事實情景:它能夠想象出訓練數據中沒有的場景,並推理出如何正確地進行處理。

③ 長尾編程:駕駛中存在大量邊緣場景,要對所有場景進行良好的數據覆蓋是不可能的。與其收集成千上萬的示例來對一個案例進行「神經編程」,不如讓人類專家編寫提示(prompt)來解釋少量的示例,從而指導系統如何處理特定或複雜的情景。

3、Jim Fan 在推文中補充,LINGO-1 同樣有機會影響到遊戲人工智能(game AI)領域的研究,如 MineDojo 和思想克隆(Thought Cloning),兩者都是 AI 智能體。

① MineDojo 可以學習一種獎勵模型,把評論文本和「我的世界」(Minecraft)遊戲視頻像素關聯起來。

② 思想克隆能夠實現「像素->語言->行動循環」的鏈路。

VLAM 或許會讓事故定責多方不再糾結數據共享問題?[19] [20]

在改善自動駕駛系統能力之上,LINGO-1 對駕駛行爲和推理進行描述的能力或許同樣有潛力應對當前自動駕駛商業化所面臨的定責問題。若能夠實現參考自動駕駛系統所提供的思維鏈完成責任歸因,或可解決當下事故定責過程中面臨的道德、隱私、責任歸因等一系列挑戰。

1、在輔助駕駛、自動駕駛等技術落地過程中,事故定責是亟待解決的第一要務。而導致自動駕駛事故定責困難的原因主要可以歸結爲兩方面:

① 技術問題:即黑箱問題,自動駕駛系統的內部決策過程和推理機制不容易被直接理解和解釋。

② 立法問題:當前法律法規體系與自動駕駛技術的發展尚未完全適應,導致自動駕駛事故中難以明確各方責任界限。

2、自動駕駛事故定責往往涉及到車輛使用方、主機廠和執法部門等,導致責任主體判斷複雜,容易牽扯道德問題。缺乏合理數據分享機制的問題則牽扯了所有相關主體。

3、保險公司作爲定責中的重要主體,在賠付、產品設計、風險管理方面汽車數據同樣有極大需求。但出於道德、隱私等多方面因素,主機廠和車主並不願意分享數據,導致保險公司理賠處理難以落實。

4、當前,國內外立法機構已開始探索針對自動駕駛的數據共享機制,但未來數據將由主機廠提供,由國家建立數據平臺,或是通過跨行業的數據分享機制仍處於探索階段。

5、如果未來車險賠付定責能參考自動駕駛系統的 CoT 完成,則保險行業中數據分析師的當前所負責的數據處理工作和相關工具和基礎設施或許將不復以往。