☰

李飛飛的華人斯坦福博士提出SLIDE模型，聯手英偉達探索通用人工智能

新智元報道

來源：Twitter

編輯：LRS

【新智元導讀】以往的強化學習模型都是指定任務來學習策略，近日，李飛飛的一位本科畢業於清華的博士生Kuan Fang，聯手英偉達提出一個學習模型SLIDE，通過生成多種任務來學習泛化性超強的技能，或許能帶來通用人工智能的新思考。

機器學習可以顯著提高智能體的學習效率和泛化能力。

然而在現實世界的應用中，機器人的設計往往比其他問題更加棘手，因爲機器人需要大量的訓練和專業知識才能完成設計。

針對這個問題，李飛飛團隊聯合英偉達提出了一個全新的技能訓練方法Skill Learning In Diversified Environments（SLIDE），通過自動生成的一系列不同的任務來發現一般化的技能。

與之前無監督的技能發現工作不同的是，他們是在相同的環境下訓練產生不同的技能，而這篇論文中的方法將每個技能與一個可訓練的任務生成器產生的獨特任務結合起來。

爲了鼓勵一般化技能的出現，對於每個被配對到的任務都進行技能訓練，並最大化生成任務的多樣性。在生成的任務中定義一個任務判別器來估計多樣性目標的證據下界。

機器人的技能是通過自動生成任務來學習的。每一項技能都與一項由可訓練的獨特任務相匹配任務生成器。這些技能被訓練成專門從事被匹配到的任務。通過生成的多樣化任務來發現不同的技能。

方法中發現技能的關鍵是設計訓練技能條件任務的目標函數生成器g來創建不同的任務。爲了讓更通用的技能可以被學習出來，研究人員認爲技能間（inter-skill）的多樣性和技能內部(intra-skill)的多樣性都需要被考慮，在訓練任務生成器g時應當適當平衡。

技能間的多樣性鼓勵每項任務爲配對到的技能提出更獨特的挑戰。而內部技能多樣性衡量每個任務所能提供的環境變化。

對於機器人操作任務，開發人員肯定希望機器人擅長不同類型的互動（如推、抓、放等）具有特定類型的對象。同時，也希望每項技能都有足夠能力去處理場景變化和任務初始的通用性。

最後，還需要考慮了任務的可行性以防止在無法解決的任務中學習技能。

上圖就是通過SLIDE模型發現的示例任務和技能，通過展示兩個相關的採樣軌跡來展示技能間和技能內的多樣性。每一個灰色區塊中都有相同的技能指數。每列顯示生成的任務的初始化和技能的執行。不同顏色表示不同物品類別的目的地，包括罐頭（紅色）、盒子（綠色）和餐具（藍色）

文中的實驗設計的主要目的是回答以下問題：1）SLIDE可以通過生成的任務來學習到不同的技能嗎？2）通過SLIDE學到的技能，能夠被利用和泛化到其他沒見過的任務上嗎？3）SLIDE中的設計選項如何影響學習技能和任務績效？

爲了學習機器人技能並評估其對未知目標任務的泛化能力，設計了兩個桌面操作區域。每個域定義一個包含共享相同狀態和動作空間但不同的環境設計和獎勵功能。這兩個任務空間由多個離散和離散變量參數化用於定義初始化、動力學和獎勵功能。

首先訓練技能發現的方法，通過從參數化任務按程序生成任務沒有目標任務概念的空間。然後訓練利用分層策略解決每個沒見過的目標任務從同一領域學到的技能。

研究結果表明，相對於現有的強化學習和技能學習方法，論文中提出的方法學會的技能可以有效地提高機器人在各種沒有目標的任務中的表現。

文章的主要貢獻在於提出了在多樣化的環境中學習技能的模型SLIDE，它通過自動生成一組不同的任務。通過最大化生成任務的多樣性，SLIDE方法能夠發現各種任務以啓用技能策略來激發機器人學習到各種各樣的行爲。

通過訓練分層結構，利用所學技能的強化學習算法作爲低層策略，在兩個桌面操作區域，能夠有效地提高了隱性目標任務的學習能力與學習效率。

在今後的工作中有幾個方面可以改進。首先，提出的方法是專爲學習一定數量的技能而設計的，一個有趣的研究方向是對任務進行開放式技能發現和靈活的技能數量。

其次，文中暗示了在目標任務中對目標任務是有用的，並假設參數化獎勵函數在任務中預定義，但未來的工作可以生成相應任務任務基於內在激勵的獎勵函數。

最後，希望這項工作能鼓勵更多的人努力利用面向機器人學習和類似應用的程序化內容生成，可以爲更廣泛的應用範圍提出方法，比如視覺導航和仿人機器人。

文章的第一作者Kuan Fang是斯坦福大學Vision and Learning實驗室的一名博士生，由Silvio Savarese教授和李飛飛教授共同指導，主要研究方向是計算機視覺、機器人和機器學習。

他的本科在清華大學，曾在Google Brain, Google X, 微軟亞洲研究院實習。

本文的第二作者Yuke Zhu是德克薩斯州大學奧斯汀分校計算機科學系的助理教授，也是機器人感知和學習實驗室的主任，同時還是 NVIDIA 研究中心的高級研究科學家。

主要研究方向是爲機器人和具身代理人構建智能算法，這些機器人和具身代理人可以推理並與現實世界互動，這項研究是機器人學、計算機視覺和機器學習的交叉。重點研究了感知和控制的方法和機制，以實現通用機器人的自主性。

這篇論文的導師是李飛飛，2020年當選爲美國國家工程院院士，美國國家醫學院院士，2021年當選爲美國藝術與科學院院士。她的工作包括括受認知啓發的AI，機器學習，深度學習，計算機視覺和AI+醫療保健，尤其是用於醫療保健交付的環境智能系統。

她還從事認知和計算神經科學方面的工作。她發明了ImageNet和ImageNet Challenge，其中ImageNet Challenge是一項重要的大規模數據集和基準測試工作

參考資料：https://arxiv.org/abs/2mia106.13935

相關資訊