加速深度學習!輝達AI實驗室公佈DGX 人工智慧超級電腦細節
NVIDIA(輝達)DGX 超級電腦力助 NVIDIA AI 實驗室計劃 (NVAIL)成員,包含加州大學柏克萊分校、Dalle Molle 人工智慧研究所(IDSIA)與東京大學在國際機器學習大會(ICML)上,發表人工智慧研究領域的最新進展,將深度學習提升到新的高度。
※ 機器學習-教導人工智慧如何學習
加州大學柏克萊分校電機工程暨電腦科學系助理教授 Sergey Levine 及其學生教導深度神經網路取得學習方法,協助智能裝置加快學習速度並減少訓練時程。其研究團隊使用 NVIDIA DGX 系統來將動作和視覺感知訓練內容導入演算法中。搭載最新人工智慧技術的機器人必須不斷進行嘗試以學習如何做出最佳迴應,使其更具適應能力學習更多內容。
Levine 表示,「我們不可能造出不會犯錯的機器,但能試着打造迅速從錯誤中學習且不會再犯錯的機器。」
遞歸神經網路與長短期記憶(LSTM)是手寫和語音辨識最具威力的研究工具組合,遞歸神經網路能利用內部記憶體來處理任意數據,例如不同發音或手寫差異,使用先前的決策與當前的資料在運作中進行學習。
然而越是深入神經網路,深度學習運作越是困難,速度也變得越慢。對此瑞士人工智慧實驗室和 NVAIL 成員 IDSIA 研發出遞歸高速神經網路,建立更多執行序向處理工作的高效率模型,無需訓練巨大模型便可應付更復雜的工作。
其研究團隊原先使用 NVIDIA Tesla K40、K80、TITAN X 及 GeForce GTX 1080 等多種 GPU 來加快訓練速度,並搭配 CUDA 和 cuDNN 進行深度學習作業,但在 DGX 人工智慧超級電腦出現後,大幅加快實驗週期的速度。
IDSIA 人工智慧研究員 Rupesh Srivastava 表示,「在使用遞歸高速網路的情況下,可以在遞歸轉移裡訓練十層的遞歸神經網路。IDSIA對於使用 DGX 加快平行訓練遞歸神經網路模型之速度的前景感到興奮不已,希望其能引導至更佳的強化學習。」
※ 領域適應-深度學習的變形
東京大學的研究團隊利用 DGX開發出一項解決方案,將「僞標籤」加在目標領域裡無標籤的資料上,能克服針對非監督式領域適應性的多項難題。這使得在無需訓練新模型的情況下,深度學習模型便能從來源領域進行學習。
東京大學的研究團隊提出稱爲「非對稱式三體訓練」(Asymmetric tri-training)的概念,指派不同角色給三個分類器和使用三個獨立神經網路,其中兩個神經網路用於對無標記的目標樣本加上標籤,並使用有着僞標記的目標樣本對第三個神經網路進行訓練。到目前爲止的結果都令人相當振奮。
東京大學資訊理工學研究院的原田達也教授表示,「從一個簡單或人造領域裡轉移知識到另一個多元或真實領域裡,是一個具有挑戰性的難題,其必須採取平行處理的方式才能發揮這項技術的潛力。這項解決方案對於適應性來說是一大進步。」