通用Agent再升級,遊戲辦公全精通!崑崙萬維/智源/NTU/北大聯合發佈Cra...
近日,崑崙萬維攜手北京智源人工智能研究院、新加坡南洋理工大學、北京大學等頂尖名校機構,提出通用計算機控制框架Cradle,使AI Agent無需訓練便能像人一樣直接控制鍵盤鼠標,不依賴任何內部API,實現任意開閉源軟件交互。Cradle是迄今爲止第一個既能玩多種商業遊戲又能操作各種軟件應用的AI框架,其論文、項目、代碼均已開源。
論文標題:Cradle: Empowering Foundation Agents Towards General Computer Control
論文鏈接: Agent。
Cradle在《荒野大鏢客2》裡完成長達40分鐘主線劇情還能在開放世界自由探索。
Cradle在《星露穀物語》裡清理農場,種地,去商店購物。
Cradle在《城市天際線》中建造出千人小鎮。Cradle在《當鋪人生2》中 和客戶討價還價,最高達到87%的周收益率!
Cradle瀏覽網頁,發推,下載paper不在話下。
Cradle撰寫、回覆、查找郵件樣樣精通。Cradle在美圖秀秀裡修圖。Cradle在剪映裡剪視頻。Cradle在飛書裡日常辦公。
GCC:通用計算機控制
隨着大模型的發展,越來越多的智能體(AI Agents)研究關注計算機控制,包括瀏覽網頁、操作智能手機、玩遊戲等。然而,已有研究依賴軟件內部API獲取輸入,並輸出預先定義好的動作,無法真正像人類一樣通過眼、腦、手的配合操控計算機。要構建能完成計算機上一切任務的通用智能體,必須使用最通用和最標準的輸入輸出與計算機進行交互。因此,通用計算機控制使用統一的輸入和輸出,從而讓智能體的通用性變爲可能。但通用性帶來了操作上的難度:(1)使用計算機屏幕作爲輸入對智能體的視頻理解能力提出了更高的要求,例如由於沒有內部API,需要通過視覺信息判斷動作是否執行成功;(2)使用鍵盤和鼠標操作作爲輸出使得智能體需要更高的時空操作精度,比如鍵盤按鍵和鼠標點擊通常額外涉及時間維度;(3)許多計算機上的複雜任務往往需要連續執行成百上千次的正確操作才能完成,是智能體的長程規劃決策和歷史信息維護處理能力的一大挑戰;(4)虛擬世界中多如繁星的環境和任務是對智能體高效探索並自我提升實現通用性的一大考驗。這些難題成爲了構建通用計算機控制智能體(GCC Agents)的挑戰。
六大模塊 三大環節
Cradle一共由6個模塊組成:信息收集、自我反思、任務推斷、技能管理、行動規劃,以及記憶模塊。Cradle高度的通用性來源於其對和電腦交互過程中的原始輸入輸出的合理封裝和抽象,以從屏幕中顯示的視頻圖像作爲輸入,提取其中的文本和視覺信息進行決策,並且輸出最底層的操作系統中控制鍵盤和鼠標的信號去和電腦交互,使得其可以不依賴於任何假設和任何內部API進行交互。同時,Cradle強大的決策推理模塊讓其得以自發和軟件進行交互並且完成任務,這個過程可以被簡單地總結爲:反思過去,總結現在,規劃未來。反思過去:Cradle使用執行過往動作過程的視頻作爲輸入,分別提取出其中關鍵的文本和視覺信息,通過反思來判斷上一步動作是否執行成功任務是否完成以及如何改進。總結現在:反思完之後,Cradle需要總結當前情況,並且以此爲根據來決定是否更換任務目標或是修改任務內容。規劃未來:最後Cradle會根據當前任務以及現狀生成或者更新自身的技能,並且從已經學會的技能中檢索一部分和當前任務相關的技能作爲備選,然後從中選取合適的技能實例化爲動作去執行。在決策推理的同時,Cradle還會週期性地總結和維護儲存在情境記憶中的歷史信息以及儲存在週期性記憶中的技能。在此過程中,Cradle爲其添加了記憶,總結和反思的功能,進一步提升了其對於決策過程中的觀察和行爲的理解。Cradle能直接根據遊戲內的提示和教程或是自我探索的方式生成對應的操作鍵鼠的可執行代碼作爲技能,一步步豐富自己的技能庫,並在之後的遊戲中重複使用這些技能。
遊戲辦公全精通
爲了驗證Cradle的通用性,研究者們選擇了4款風格迥異,操作各不相同的經典遊戲進行測試,從第三視角的3D角色扮演類遊戲《荒野大鏢客2》到2D固定視角的模擬經營類遊戲《星露穀物語》到俯視角的城市規劃類遊戲《城市天際線》再到側重交易策略的模擬經營類遊戲《當鋪人生2》,並分別設計了不同的任務。在通用軟件方面,Cradle團隊也同樣選擇了5款常用軟件進行測試,包括Chrome、Outlook、CapCut(剪映)、Meitu(美圖秀秀)和Feishu(飛書)。Cradle在《荒野大鏢客2》的主線劇情任務以及開放世界任務中均有出色表現,能夠連續完成長達40分鐘的2個完整主線任務,騎馬、戰鬥、購物樣樣在行。Cradle在其他遊戲任務中均能勝任。在《城市天際線》中修路、保障水電供應,合理劃分居民、商業和工業區,建立起千人小鎮;在《星露穀物語》中清理農場雜物、種地收穫作物、購買種子;在《當鋪人生2》中在和客戶討價還價近2輪後以93.6%的交易成功率達成了平均39.6%的周收益率。表1:Cradle在各遊戲中的表現,所有任務均測試5次,4/5表示5次測試中成功4次。Cradle在日常軟件應用的各項任務執行上表現不俗,如論文下載、發郵件、修圖、剪視頻、發送飛書文件等。同時,Cradle在非常有挑戰性的benchmark OSWorld上也同樣擊敗了使用真值作爲標籤的基線方法。表2:Cradle在OSWorld各類任務上的成功率(%)以及和基線方法的對比。最後,Cradle也同樣擊敗了衆多常見基線方法,證明了框架各個模塊的合理性和必要性。
表3:Cradle和各種基線的對比的消融實驗,所有任務均測試5次,括號前數字表示完成任務的平均步數,
括號中數字表示5次測試中成功的次數,N/A表示5次全部失敗。
通往AGI之路
此前,大量關於AI智能體的研究都依賴於計算機內部API的信息獲取,無法讓AI真正“像人類一樣”通過眼、腦、手的配合與計算機進行互動,其環境、行爲、動作都相對固定,難以實現跨軟件、跨平臺的通用智能。
Cradle極大程度地擴展了智能體可以交互的範圍,並且證明了將一切軟件轉化爲測試智能體不同能力的testbed的可能性,其所提出的通用計算機控制的設定統一了輸入輸出的接口,促進了統一粒度數據的蒐集,爲未來Agent在各個環境中交互並且自我提升打下了堅實的基礎。面向數字世界的通用人工智能,正在加速到來。 ●首批OpenAI企業客戶成功遷移至崑崙萬維天工開放平臺 ●OpenAI封鎖中國API ?天工助您一鍵搬家! ●百倍提升7B模型推理能力 崑崙萬維攜手新加坡南洋理工大學發佈Q*算法 ●崑崙萬維顏水成受邀出任2024北京智源大會視覺大模型論壇主席 ●崑崙萬維顏水成受邀參與2024北京智源大會大模型產業技術論壇分享 ●新加坡電信集團CEO Yuen Kuan Moon等一行到訪崑崙萬維 ●崑崙萬維開源2千億稀疏大模型天工MoE,全球首創能用4090推理 ●崑崙萬維宣佈天工AI每日活躍用戶(DAU)超過100萬
(崑崙萬維)