智譜發佈自主Agent全家桶,目標:讓打工人實現“光說不幹”!

整理 |華衛

“來自 AI 的微信紅包已派發,請查收!”

在今天的智譜 OpenDay 現場,智譜 CEO 張鵬只向 AutoGLM 下達了一個簡單語音指令,就成功執行了這個操作。

現場,智譜帶來了多個通過 Agent 操作手機、電腦,甚至手機電腦聯動的新進展:

AutoGLM 可以自主執行超過 50 步的長步驟操作,也可以跨 app 執行任務

AutoGLM 開啓“全自動”上網新體驗,支持等數十個網站的無人駕駛

像人一樣操作計算機的 GLM-PC 啓動內測,基於視覺多模態模型實現通用 Agent 的技術探索

此外,張鵬還展示了通過手機給 GLM-PC 發消息,讓 GLM-PC 自動進行發送文件等電腦操作的過程。據介紹,GLM-PC 還可以在開機狀態下執行定時任務,比如定時發日報等。

原本對於機器而言非常複雜的操作,現在可以由智譜產品化的 Agent 完成,大模型正在從只有對話功能的 Chatbot 走向能夠進行實際物理操作的自主 Agent。張鵬表示,“Agent 將極大地提升 L3 使用工具能力,同時開啓對 L4 自我學習能力的探索。”

AutoGLM 新升級:

挑戰更復雜

在張鵬看來,Agent 可以看作是大模型通用操作系統 LLM-OS 的雛形。

“現階段,AutoGLM 相當於在人與應用之間添加一個執行的調度層,很大程度上改變人機的交互形式。更重要的是,我們看到了 LLM-OS 的可能,基於大模型智能能力(從 L1 到 L4 乃至更高),未來有機會實現原生的人機交互。將人機交互範式帶向新的階段。”

據張鵬介紹,新升級的 AutoGLM 可以挑戰完成以下複雜任務:

1. 超長任務:理解超長指令,執行超長任務。例如,在採購火鍋食材的例子中,AutoGLM 自主執行了 54 步無打斷操作。並且,在這種多步、循環任務中,AutoGLM 的速度表現超過人手動操作。

2. 跨 app :AutoGLM 支持跨 App 來執行任務。用戶可以習慣於 AI 自動處理,而不是在多個 APP 間來回切換。由於目前 AutoGLM 形態更像是用戶和應用間的 APP 執行的調度層,因此跨 App 能力是裡面非常關鍵的一步。

3. 短口令:AutoGLM 能夠支持長任務的自定義短語。

4. 隨便模式:AutoGLM 可以主動幫用戶做出決策,帶來抽盲盒式的驚喜。

支持核心場景和核心應用的 AutoGLM 標品 API,會在兩週內上線到智譜 maas 開放平臺(bigmodel.cn)試用。同時,AutoGLM 啓動大規模內測,並將儘快上線成爲面向 C 端用戶的產品。(autoglm- 安卓:https://agent.aminer.cn/)

Web 端也將開啓“全自動”上網新體驗,即日起智譜清言插件上線 AutoGLM 功能,支持搜索、微博、知乎、Github 等數十個網站的“無人駕駛”。(清言插件:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday)

GLM-PC :面向“無人駕駛”

PC 的技術探索

不只是基於手機和瀏覽器,智譜還帶來了基於 PC 的自主 Agent。

據其介紹,GLM-PC 的技術路線是一種擬人的多模態的感知,基於智譜自研的 UI Agent 視覺基座模型 CogAgent。模型僅需視覺截圖作爲輸入,無需依賴 HTML 等語言表徵,可應用至任意圖形用戶界面,具備極強的跨平臺、跨系統泛化能力。

glm-pc:https://www.wjx.top/vm/mOs9cHw.aspx

簡單來說,GLM-PC 用電腦的方式幾乎完全和人一樣。人在電腦上辦公的過程是,用眼看圖形、圖像、文字,然後用腦規劃,再用手執行單擊雙擊、滾動、輸入、懸浮等操作。GLM-PC 同樣也是把用電腦的動作拆解如上,最終準確輸出具體動作(精確至座標)。

也正因如此,理論上只要是爲人類設計的應用,在 GLM-PC 學習之後它都能夠執行。這是一種系統級、跨平臺的能力,不依賴於 HTML、API,而且具備更高的能力上限。

目前開放第一階段的內測場景,包括:

1. 會議替身:幫用戶預定和參與會議,發送會議總結。

2. 文檔處理:支持文檔下載、文檔發送、理解和總結文檔。

3. 網頁搜索與總結:在指定平臺(如微信公衆號、知乎、小紅書等)搜索指定關鍵詞,完成閱讀、總結。

4. 遠程和定時操作:遠程手機發指令,GLM-PC 可以自主完成電腦操作;設定一個未來時間,在開機狀態下定時執行任務。

5. 隱形屏幕:在用戶工作時,GLM-PC 可以在隱形屏幕上自主完成工作,解放屏幕使用權。

不過,GLM-PC 在當前版本下,用戶仍需要輸入非常精準的指令。張鵬解釋道,由於 PC 的複雜程度,以及大家在 PC 完成的幾乎都是複雜任務,今天大模型的能力距離真正代替辦公還有一定距離。

但張鵬表示,未來 GLM 團隊將繼續加速 Agent 模型產品的研發,期待着一句話操作電腦和手機的範式儘快到來。到那時,Agent 或許真有望幫助打工人實現“光說不幹”的一天。

會議推薦

就在 12 月 13 日 -14 日,AICon 將匯聚 70+ 位 AI 及技術領域的專家,深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外,還有豐富的圓桌論壇、以及展區活動,滿足你對大模型實踐的好奇與想象。現在正值 9 折倒計時,名額有限,快掃碼諮詢瞭解詳情,別錯過這次絕佳的學習與交流機會!

今日薦文

你也「在看」嗎?