☰

智譜發佈自主Agent全家桶，目標：讓打工人實現“光說不幹”！

整理｜華衛

“來自 AI 的微信紅包已派發，請查收！”

在今天的智譜 OpenDay 現場，智譜 CEO 張鵬只向 AutoGLM 下達了一個簡單語音指令，就成功執行了這個操作。

現場，智譜帶來了多個通過 Agent 操作手機、電腦，甚至手機電腦聯動的新進展：

AutoGLM 可以自主執行超過 50 步的長步驟操作，也可以跨 app 執行任務

AutoGLM 開啓“全自動”上網新體驗，支持等數十個網站的無人駕駛

像人一樣操作計算機的 GLM-PC 啓動內測，基於視覺多模態模型實現通用 Agent 的技術探索

此外，張鵬還展示了通過手機給 GLM-PC 發消息，讓 GLM-PC 自動進行發送文件等電腦操作的過程。據介紹，GLM-PC 還可以在開機狀態下執行定時任務，比如定時發日報等。

原本對於機器而言非常複雜的操作，現在可以由智譜產品化的 Agent 完成，大模型正在從只有對話功能的 Chatbot 走向能夠進行實際物理操作的自主 Agent。張鵬表示，“Agent 將極大地提升 L3 使用工具能力，同時開啓對 L4 自我學習能力的探索。”

AutoGLM 新升級：

挑戰更復雜

在張鵬看來，Agent 可以看作是大模型通用操作系統 LLM-OS 的雛形。

“現階段，AutoGLM 相當於在人與應用之間添加一個執行的調度層，很大程度上改變人機的交互形式。更重要的是，我們看到了 LLM-OS 的可能，基於大模型智能能力（從 L1 到 L4 乃至更高），未來有機會實現原生的人機交互。將人機交互範式帶向新的階段。”

據張鵬介紹，新升級的 AutoGLM 可以挑戰完成以下複雜任務：

1. 超長任務：理解超長指令，執行超長任務。例如，在採購火鍋食材的例子中，AutoGLM 自主執行了 54 步無打斷操作。並且，在這種多步、循環任務中，AutoGLM 的速度表現超過人手動操作。

2. 跨 app ：AutoGLM 支持跨 App 來執行任務。用戶可以習慣於 AI 自動處理，而不是在多個 APP 間來回切換。由於目前 AutoGLM 形態更像是用戶和應用間的 APP 執行的調度層，因此跨 App 能力是裡面非常關鍵的一步。

3. 短口令：AutoGLM 能夠支持長任務的自定義短語。

4. 隨便模式：AutoGLM 可以主動幫用戶做出決策，帶來抽盲盒式的驚喜。

支持核心場景和核心應用的 AutoGLM 標品 API，會在兩週內上線到智譜 maas 開放平臺（bigmodel.cn）試用。同時，AutoGLM 啓動大規模內測，並將儘快上線成爲面向 C 端用戶的產品。（autoglm- 安卓：https://agent.aminer.cn/）

Web 端也將開啓“全自動”上網新體驗，即日起智譜清言插件上線 AutoGLM 功能，支持搜索、微博、知乎、Github 等數十個網站的“無人駕駛”。（清言插件：https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday）

GLM-PC ：面向“無人駕駛”

PC 的技術探索

不只是基於手機和瀏覽器，智譜還帶來了基於 PC 的自主 Agent。

據其介紹，GLM-PC 的技術路線是一種擬人的多模態的感知，基於智譜自研的 UI Agent 視覺基座模型 CogAgent。模型僅需視覺截圖作爲輸入，無需依賴 HTML 等語言表徵，可應用至任意圖形用戶界面，具備極強的跨平臺、跨系統泛化能力。

glm-pc：https://www.wjx.top/vm/mOs9cHw.aspx

簡單來說，GLM-PC 用電腦的方式幾乎完全和人一樣。人在電腦上辦公的過程是，用眼看圖形、圖像、文字，然後用腦規劃，再用手執行單擊雙擊、滾動、輸入、懸浮等操作。GLM-PC 同樣也是把用電腦的動作拆解如上，最終準確輸出具體動作（精確至座標）。

也正因如此，理論上只要是爲人類設計的應用，在 GLM-PC 學習之後它都能夠執行。這是一種系統級、跨平臺的能力，不依賴於 HTML、API，而且具備更高的能力上限。

目前開放第一階段的內測場景，包括：

1. 會議替身：幫用戶預定和參與會議，發送會議總結。

2. 文檔處理：支持文檔下載、文檔發送、理解和總結文檔。

3. 網頁搜索與總結：在指定平臺（如微信公衆號、知乎、小紅書等）搜索指定關鍵詞，完成閱讀、總結。

4. 遠程和定時操作：遠程手機發指令，GLM-PC 可以自主完成電腦操作；設定一個未來時間，在開機狀態下定時執行任務。

5. 隱形屏幕：在用戶工作時，GLM-PC 可以在隱形屏幕上自主完成工作，解放屏幕使用權。

不過，GLM-PC 在當前版本下，用戶仍需要輸入非常精準的指令。張鵬解釋道，由於 PC 的複雜程度，以及大家在 PC 完成的幾乎都是複雜任務，今天大模型的能力距離真正代替辦公還有一定距離。

但張鵬表示，未來 GLM 團隊將繼續加速 Agent 模型產品的研發，期待着一句話操作電腦和手機的範式儘快到來。到那時，Agent 或許真有望幫助打工人實現“光說不幹”的一天。

會議推薦

就在 12 月 13 日 -14 日，AICon 將匯聚 70+ 位 AI 及技術領域的專家，深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外，還有豐富的圓桌論壇、以及展區活動，滿足你對大模型實踐的好奇與想象。現在正值 9 折倒計時，名額有限，快掃碼諮詢瞭解詳情，別錯過這次絕佳的學習與交流機會！

今日薦文

你也「在看」嗎？

智譜發佈自主Agent全家桶，目標：讓打工人實現“光說不幹”！

相關資訊