☰

OpenAI憋新大招：將推AI Agent，會操控電腦

智東西編譯汪越編輯 Panken

智東西11月14日消息，據彭博社報道，據知情人士透露，OpenAI正在開發一款名爲“Operator”的AI Agent（AI代理、AI智能體），計劃於明年1月發佈。這款工具將能夠自動執行包括編寫代碼、預訂旅行等在內的複雜任務，並將作爲研究預覽版發佈，面向開發者提供API接口。OpenAI目前尚未置評。

據三位知情人士透露，OpenAI還在進行多個與Agent相關的研究項目，其中最接近完成的是一款通用工具，能夠在Web瀏覽器中執行任務。

隨着大語言模型（LLM）發展進入瓶頸期，OpenAI、美國AI大模型獨角獸Anthropic、微軟、谷歌等科技公司紛紛轉向開發AI Agent，試圖通過這一新領域打破現有的技術平臺期，搶佔市場先機。

據彭博社報道，Anthropic在10月推出了一款類似的AI Agent。與其他AI Agent不同，這款工具不僅能夠與瀏覽器進行互動，還能直接控制用戶計算機上的多個應用程序。這項名爲“計算機使用”的功能可以實時解析用戶屏幕上的內容，並在獲得授權後，執行如瀏覽網頁、點擊按鈕和輸入文本等任務。

目前，Anthropic正在向其Claude模型的開發者提供該工具的測試版，幾周前，該工具也已在部分企業客戶中進行了初步測試。

▲Anthropic展示如何在計算機中使用AI Agent（圖源：YouTube）

微軟也在加速推進其AI Agent的商業化。今年10月，在倫敦舉辦的微軟“AI Tour”活動中，微軟宣佈將爲Dynamics 365系列業務應用推出10個新的AI Agent，涵蓋銷售、客戶支持和會計等領域。微軟計劃從12月起提供這些AI Agent的公共預覽版，並持續至2025年初。

同時，微軟還計劃在11月發佈Copilot Studio的公開預覽版，幫助企業構建和使用定製化的AI Agent。Copilot Studio是微軟Copilot的擴展平臺，允許用戶根據需求定製AI Agent。

▲微軟將推出10個AI Agent，幫助完成銷售、客戶支持和會計等工作。（圖源：微軟）

據The Information報道，谷歌正在研發一款名爲“Jarvis”的AI Agent，該工具可以接管用戶的網絡瀏覽器，自動執行如收集研究資料、購買產品和預訂航班等任務。預計這款工具將在12月發佈預覽版，並將與谷歌的下一代大語言模型Gemini一同推出。

谷歌的AI Agent與Anthropic的相似，都能通過頻繁捕捉用戶計算機屏幕的內容來響應指令，但在操作範圍上有所不同。谷歌的Jarvis專注於瀏覽器操作，Anthropic的工具能控制用戶計算機上的各類應用程序。

結語：誰能佔領AI Agent市場的制高點？

發佈AI Agent的舉措，正值OpenAI及其競爭對手在開發更先進AI模型時發現高昂投入的回報遞減之際。

隨着LLM改進速度放緩，OpenAI和其他公司正在積極尋找新的技術突破口。今年10月，OpenAI CEO薩姆·阿爾特曼（Sam Altman）在Reddit的“Ask Me Anything”會議上談道，AI Agent將是下一個重大突破的方向。

AI Agent正在逐步成爲自動化任務和提升生產力的重要組成部分。OpenAI、Anthropic、微軟和谷歌等科技公司都在爭相開發各自的AI Agent，Salesforce等公司也開始加入進來，計劃推出定製化的AI Agent。未來，誰能在這場競爭中脫穎而出，將取決於其如何平衡技術深度、商業化進程以及對市場需求的精準洞察。

來源：彭博社

OpenAI憋新大招：將推AI Agent，會操控電腦

相關資訊