OpenAI憋新大招:將推AI Agent,會操控電腦

智東西編譯 汪越編輯 Panken

智東西11月14日消息,據彭博社報道,據知情人士透露,OpenAI正在開發一款名爲“Operator”的AI Agent(AI代理、AI智能體),計劃於明年1月發佈。這款工具將能夠自動執行包括編寫代碼、預訂旅行等在內的複雜任務,並將作爲研究預覽版發佈,面向開發者提供API接口。OpenAI目前尚未置評。

據三位知情人士透露,OpenAI還在進行多個與Agent相關的研究項目,其中最接近完成的是一款通用工具,能夠在Web瀏覽器中執行任務。

隨着大語言模型(LLM)發展進入瓶頸期,OpenAI、美國AI大模型獨角獸Anthropic、微軟、谷歌等科技公司紛紛轉向開發AI Agent,試圖通過這一新領域打破現有的技術平臺期,搶佔市場先機。

據彭博社報道,Anthropic在10月推出了一款類似的AI Agent。與其他AI Agent不同,這款工具不僅能夠與瀏覽器進行互動,還能直接控制用戶計算機上的多個應用程序。這項名爲“計算機使用”的功能可以實時解析用戶屏幕上的內容,並在獲得授權後,執行如瀏覽網頁、點擊按鈕和輸入文本等任務。

目前,Anthropic正在向其Claude模型的開發者提供該工具的測試版,幾周前,該工具也已在部分企業客戶中進行了初步測試。

▲Anthropic展示如何在計算機中使用AI Agent(圖源:YouTube)

微軟也在加速推進其AI Agent的商業化。今年10月,在倫敦舉辦的微軟“AI Tour”活動中,微軟宣佈將爲Dynamics 365系列業務應用推出10個新的AI Agent,涵蓋銷售、客戶支持和會計等領域。微軟計劃從12月起提供這些AI Agent的公共預覽版,並持續至2025年初。

同時,微軟還計劃在11月發佈Copilot Studio的公開預覽版,幫助企業構建和使用定製化的AI Agent。Copilot Studio是微軟Copilot的擴展平臺,允許用戶根據需求定製AI Agent。

▲微軟將推出10個AI Agent,幫助完成銷售、客戶支持和會計等工作。(圖源:微軟)

據The Information報道,谷歌正在研發一款名爲“Jarvis”的AI Agent,該工具可以接管用戶的網絡瀏覽器,自動執行如收集研究資料、購買產品和預訂航班等任務。預計這款工具將在12月發佈預覽版,並將與谷歌的下一代大語言模型Gemini一同推出。

谷歌的AI Agent與Anthropic的相似,都能通過頻繁捕捉用戶計算機屏幕的內容來響應指令,但在操作範圍上有所不同。谷歌的Jarvis專注於瀏覽器操作,Anthropic的工具能控制用戶計算機上的各類應用程序。

結語:誰能佔領AI Agent市場的制高點?

發佈AI Agent的舉措,正值OpenAI及其競爭對手在開發更先進AI模型時發現高昂投入的回報遞減之際。

隨着LLM改進速度放緩,OpenAI和其他公司正在積極尋找新的技術突破口。今年10月,OpenAI CEO薩姆·阿爾特曼(Sam Altman)在Reddit的“Ask Me Anything”會議上談道,AI Agent將是下一個重大突破的方向。

AI Agent正在逐步成爲自動化任務和提升生產力的重要組成部分。OpenAI、Anthropic、微軟和谷歌等科技公司都在爭相開發各自的AI Agent,Salesforce等公司也開始加入進來,計劃推出定製化的AI Agent。未來,誰能在這場競爭中脫穎而出,將取決於其如何平衡技術深度、商業化進程以及對市場需求的精準洞察。

來源:彭博社