AGI雛形?剛剛Claude重磅升級,支持像人一樣操控計算機

Anthropic 的 Claude 模型又升級了!Claude 3.5 Haiku 和升級款的 Claude 3.5 Sonnet 都來了。Claude 3.5 Sonnet 不僅編程能力更強,還帶來全新功能computer use(計算機使用), Claude 現在支持像人類一樣操作計算機,可以遵循用戶的命令在計算機屏幕上移動光標,點擊相關位置,並通過虛擬鍵盤輸入信息,模擬人們與自己計算機的交互方式

升級版 Claude 3.5 Sonnet 現在就可以使用了。computer use測試版也開放使用

Claude 3.5 的更新內容:

Claude 3.5 Sonnet 升級版:全面提升,尤其在編程方面,吊打所有公開模型,包括 OpenAI o1 和專門爲 agent 編程設計的系統!SWE-bench Verified 基準測試得分從 33.4% 提升到 49.0%,速度和價格保持不變!這纔是真正的加量不加價!

Claude 3.5 Haiku 全新模型:與 Claude 3 Haiku 相比,Claude 3.5 Haiku 在所有技能上都有提升,甚至在許多智能基準測試中超過了 Claude 3 Opus,它在 SWE-bench Verified 上的得分高達 40.6%,超過了許多使用 SOTA 模型的 agent,包括原始的 Claude 3.5 Sonnet 和 GPT-4o,低延遲、改進的指令遵循和更準確的工具使用,使其非常適合面向用戶的產品,主打一個性價比

“計算機使用(computer use)”功能公測:開發者可以通過 API 讓 Claude 像人一樣使用電腦——查看屏幕、移動光標、點擊按鈕、輸入文字! Claude 3.5 Sonnet 是第一個在公測階段提供“計算機使用” 功能的 AI 前沿模型!(雖然目前還處於實驗階段,有時會出錯,但 Anthropic 會根據開發者反饋快速改進)

爲什麼 Claude 需要使用電腦(computer use)?

爲什麼需要計算機使用能力?

不是教 Claude 使用特定工具,而是教它通用的計算機技能,讓它能夠像人一樣使用各種軟件程序

Anthropic 認爲,這種通用技能的學習是 AI 發展中重要的里程碑。在過去的幾年裡,AI 在邏輯推理和圖像理解方面取得了重大進展,而計算機使用能力是下一個 frontier:AI 模型不再需要通過定製工具進行交互,而是可以像人類一樣使用任何軟件

開發者可以通過 API 讓 Claude 將指令轉換成計算機命令,例如,將 “使用我的計算機和在線數據填寫此表格” 這樣的指令轉換成一系列具體的計算機操作

訓練過程:先在簡單的軟件上進行訓練,例如計算器和文本編輯器,然後泛化到其他軟件。訓練 Claude 準確地計算像素至關重要

之前在工具使用和多模態方面的工作爲這些新的計算機使用技能奠定了基礎。操作計算機需要能夠查看和解釋圖像。它還需要推理如何以及何時根據屏幕上的內容執行特定操作。結合這些能力,訓練 Claude 解釋屏幕上發生的事情,然後使用可用的軟件工具來執行任務。當開發人員讓 Claude 使用一個計算機軟件並賦予它必要的訪問權限時,Claude 會查看用戶可見內容的屏幕截圖,然後計算它需要垂直或水平移動光標多少像素才能點擊正確的位置。

研究人員驚訝地發現,Claude 能夠快速地從少數簡單軟件(例如計算器和文本編輯器)的計算機使用訓練中進行泛化(出於安全原因,不允許模型在訓練期間訪問互聯網)。結合 Claude 的其他技能,這項訓練賦予了它將用戶的書面提示轉換爲一系列邏輯步驟,然後在計算機上採取行動的非凡能力。研究人員觀察到,當模型遇到障礙時,它甚至會自我糾正並重試任務。儘管在取得初步突破後,後續的進展很快就出現了,但這需要大量的試驗和錯誤才能達到目標。一些研究人員指出,開發計算機使用非常接近他們剛開始進入該領域時所設想的“理想化”的 AI 研究過程:

目前,Claude 在以與人相同的方式使用計算機的模型中處於最先進水平——也就是說,通過查看屏幕並根據屏幕內容採取行動。在一個旨在測試開發人員讓模型使用計算機的評估(OSWorld)中,Claude 目前獲得了 14.9% 的分數。這遠未達到人類水平的技能(通常爲 70-75%),但遠高於同一類別中排名第二的 AI 模型獲得的 7.7%。

computer use(計算機使用)的未來:

目前,即使是最先進的 Claude,它的計算機使用仍然很慢,而且經常出錯。 許多人們經常用電腦進行的操作(拖動、縮放等),Claude 還無法嘗試。 “翻頁式”的屏幕視圖方式(拍攝屏幕截圖並將它們拼湊在一起,而不是觀察更精細的視頻流)意味着它可能會錯過短暫的操作或通知

但是

計算機使用是一種全新的 AI 開發方法。以前,LLM 開發者是讓工具適應模型,而現在,我們可以讓模型適應工具——Claude 可以直接使用我們每天都在使用的計算機環境。Anthropic 的目標是讓 Claude 像人一樣使用現有的計算機軟件

雖然 Claude 的計算機使用能力還處於早期階段,但它代表了 AI 發展的一個重大突破!未來,隨着技術的不斷髮展,計算機使用功能將變得更快、更可靠、更容易使用,並解鎖更多新的應用場景

⭐星標AI寒武紀,好內容不錯過⭐

用你的贊和在看告訴我~