處於多事之秋的OpenAI,決定拯救開發者預算|甲子光年

今年DevDay很低調,但也有四項創新。

作者|蘇霍伊

編輯|王博

高管離職、蘋果退出融資磋商,對於OpenAI來說,這無疑是動盪的一週。但OpenAI仍在堅持說服開發者使用他們的AI模型構建應用程序。

美國當地時間10月1日,OpenAI在舊金山舉辦了DevDay。與去年的盛大活動不同,今年更爲低調,轉爲面向開發者的路演。

這次,OpenAI沒有發佈重大產品,而是對現有的AI工具和API套件進行了漸進式改進。

他們公佈了四項創新:視覺微調 (Vision Fine-Tuning)、實時API(Realtime API)、模型蒸餾(Model Distillation)和提示緩存(Prompt Caching)。

OpenAI推出的新功能,來源:OpenAI Developer

比如實時API的公開測試版能讓開發者製作應用程序,並讓其能夠快速生成AI語音響應。這項新技術不僅響應速度快,而且提供了六種不同的聲音選項,聲音都是由OpenAI自行開發,避免了第三方版權問題。該API沒有“複製”ChatGPT的高級語音模式,但功能基本相近。

OpenAI的開發者體驗主管還在羅曼·於特(Romain Huet)現場演示瞭如何使用o1在約30秒內通過一個提示構建一個iPhone iOS應用程序。

於特演示構建iPhone iOS應用程序。圖片來源:Romain Huet的X

過去兩年,爲了應對Meta和谷歌等競爭對手的市場壓力,OpenAI已將開發者訪問其API的成本降低了99%。而從新工具的脈絡中可以摸索出,OpenAI策略更傾向於增強其開發者生態系統,而不是直接在終端用戶應用領域競爭。

在活動前,OpenAI的首席產品官凱文·韋爾(Kevin Weil)提及,首席技術官米拉·穆拉蒂(Mira Murati)和首席研究官鮑勃·麥格魯(Bob McGrew)的離職不會影響公司的長遠發展。他表示儘管“人事頻頻變動”,但OpenAI仍能“維持發展勢頭”。

隨着谷歌和蘋果等科技集團競相向消費者推出所謂的人工智能代理,OpenAI認爲AI助手將在明年“成爲主流”。AI助手的能力,包括推理和完成複雜任務等,已成爲科技公司爭奪市場的最新戰場,每家希望藉助這項迅速發展的技術來開闢收入來源。

“希望AI的互動方式能夠覆蓋人類互動的所有方式。”韋爾說道,“代理系統的發展將使這種交互成爲可能。”簡而言之,即讓AI能夠模仿或複製人類在交流和互動中的各種方式,無論是語言交流、情感表達還是非言語交流等,使得人與AI之間的互動儘可能自然和無縫。

除了OpenAI,其他公司如微軟、Salesforce和Workday也在將代理功能置於其AI計劃的核心,而谷歌和Meta也表示,將AI模型整合到其產品中是他們的重點關注領域。

去年,OpenAI發佈了“Assistants API”,讓開發者能夠利用其技術構建代理。但他們也透露,由於早期模型的功能有限,計劃受到了一定的阻礙。

韋爾提到,OpenAI最新的模型在思考和推理方面的提升將反映在其產品上,如ChatGPT以及那些利用其API構建應用的初創公司和開發者,但並未透露他們是否會立即開發自己的AI代理。

OpenAI現場演示了與AI系統對話任務:幫助尋找併購買當地可獲得的產品。比如購買草莓,隨後AI將根據用戶的指示打電話給商家下單。

AI根據提示購買草莓的演示,圖片來源:Ken Collins的X

OpenAI強調,任何利用這個技術的人必須明確表明其爲AI而非人類,並且只爲開發者提供有限的預設選項,而不能創建新的聲音。

韋爾表示:“如果我們做得對,我們將有更多時間投入到重要事務上,而不再需要時刻盯着手機的時間。”

1.提示緩存:開發者預算的救星

“提示緩存”功能是這次活動最重要的推出之一,它用於降低開發人員的成本和延遲。

許多開發者在構建AI應用時會在多個API調用中重複使用相同的上下文,例如在編輯代碼庫或與聊天機器人進行長時間的多輪對話時。提示緩存通過重複使用最近看到的輸入令牌,自動對模型最近處理的輸入標記應用50%的折扣。

與各種GPT模型中的非緩存tokens相比,緩存輸入tokens可節省高達 50% 的成本。圖片來源:OpenAI

提示緩存的可用性與定價 從今天起,提示緩存將自動應用於GPT-4o、GPT-4o mini、o1-preview和o1-mini的最新版本,以及這些模型的微調版本。與未緩存的提示相比,緩存的提示提供了折扣。

對受支持模型的API調用將自動從提示緩存中受益,適用於長度超過1024標記的提 示。API緩存之前計算過的提示的最長前綴,從1024標記開始,以128標記爲增量。如果用戶多使用具有常見前綴的提示,OpenAI將自動應用提示緩存摺扣,用戶則無需對API集成進行任何更改。

緩存通常在5到10分鐘的不活動後被清除,並且在緩存最後使用後的一小時內總是被移除。與所有API服務一樣,提示緩存受OpeAI的企業隱私承諾約束。提示緩存不在組織之間共享。

成本的顯著降低爲各類企業開發以往因成本過高而難以實現的新應用提供了機會。

OpenAI平臺產品負責人奧利維爾·哥德門特(Olivier Godement)在OpenAI舊金山總部舉辦的小型新聞發佈會上發言:“我們一直非常忙碌。兩年前GPT-3在同類技術中處於領先位置,但現在我們已經實現了將相關成本降低近1000倍。”並難言驕傲地表示,他無法找到其他任何技術在短短兩年內實現了類似規模的成本下降。

2.視覺微調:視覺AI的新前沿

另一項重大公告是OpenAI最新大型語言模型GPT-4o引入了視覺微調功能。開發者不僅可以對文本進行微調,還可以對圖像進行微調,這或將可能會改變自動駕駛汽車、醫學成像和視覺搜索功能等領域。

自引入文本微調功能以來,已有數十萬開發者利用純文本數據集來優化模型以提高特定任務的性能。但在很多情況下,僅憑文本微調並不能滿足所有需求。通過視覺微調,開發者可以通過簡單地上傳至少100張圖像來優化GPT-4o模型,以提升其在視覺任務中的表現,特別是在處理大量的文本和圖像數據時。

據OpenAI稱,東南亞領先的食品配送和拼車公司Grab已經利用這項技術來改進其地圖服務。僅使用100個示例,Grab就將車道計數準確率提高了20%,限速標誌定位準確率提高了13%。

視覺微調 GPT-4o 模型成功標記的限速標誌示例,圖片來源:OpenAI

Automat公司使用視覺微調訓練GPT-4o識別屏幕上的UI元素,基於屏幕截圖數據集,從而提高其自動化工具的成功率。通過這種方式,Automat的機器人代理的成功率從原來的16.60%提升到61.67%。

桌面機器人通過使用網站截圖的視覺微調成功識別UI元素中心,來源:OpenAI

視覺微調現實世界的應用程序展示了視覺微調的可能性,可以使用小批量的視覺訓練數據顯著增強各行各業的AI服務。

視覺微調功能現已對所有付費用戶開放,支持最新的GPT-4o模型。開發人員可以利用這些功能來擴展現有的圖像微調訓練數據集。此外,OpenAI提供了每天100萬個免費訓練令牌,直至2024年10月31日。之後微調訓練和推理的費用將進行調整。

3.實時API:彌合對話式AI之間的差距

實時API目前處於公開測試階段。它能讓開發人員能夠創建低延遲、多模式體驗,尤其是在語音轉語音應用程序中。這意味着開發人員可以開始將ChatGPT的語音控件添加到應用程序中。

爲了說明該API的潛力,OpenAI演示了Wanderlust的更新版本,Wanderlust是去年會議上展示的一款旅行計劃應用程序。

藉助實時API,用戶可以直接與應用對話,以自然對話的方式規劃行程。該系統甚至允許在說話過程中打斷,模仿人類對話。

Healthify是一款營養和健身指導應用程序,它使用實時API 實現與AI的自然對話。圖片來源:OpenAI

雖然旅行計劃只是一個例子,但實時API爲各個行業的語音應用程序開闢了廣泛的可能性。從客戶服務到教育和輔助功能工具,開發人員現在擁有強大的新資源來創造更直觀、響應更迅速的人工智能驅動體驗。

哥德門特解釋:“每當我們設計產品時,我們基本上都會同時考慮初創公司和企業。因此在alpha階段,我們有許多企業使用API,以及新產品的新模型。”

實時API本質上簡化了構建語音助手和其他對話式AI工具的過程,無需將多個模型拼接在一起進行轉錄、推理和文本到語音的轉換。

早期採用者如營養和健身指導應用程序Healthify和語言學習平臺Speak已經將實時API集成到他們的產品中。API在醫療保健到教育等領域創造更自然、更具吸引力的用戶體驗的潛力。

實時API的定價結構雖並不便宜(每分鐘音頻輸入0.06美元、每分鐘音頻輸出0.24美元),但對於希望創建基於語音的應用程序的開發人員來說,仍代表者一個重要的價值主張。

4.模型蒸餾:邁向更易於訪問的AI

這也許最具變革性的公告是引入了模型蒸餾。

它集成的工作流程能讓開發人員使用o1-preview和GPT-4o等高級模型的輸出來提高GPT-4o mini等更高效模型的性能。小公司也能使用先進模型類似的功能,又不用擔心承擔不起計算成本。

微調演示,來源:OpenAI

模型蒸餾解決了AI行業長期存在的尖端、資源密集型系統與更易於訪問但功能較弱的系統之間的差距。

假設一家小型醫療技術初創公司正在爲農村診所開發一款人工智能診斷工具,團隊使用模型蒸餾可訓練一個小模型,它能在標準筆記本電腦或平板電腦上運行,也能捕捉大型模型的大部分診斷能力。

這能將複雜的人工智能能力帶入資源受限的環境,從而改善醫療服務不足地區的醫療保健結果。

從這次更新不難看出,OpenAI在戰略上的重要轉折——更加註重於生態系統的開發而非單純追求引人注目的產品發佈,雖然策略對公衆的吸引力可能不如產品發佈那樣直接。

與2023年充滿激情、推出了GPT商店和自定義GPT工具的開發者日相比,今年的活動顯得低調許多。AI領域的快速變化,以及競爭對手的顯著進步和對訓練數據可用性的日益關注,促使OpenAI更加專注於完善現有工具和增強開發者能力,以應對這些變化。

通過提高模型的效率和降低成本,OpenAI希望維持其在激烈競爭中的優勢,並解決資源密集和環境影響的問題。OpenAI的成功將在很大程度上依賴於其能否有效培育一個充滿活力的開發者生態系統。

參考資料:

《Introducing the Realtime API》,OpenAI

《Introducing vision to the fine-tuning API》,OpenAI

《Prompt Caching in the API》,OpenAI

《Model Distillation in the API》OpenAI

《OpenAI’s DevDay 2024: 4 major updates that will make AI more accessible and affordable》,VentureBeat

《OpenAI’s DevDay brings Realtime API and other treats for AI app developers》,TechCrunch

(封面圖來源:OpenAI)