本週 AI 領域:科技巨頭爲何青睞合成數據?

本週在 AI 方面,合成數據嶄露頭角。

OpenAI 上週四推出了 Canvas,這是與ChatGPT(其由人工智能驅動的聊天機器人平臺)進行交互的新方式。Canvas打開了一個帶有工作區的窗口,用於寫作和編碼項目。用戶可以在 Canvas 中生成文本或代碼,然後在必要時突出顯示部分以使用 ChatGPT 進行編輯。

從用戶的角度來看,Canvas 極大地提升了生活質量。但對我們來說,該功能最有趣的是爲其提供支持的微調模型。OpenAI 表示,它使用合成數據對GPT-4o模型進行了定製,以在 Canvas 中“實現新的用戶交互”。

“我們使用了新穎的合成數據生成技術,比如從 OpenAI 的o1-preview中提取輸出,對 GPT-4o 進行微調,以實現打開畫布、進行有針對性的編輯以及在線留下高質量評論等操作,”ChatGPT 產品負責人尼克·特利在X 上的一篇帖子中寫道。“這種方法使我們能夠迅速改進模型並實現新的用戶交互,所有這些都無需依賴人工生成的數據。”

OpenAI 並不是唯一一家越來越依賴合成數據來訓練其模型的大型科技公司。

在開發Movie Gen(一套用於創建和編輯視頻片段的由人工智能驅動的工具)時

該公司招募了一組人工註釋員來修正這些字幕中的錯誤並增添更多細節,不過大部分基礎工作在很大程度上是自動化完成的。

OpenAI 首席執行官 Sam Altman 認爲,人工智能總有一天能夠有效地生成足以自行訓練的合成數據。

Meta 本身已經利用合成數據對 Llama 3 模型進行了微調。

但是,採用以合成數據爲先的方式存在風險。

正如一位研究人員最近跟我指出的那樣,用於生成合成數據的模型不可避免地會產生幻覺(也就是編造內容),並且存在偏差和侷限性。

所以,要安全使用合成數據,就需要對其進行徹底的管理和篩選——這跟人工生成數據的標準做法是一樣的。

要是不這樣做,就可能會導致模型崩潰,也就是說模型在其輸出中變得沒那麼“有創意”——而且更有偏差——最終嚴重損害其功能。

這並非一項容易大規模完成的工作。但隨着真實世界的訓練數據變得更加昂貴(更不用說獲取具有挑戰性),人工智能供應商或許會把合成數據當作唯一可行的發展路徑。希望他們在採用的時候能謹慎些。

AI 概述中的廣告: 谷歌表示,很快就要開始在AI 概述裡展示廣告,這是其爲某些谷歌搜索查詢提供的人工智能生成的摘要。

谷歌鏡頭,現已支持視頻: 谷歌的視覺搜索應用鏡頭已升級,具備回答您周圍環境近乎實時問題的能力。您可以通過鏡頭拍攝視頻,並詢問有關視頻中感興趣對象的問題。(可能也會有廣告。)

從 Sora 到 DeepMind: OpenAI 視頻生成器Sora的負責人之一蒂姆·布魯克斯已離開,去了競爭對手谷歌 DeepMind 那裡。布魯克斯在 X 上的一篇帖子中宣佈,他將致力於視頻生成技術和“世界模擬器”。

持續變化: 由安德森·霍洛維茨支持的 Black Forest Labs 是 xAI 的Grok助手圖像生成組件背後的初創公司,已推出測試版 API 併發布了新模型。

沒那麼透明: 加利福尼亞州最近通過的 AB-2013 法案要求開發生成式人工智能系統的企業公佈用於訓練其系統的數據的高級摘要。到目前爲止,很少有公司願意表明是否會遵守。該法律給他們的期限到 2026 年 1 月爲止。

蘋果的研究人員多年來一直致力於計算攝影的研究,而該過程的一個重要方面是深度映射。最初,這是通過立體視覺或者像激光雷達單元這類專用深度傳感器來實現的,但這些往往昂貴、複雜,並佔用寶貴的內部空間。在很多方面,僅通過軟件來完成更可取。這就是這篇名爲《Depth Pro》的論文的全部內容。

A列克謝·博赫科夫斯基等人分享了這樣一種具有高細節的零樣本單目深度估計方法,這意味着它使用單個攝像頭,無需針對特定事物進行訓練(比如它可以對駱駝進行工作,儘管從未見過駱駝),甚至可以捕捉像頭髮簇這樣的困難方面。它幾乎可以肯定已經在 iPhone 上使用了(儘管可能是改進的、定製的版本),但如果您想自己進行一些深度估計,可以通過使用此 GitHub 頁面上的代碼來嘗試。

谷歌在其 Gemini 系列中發佈了一個新模型,Gemini 1.5 Flash-8B,聲稱這是其性能最強的模型中的一個。

作爲Gemini 1.5 Flash的“精簡”版本,它已經針對速度和效率進行了優化,Gemini 1.5 Flash-8B 的使用成本降低了 50%,延遲更低,並且在AI Studio(谷歌以 AI 爲重點的開發環境)中的速率限制提高了 2 倍。

“Flash-8B 在衆多基準測試中的表現幾乎與 5 月推出的 1.5 Flash 模型旗鼓相當,”谷歌在一篇博客文章中寫道。“我們的模型會繼續依據開發者的反饋以及我們自身對於可能性的測試來不斷完善。”

谷歌表示,Gemini 1.5 Flash-8B 非常適合聊天、轉錄和翻譯,或者任何其他“簡單”和“大量”的任務。除了 AI Studio 之外,該模型還可以通過谷歌的 Gemini API 免費使用,每分鐘限制 4000 個請求。

說到廉價的人工智能,Anthropic 發佈了一項新功能,即消息批次 API,它能讓開發人員以更低的成本異步處理大量的人工智能模型的查詢。

與谷歌對 Gemini API 的批量請求類似,使用 Anthropic 的消息批次 API 的開發人員可以發送每批最多一定大小(10,000 個查詢)的批次。每批會在 24 小時內處理完成,其成本比標準 API 調用低 50%。

Anthropic 表示,消息批次 API 非常適合“大規模”任務,如數據集分析、大型數據集分類和模型評估。“例如,”該公司在一篇帖子中寫道,“通過利用[這種]批量折扣,分析整個公司的文檔庫——可能涉及數百萬個文件——在經濟上變得更可行。”

消息批處理 API 已處於公開測試版,可供使用,並支持 Anthropic 旗下的 Claude 3.5 Sonnet、Claude 3 Opus 和 Claude 3 Haiku 模型。