深夜狙擊 ChatGPT,Google 最強 AI 亮相,但背後還藏了一個殺手鐗
就在剛剛,Gemini 2.0 新模型用一記重拳暴擊 OpenAI。
先說結論, Gemini 2.0 Flash 性能較上代有所長進,硬剛 Claude 3.5 Sonnet,但今天更重要的亮點或許是基於它打造的 AI Agents(智能體)。
這也得到了 Deepmind CEO Demis Hassabis 的強力背書:
「2025 年將是 AI 智能體的時代,Gemini 2.0 將是支撐我們基於智能體工作的最新一代模型。」
縱觀今天發佈的智能體項目,Google 的野心昭然若揭。
以最接地氣的方式滲透用戶日常生活的每個場景, 而當每個入口都成爲可能,真正的通用型 AI 助手或許纔剛剛開始。
關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
Google 年底最強 AI 王炸來了,但還藏了一手?
不是 Pro,卻勝似 Pro,是對 Gemini 2.0 Flash 的最好評價。
據官方介紹,原本主打效率和速度的 Flash 型號性能有所增強,不僅在多項基準測試功能超越了 Gemini 1.5 Pro,而且響應速度也提升了 2 倍。
不過仔細看看具體的基準測試數據,倒也不用太過興奮。 Gemini 2.0 Flash 在 MMLU-Pro、MATH、GPQA 等各方面基準測試成績都有所提升,但得分和 Claude 3.5 Sonnet 差不多。
當然,今天亮相的只是 Flash 型號,估計 Google 手裡的 2.0 Pro 纔是真正的殺手鐗。
與此同時,2.0 Flash 還新增了許多值得關注的新功能。
除了支持圖像、視頻和音頻等多模態輸入,2.0 Flash 現在還支持多模態輸出,比如原生生成的圖像與文本結合,以及可操控的多語言文本轉語音(TTS)音頻。亦或者,它還可以原生調用工具,如 Google 搜索等。
現在,Gemini 2.0 Flash 現已在 Gemini API 在 Google AI Studio 和 Vertex AI 提供給開發者。而 Gemini 用戶可以通過 PC 端訪問 Gemini 2.0 Flash。
明年初,Gemini 2.0 預計將推送給更多 Google 產品。
博主 @legit_rumors 在體驗 Gemini 2.0 Flash 過後,認爲其得到的結果和 Gemini-Exp-1206 很相似,但要比後者要更快更強,在編程和邏輯推理能力上也大幅取勝。
網友 @slow_developer 讓 gemini-2.0-flash-exp 寫兩段關於草莓「Strawberry」的詩歌,要求段落中卻不能出現「e」,新模型的表現堪稱滿分。
值得一提的是,Google 2.0 正是採用了 Google 六代 TPU——Trillium 訓練而成,以下是 Trillium 與前代產品的關鍵改進:
訓練性能提高超過 4 倍
推理吞吐量提高最多 3 倍
能源效率提升 67%
每個芯片的峰值計算性能提高了 4.7 倍
高帶寬內存(HBM)容量翻倍
芯片間互連(ICI)帶寬翻倍
單個 Jupiter 網絡結構中集成了 10 萬個 Trillium 芯片
每美元的訓練性能提高了 2.5 倍,每美元的推理性能提高了 1.4 倍
作爲全球搜索引擎霸主,Google 也發佈了基於 Gemini 1.5 Pro 的新功能 Deep Research。
類似於當下大火的深度 AI 搜索功能,它結合了 Google 的搜索專長和 Gemini 的高級推理能力,能夠自動完成複雜的研究任務。
想象一下,假如你是一名研究生,需要準備機器人技術報告,關注自動駕駛車輛傳感器趨勢,需研究技術優缺點及未來發展,這通常耗時良久且需要在多個網頁間交叉參考,尋找資料鏈接。
但現在你只需輸入研究問題,Deep Research 就會制定研究計劃並進行多輪網絡搜索,最終生成一份包含關鍵發現的綜合報告。這份報告不僅條理清晰,還包含原始來源鏈接,方便用戶進一步探索。
該工具目前已在 Gemini Advanced 平臺上線,僅支持英文版本,適用於 PC 端,預計將在 2025 年初推出移動應用。
據 Google AI Studio 的高級產品經理 Logan Kilpatrick 的體驗反饋, Deep Research 在單次查詢中就瀏覽分析了多達 145 個不同網站。
Google CEO Sundar Pichai 還在公開信中寫道,此前推出的 AI Overviews 將集成 Gemini 2.0,從而提升複雜問題處理能力, 本週已經進行有限測試,預計明年推廣,並擴展至更多國家和語言。
會寫代碼、能打遊戲、懂瀏覽器,Google 新 AI 智能體到底強在哪?
趕在 2024 年的尾聲,Google 終於端出了 AI 智能體大招。
畢竟,Gemini 2.0 Flash 的原生用戶界面操作功能,以及其他改進,如多模態推理、長上下文理解、複雜指令的跟蹤與規劃、組合函數調用、原生工具使用和延遲性能的優化,所有這些功能協同工作,天然就適合 AI 智能體的發揮。
今天,Google 發佈了多款 AI 智能體,有早已在 I/O 大會上亮相的 Project Astra,也有適用於瀏覽器的 Project Mariner,還有專爲開發者打造的 AI 編程智能體 Jules。
基於 Gemini 2.0 構建的 Project Astra 具備多語言對話能力,能夠更好地理解不同口音和不常見的詞彙。
此外,Project Astra 的記憶能力也有所改進,現在具備最多 10 分鐘的會話內記憶,能夠記住更多用戶與其過去的對話,從而能夠提供更加個性化的服務。
並且,通過新的流媒體功能和原生音頻理解,該 Project Astra 還可以以接近人類對話的延遲進行語言理解。基於此,我們不妨期待一下,Project Astra 能早日融入到 AI 智能眼鏡等設備上。
第二個則是事先張揚的瀏覽器智能體 Project Mariner。
具體來說,它能夠理解並推理瀏覽器屏幕上的信息,包括像素和網頁元素(如文本、代碼和圖片),然後通過 Chrome 擴展程序來利用這些信息幫你完成任務。
WebVoyager 基準測試是一個用於評估多模態網絡智能體性能的測試,主要是通過一系列複雜的基於視覺的任務,測試智能體處理圖文輸入、理解自然語言指令和在網站上執行動作的能力。
而 Project Mariner 在前者的測試中達到了 83.5% 的高分成績, 但 在 完成任務時的準確度和速度仍有待提高。
別問現在效果怎麼樣,問就是主打一個未來可期。
考慮到隱私風險問題,Project Mariner 也沒含糊,在執行某些敏感操作(如購買物品)之前,它會向用戶請求最終確認。
第三個則是專爲開發人員打造的 AI 編程智能體 Jules。
Jules 支持直接集成到 GitHub工作流中,專治各種 Bug,與其盯着滿屏的 Bug發愁,不如直接把問題甩給 Jules。
還記得 Deepmind 前不久發佈的基礎世界模型 Genie 2 嗎?
開局一張圖,它就能生成一個3D 視頻遊戲場景。 Google 也使用 Gemini 2.0 構建了智能體,幫助用戶在視頻遊戲的虛擬世界中進行導航。
類似於今年爆火的 AI 遊戲搭 子,它能夠通過用戶遊戲屏幕上的動作來給出下一步操作建議,這對於模擬經營類遊戲來說,堪稱剛需。
除了探索虛擬世界中的整體能力,Google 還想將 Gemini 2.0 的空間推理能力應用於機器人身上,開發能在現實世界幫忙的智能體。
至於老生常談的安全問題,Google 這次也算是做足了功課。 Gemini 2.0 Flash 和一系列智能體產品,將與測試人員、外部專家以及內部的責任與安全委員會(RSC)合作,進行廣泛的評估。
附上公開信全文
來自 Google 和 Alphabet 首席執行官 Sundar Pichai 的致辭:
信息是人類進步的核心。這是我們過去 26 年致力於使命的原因——組織全球信息,並使其變得可訪問和有用。我們也因此不斷推動人工智能的前沿,以便跨所有輸入方式組織信息,並通過任何輸出方式讓信息真正爲你所用。
去年 12 月,當我們推出 Gemini 1.0 時,這正是我們的願景。Gemini 1.0 和 1.5 作爲首個原生多模態的模型,在多模態和長上下文的應用上取得了顯著進展,能夠理解文本、視頻、圖像、音頻和代碼等多種信息,並處理更多信息。
現在,成千上萬的開發者正在使用 Gemini 進行開發。這不僅幫助我們重新構想了所有產品——包括 7 款擁有 20 億用戶的產品——並創造了新的產品。NotebookLM 便是多模態和長上下文能力爲用戶帶來便捷的一個很好的例子,也正因如此,許多人喜愛它。
在過去一年中,我們一直在投資開發更具「代理性」的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,並在你的監督下爲你執行任務。
今天,我們很高興迎來新一代的模型——Gemini 2.0,它是我們迄今爲止最強大的模型。通過多模態的新進展——如原生圖像和音頻輸出——以及原生工具使用,我們能夠構建新的 AI 智能體,使我們更接近普遍助手的願景。
今天,我們將 Gemini 2.0 交到開發者和信任的測試人員手中,並加速將其應用於我們的產品,首推 Gemini 和搜索引擎。今天起,所有 Gemini 用戶都可以體驗 Gemini 2.0 Flash 實驗模型。同時,我們還推出了名爲「深度研究」的新功能,利用高級推理和長上下文能力,作爲研究助手,探索複雜話題併爲你撰寫報告。目前,Gemini Advanced 中已上線這一功能。
沒有任何產品像搜索引擎一樣被 AI 技術深刻改變。我們的 AI Overviews 已服務超過 10 億用戶,幫助他們提問全新的問題類型,迅速成爲我們搜索引擎最受歡迎的功能之一。
接下來,我們將把 Gemini 2.0 的先進推理能力引入 AI Overviews,處理更復雜的主題和多步驟問題,包括高級數學公式、多模態查詢和編程。我們本週已開始進行有限測試,計劃明年初全面推廣。同時,我們將繼續把 AI Overviews 帶到更多國家和語言地區。
Gemini 2.0 的進展,得益於我們十年來在 AI 創新領域的全棧投資。
它依託像 Trillium 這樣的定製硬件,Trillium 是我們的第六代 TPU。TPU 爲 Gemini 2.0 的訓練和推理提供了 100% 的支持,而 Trillium 現在已開放給客戶,讓他們也能基於這一硬件進行開發。
如果 Gemini 1.0 是爲了組織和理解信息,那麼 Gemini 2.0 則是讓信息更加有用。我迫不及待地想看看這個新時代帶來什麼。
Sundar