☰

谷歌最強大模型Gemini 2.0被擡上來了，網友：好科幻

機器之心報道

作者：Sia、楊文

OpenAI 接連幾天的「轟炸」，已經讓人審美疲勞。

作爲應對，週三，谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。

網友體驗先走一波。

就模型所看到的內容實時對話，感覺就像科幻小說一樣。

通過共享屏幕，實時討論論文，這個研究助理很強啊。

讓AI在對話過程中自然地生成圖像。

現在，一個提示詞就能生成包含步驟說明和配圖，食譜blog，一步到位。

據谷歌介紹，除了能生成文字外，還能直接生成圖片和語音。

不僅如此，2.0 Flash 還能調用第三方應用和服務，比如可以使用谷歌搜索、運行代碼等功能。

從今天開始，開發者可以通過以下幾種方式嘗試使用 2.0 Flash 的測試版：

不過，生成圖片和語音的功能暫時只對「早期合作伙伴」開放，要等到明年 1 月纔會向所有人開放。谷歌表示，在接下來幾個月裡，會把 2.0 Flash 的各種版本整合到多個產品中，包括：

主力模型 Gemini 2.0

今天發佈的 Gemini 2.0 Flash 的實驗版本，是 Gemini 2.0 系列的第一個模型，也是當前主力模型。

它反應速度快（低延遲），性能強大，代表了谷歌 Gemini 最頂尖的技術水平。

除了速度是「前任」的 2 倍，支持圖像、視頻和音頻等多模態輸入外，2.0 Flash 現在還支持多模態輸出，比如原生生成的圖像與文本混合，以及可控制的多語言文本轉語音（ TTS ）音頻。

它還能夠原生調用工具，如谷歌搜索、代碼執行以及第三方用戶自定義函數。

下面這張圖展示了 Gemini 不同版本在各項測試中的表現對比。

總體來看，新模型在編程、數學和多模態處理方面都有明顯提升，特別是在代碼生成方面的進步最爲顯著。

有趣的是，在長文本理解( MRCR )這一項上，2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些，這是少數幾個沒有進步的指標之一。

圖表展示了Gemini不同版本在各項測試中的表現對比。

Gemini 2.0 Flash 的正式版本將於 1 月份推出。但在此期間，谷歌正在發佈一個 API —— Multimodal Live API（多模態實時 API ），幫助開發者構建具有實時音頻和視頻流功能的應用程序。

網友們已經快樂地玩耍起來。

能幫你畫好下一步棋子的位置。來自X網友@robertriachi

使用 Multimodal Live API，開發者可以創建實時的多模態應用，這些應用能夠接收來自攝像頭或屏幕的音頻和視頻輸入。該 API 支持集成各種工具來完成任務，並且能夠處理自然對話模式。

比如，對話中的打斷。這和 OpenAI 的 Realtime API 很像。

在對話中自然地生成圖像，就像人類聊天時隨手畫個示意圖一樣自然

對圖像的後續編輯

一邊處理實時音頻輸入，一邊執行數據可視化等複雜任務

Project Astra：通用助手的曙光

今年 5 月份，谷歌發佈了通用 AI 助手研究原型 Project Astra ，這是一個多模態 AI 智能體項目，旨在爲用戶提供一個能夠理解和響應複雜、動態真實世界「 AI 助手」。

這次，谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進：

更流暢的對話：Project Astra 現在能夠用多種語言和混合語言進行交流，對各種口音和生僻詞彙的理解也更加精準。

新工具的運用：藉助Gemini 2.0，Project Astra 能夠使用谷歌搜索、谷歌鏡頭和谷歌地圖，使其成爲你日常生活中更加得力的助手。

更強大的記憶功能：增強了 Project Astra 的記憶能力，並確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶，並能記住你過去與它進行的更多對話，從而爲你提供更加個性化的服務。

更低的延遲：通過新的流媒體功能和原生音頻理解技術，智能體能夠以接近人類對話的延遲速度理解語言。

他們正致力於將這些功能引入谷歌產品，如 Gemini app 以及眼鏡等其他形態的產品。同時，他們也開始在原型眼鏡上測試 Project Astra。

在官方演示視頻中，外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。

收到一封包含公寓信息的電子郵件後，它可以告訴你公寓大門的密碼，並記住它。

只需要使用攝像頭拍攝衣服上的標籤和洗衣機上覆雜的按鈕，它就能告訴你這件衣服是否能機洗、漂白、烘乾，以及洗衣機該如何使用。

還可以把朋友讀過的書發給它，讓它以此分析出朋友的讀書品味並推薦相關書籍。

偶遇一輛巴士，問它是否可以去唐人街附近。Project Astra不僅可以搜索出該巴士的行駛路線，還能回答出沿線著名地標。

此外，小哥還戴上原型眼鏡來測試Project Astra，效果相當酷炫。

只需一個問題指令，它就能進行天氣預報、告訴你是否可以騎自行車進公園，搜索沿途是否有超市等。

Project Mariner：瀏覽器版「賈維斯」

Project Mariner 是一個基於 Gemini 2.0 構建的早期研究原型。它通過 Chrome 瀏覽器插件，能理解你屏幕上的所有內容 —— 不管是文字、代碼、圖片還是表單。

它的厲害之處在於，在 WebVoyager 基準測試中，Project Mariner 作爲一個獨立智能體設置，完成網頁任務的準確率達到了 83.5% ，這在目前來說是相當不錯的成績。

雖然現在可能還有點慢，準確度也不是百分之百，但這項技術正在快速進步。

爲了確保安全，谷歌做了很多防護措施。

比如，它只能在你當前打開的網頁標籤裡操作，要做一些重要的事情（比如網購）時，還得先問問你同意不同意。這就像有個助手幫你辦事，但重要決定還是由你來做。

Jules：有經驗的編程助手

Jules 是一個懂編程的智能助理，直接集成在 GitHub 工作流程中。假設你有一個程序問題需要解決，它能理解問題，制定解決方案，然後在你的指導和監督下把代碼寫出來。

就像是你多了一個有經驗的編程搭檔，能幫你分析問題、規劃方案、寫代碼，但最終的決定權還是在你手中。你可以隨時檢查它的工作，確保一切都符合你的要求。

遊戲及其他領域的智能體

谷歌 DeepMind 一直喜歡用遊戲來鍛鍊 AI 的能力，就像前幾天推出的 Genie 2 ，只要給它一張圖片，它就能創造出可以玩的 3D 世界。

現在，他們又在 Gemini 2.0 的基礎上開發了遊戲智能體。

它特別有意思，能看懂你在玩什麼遊戲，理解遊戲畫面裡發生的事情，然後實時跟你聊天，給你建議該怎麼玩。就像有個資深玩家朋友在旁邊指點你。

他們還和 Supercell 這樣的大遊戲公司合作，在《部落衝突》這樣的策略遊戲和《卡通農場》這樣的模擬經營遊戲中測試 AI 。AI 需要理解不同類型遊戲的規則和挑戰，這可不是件容易的事。

更厲害的是，這個智能體還能用谷歌搜索，幫你找到網上的遊戲攻略和技巧。就像是一個既懂遊戲、又知道去哪找答案的玩伴。

除了在虛擬世界中探索智能體能力，谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用於機器人技術，幫助智能體在現實世界中提供幫助，不過目前仍處於早期階段。

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=

https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/

https://x.com/simonw/status/1866942603020910866

谷歌最強大模型Gemini 2.0被擡上來了，網友：好科幻

相關資訊