谷歌最強大模型Gemini 2.0被擡上來了,網友:好科幻
機器之心報道
作者:Sia、楊文
OpenAI 接連幾天的「轟炸」,已經讓人審美疲勞。
作爲應對,週三,谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。
網友體驗先走一波。
就模型所看到的內容實時對話, 感覺就像科幻小說一樣。
通過共享屏幕,實時討論論文,這個研究助理很強啊。
讓AI在對話過程中自然地生成圖像。
現在,一個提示詞就能生成包含步驟說明和配圖,食譜blog,一步到位。
據谷歌介紹,除了能生成文字外,還能直接生成圖片和語音。
不僅如此,2.0 Flash 還能調用第三方應用和服務,比如可以使用谷歌搜索、運行代碼等功能。
從今天開始,開發者可以通過以下幾種方式嘗試使用 2.0 Flash 的測試版:
不過,生成圖片和語音的功能暫時只對「早期合作伙伴」開放,要等到明年 1 月纔會向所有人開放。谷歌表示,在接下來幾個月裡,會把 2.0 Flash 的各種版本整合到多個產品中,包括:
主力模型 Gemini 2.0
今天發佈的 Gemini 2.0 Flash 的實驗版本,是 Gemini 2.0 系列的第一個模型,也是當前主力模型。
它反應速度快(低延遲),性能強大,代表了谷歌 Gemini 最頂尖的技術水平。
除了速度是「前任」的 2 倍,支持圖像、視頻和音頻等多模態輸入外,2.0 Flash 現在還支持多模態輸出,比如原生生成的圖像與文本混合,以及可控制的多語言文本轉語音( TTS )音頻。
它還能夠原生調用工具,如谷歌搜索、代碼執行以及第三方用戶自定義函數。
下面這張圖展示了 Gemini 不同版本在各項測試中的表現對比。
總體來看,新模型在編程、數學和多模態處理方面都有明顯提升,特別是在代碼生成方面的進步最爲顯著。
有趣的是,在長文本理解( MRCR )這一項上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些,這是少數幾個沒有進步的指標之一。
圖表展示了Gemini不同版本在各項測試中的表現對比。
Gemini 2.0 Flash 的正式版本將於 1 月份推出。但在此期間,谷歌正在發佈一個 API —— Multimodal Live API(多模態實時 API ),幫助開發者構建具有實時音頻和視頻流功能的應用程序。
網友們已經快樂地玩耍起來。
能幫你畫好下一步棋子的位置。來自X網友@robertriachi
使用 Multimodal Live API,開發者可以創建實時的多模態應用,這些應用能夠接收來自攝像頭或屏幕的音頻和視頻輸入。該 API 支持集成各種工具來完成任務,並且能夠處理自然對話模式。
比如,對話中的打斷。這和 OpenAI 的 Realtime API 很像。
在對話中自然地生成圖像,就像人類聊天時隨手畫個示意圖一樣自然
對圖像的後續編輯
一邊處理實時音頻輸入,一邊執行數據可視化等複雜任務
Project Astra:通用助手的曙光
今年 5 月份,谷歌發佈了通用 AI 助手研究原型 Project Astra ,這是一個多模態 AI 智能體項目,旨在爲用戶提供一個能夠理解和響應複雜、動態真實世界「 AI 助手」。
這次,谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進:
更流暢的對話:Project Astra 現在能夠用多種語言和混合語言進行交流,對各種口音和生僻詞彙的理解也更加精準。
新工具的運用:藉助Gemini 2.0,Project Astra 能夠使用谷歌搜索、谷歌鏡頭和谷歌地圖,使其成爲你日常生活中更加得力的助手。
更強大的記憶功能:增強了 Project Astra 的記憶能力,並確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶,並能記住你過去與它進行的更多對話,從而爲你提供更加個性化的服務。
更低的延遲:通過新的流媒體功能和原生音頻理解技術,智能體能夠以接近人類對話的延遲速度理解語言。
他們正致力於將這些功能引入谷歌產品,如 Gemini app 以及眼鏡等其他形態的產品。同時,他們也開始在原型眼鏡上測試 Project Astra。
在官方演示視頻中,外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。
收到一封包含公寓信息的電子郵件後,它可以告訴你公寓大門的密碼,並記住它。
只需要使用攝像頭拍攝衣服上的標籤和洗衣機上覆雜的按鈕,它就能告訴你這件衣服是否能機洗、漂白、烘乾,以及洗衣機該如何使用。
還可以把朋友讀過的書發給它,讓它以此分析出朋友的讀書品味並推薦相關書籍。
偶遇一輛巴士,問它是否可以去唐人街附近。Project Astra不僅可以搜索出該巴士的行駛路線,還能回答出沿線著名地標。
此外,小哥還戴上原型眼鏡來測試Project Astra,效果相當酷炫。
只需一個問題指令,它就能進行天氣預報、告訴你是否可以騎自行車進公園,搜索沿途是否有超市等。
Project Mariner:瀏覽器版「賈維斯」
Project Mariner 是一個基於 Gemini 2.0 構建的早期研究原型。它通過 Chrome 瀏覽器插件,能理解你屏幕上的所有內容 —— 不管是文字、代碼、圖片還是表單。
它的厲害之處在於,在 WebVoyager 基準測試中,Project Mariner 作爲一個獨立智能體設置,完成網頁任務的準確率達到了 83.5% ,這在目前來說是相當不錯的成績。
雖然現在可能還有點慢,準確度也不是百分之百,但這項技術正在快速進步。
爲了確保安全,谷歌做了很多防護措施。
比如,它只能在你當前打開的網頁標籤裡操作,要做一些重要的事情(比如網購)時,還得先問問你同意不同意。這就像有個助手幫你辦事,但重要決定還是由你來做。
Jules:有經驗的編程助手
Jules 是一個懂編程的智能助理,直接集成在 GitHub 工作流程中。假設你有一個程序問題需要解決,它能理解問題,制定解決方案,然後在你的指導和監督下把代碼寫出來。
就像是你多了一個有經驗的編程搭檔,能幫你分析問題、規劃方案、寫代碼,但最終的決定權還是在你手中。你可以隨時檢查它的工作,確保一切都符合你的要求。
遊戲及其他領域的智能體
谷歌 DeepMind 一直喜歡用遊戲來鍛鍊 AI 的能力,就像前幾天推出的 Genie 2 ,只要給它一張圖片,它就能創造出可以玩的 3D 世界。
現在,他們又在 Gemini 2.0 的基礎上開發了遊戲智能體。
它特別有意思,能看懂你在玩什麼遊戲,理解遊戲畫面裡發生的事情,然後實時跟你聊天,給你建議該怎麼玩。就像有個資深玩家朋友在旁邊指點你。
他們還和 Supercell 這樣的大遊戲公司合作,在《部落衝突》這樣的策略遊戲和《卡通農場》這樣的模擬經營遊戲中測試 AI 。AI 需要理解不同類型遊戲的規則和挑戰,這可不是件容易的事。
更厲害的是,這個智能體還能用谷歌搜索,幫你找到網上的遊戲攻略和技巧。就像是一個既懂遊戲、又知道去哪找答案的玩伴。
除了在虛擬世界中探索智能體能力,谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用於機器人技術,幫助智能體在現實世界中提供幫助,不過目前仍處於早期階段。
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866