Gemini 2.0 發佈,關鍵基準測試性能約爲 1.5 Pro 兩倍

DoNews12月12日消息,谷歌正式發佈 Gemini 2.0,號稱是谷歌迄今爲止功能最強的 AI 模型,帶來了更強的性能、更多的多模態表現(如原生圖像和音頻輸出)和新的原生工具應用。

Gemini 2.0 在關鍵基準測試中相對於 Gemini 1.5 Pro 實現了大幅性能提升而且延遲更低,谷歌官方的表述是“關鍵基準測試中超越了 1.5 Pro,速度是其兩倍”。

據介紹,Gemini 2.0 還帶來了多種新功能。除了支持圖像、視頻和音頻等多模態輸入外,現在還支持多模態輸出,例如與文本混合的原生文生圖、可自定義的文本轉語音 (TTS) 多語言音頻內容。此外,它還支持原生調用工具,如 Google 搜索、代碼執行以及第三方用戶定義函數等等。

谷歌 Gemini 2.0 Flash 對原生用戶界面操作實現了多方面的改進,例如多模態推理、長上下文理解、複雜指令遵循和規劃、組合函數調用、原生工具使用等,並進一步優化了延遲問題。

谷歌表示:AI 智能體的實際應用是一個激動人心、充滿可能性的研究領域。我們正在通過一系列原型探索這個新領域,這些原型可以幫助人們完成任務並把事情做好,其中包括對 Project Astra 的更新,Project Astra 是我們探索通用人工智能(AGI)未來功能的研究原型;新的 Project Mariner 則將從你的瀏覽器開始探索人機交互的未來;以及 Jules,這是一個可以幫助開發人員的 AI 代碼智能體。

即日起,開發人員便可在 AI Studio 和 Vertex AI 中對 Gemini 2.0 Flash 實驗版本進行試用(文本轉語音和原生圖像生成僅供早期訪問合作伙伴使用,但所有開發者均可使用多模態輸入和文本輸出,預計將於 1 月廣泛開放),而且該版本也已經在網頁版中爲 Gemini Advanced 開放試用,移動版後續推出。

爲了幫助開發人員開發動態和交互式應用,谷歌還發布了新的多模態實時 API,它具有實時音頻、視頻輸入能力,而且能夠使用多個組合工具。