浙商證券:OpenAI&谷歌相繼發力 有望引領多模態大模型浪潮

智通財經APP獲悉,OpenAI 發佈文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,並保持視覺質量。浙商證券發佈研報稱,OpenAI 發佈 Sora 模型,有望開啓多模態大模型的新一輪浪潮。

以下爲研報摘要:

近日,OpenAI 發佈文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,並保持視覺質量;而谷歌發佈 Gemini 1.5 Pro 大模型,可支持超長文本上下文推理,並且多模態能力表現優異,可精確捕捉電影視頻細節。我們認爲在 OpenAI、谷歌的引領下,有望開啓多模態大模型的新一輪浪潮。

OpenAI 發佈 Sora 文生視頻模型,可生成最長一分鐘視頻

北京時間 2024 年 2 月 16 日,OpenAI 發佈文生視頻模型 Sora,可遵循用戶的指示生成長達一分鐘的視頻,並保持視覺質量。Sora 能夠生成包含多個角色、特定類型的動作以及主體和背景的準確細節的複雜場景。在 OpenAI 官網上可看到多個由 Sora 模型生成的視頻案例,如時尚女子在東京街頭、猛獁象在雪原上行走、在藝術館中邊走邊欣賞藝術品等等;

Sora 模型基於 DALL-E 和 GPT 模型研究成果,可實現視頻加工、拼接等功能

除了基於文本生成視頻的能力,Sora 模型也可以接受其他輸入,例如預先存在的圖像或視頻。Sora 能夠執行多種圖像和視頻編輯任務,如創建循環視頻、爲靜態圖像添加動畫、將視頻向前或向後延伸、將兩段視頻進行拼接等。

OpenAI 官方技術文檔指出,研究人員探索了生成模型在視頻數據上的大規模訓練,並在時長、分辨率和寬高比可變的視頻和圖像上聯合訓練了文本條件下的擴散模型。與大語言模型使用文本 Token 不同的是,Sora 模型使用了視覺補丁(Visual Patches)方法,OpenAI 證明了這種視覺補丁的方法在視頻/圖像生成模型中非常有用。

谷歌發佈 Gemini 1.5 Pro 大模型,長文本及多模態推理能力出色

美國時間 2024 年 2 月 15 日,谷歌發佈基於 MoE 架構的 Gemini 1.5 Pro 大模型,是基於前期發佈的 Gemini 1.0 Pro 的更新版本。大模型在處理 530,000 token 文本時,能夠實現 100%的檢索完整性,在處理 1,000,000 token 的文本時也可達到 99.7% 的檢索完整性。在多模態能力方面,Gemini 1.5 Pro 能夠分別在約 11 小時的音頻資料和大約 3 小時的視頻內容中,100%成功檢索到各種隱藏的音頻片段或視覺元素。根據谷歌官網信息,Gemini 1.5 Pro 可實現對阿波羅 11 號的 402 頁飛行記錄、或是 44 分鐘的無聲電影內容的準確推理。

看好 2024 年多模態大模型以及大模型在 3D 建模、視頻領域迎來爆發

我們在 2023 年 11 月 15 日發佈的《大地回春,百花齊放——計算機行業 2024 年度策略》中提出,2024 年國內外廠商有望發佈更加複雜的多模態大模型,實現文本、語音、圖像以及音視頻等多模態數據的複雜處理和交互。我們認爲 OpenAI 發佈 Sora 模型,有望開啓多模態大模型的新一輪浪潮。