Meta版Sora深夜橫空出世,小扎放出16秒高清大片!92頁論文曝光技術細節,Llama 3架構立功

新智元報道

編輯:桃子 Aeneas

【新智元導讀】Meta版Sora,就在剛剛驚豔來襲。Movie Gen可生成1080p、16秒、每秒16幀的高清長視頻,還能生成音效、編輯視頻、上傳圖像生成個性化視頻。甚至Meta還放出了92頁論文,模型架構、訓練細節一併公開,乾貨滿滿!

毫無預兆地,Meta版Sora——Movie Gen,就在剛剛搶先上線了!

Meta將其稱爲「迄今最先進的媒體基礎模型」。

全新上線的大殺器Movie Gen Video,是一個30B參數的Transformer模型,可以從單個文本提示,生成高質量的高清圖像和視頻,視頻爲1080P、16秒、每秒16幀。

一同推出的還有Movie Gen Audio。這是一個13B參數的Transformer模型。通過視頻輸入和文本提示,它就可以可控性生成和視頻同步的高保真音頻,時長最長45秒。

最驚人的是,這次Meta一併連論文都發布了。

論文中,詳細介紹了Movie Gen的架構、訓練方法和實驗結果。

論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_content=thread&utm_campaign=moviegen

從論文可以看出,Movie Gen Video沿用了Transformer的設計,尤其借鑑了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓視頻在精度和細節表現上,都優於擴散模型。

稍顯遺憾的是,這次Meta發的也是「期貨」,產品預計明年才正式向公衆開放。

不出意外的,圍觀羣衆給出亮眼點評:「Meta居然搶着OpenAI之前發佈了Sora,呵呵」。

就在昨天,Sora負責人Tim Brooks選擇離職,Meta這個時間點放出Movie Gen,也真是夠扎心的。

而HuggingFace工程師也直接貼出Meta開源主頁,在線催更模型開源。

也有人期待,Meta版Sora的這次發佈,或許或激出其他家的下一個王炸級產品。

一鍵視頻生成,趕超Sora

憑藉開源Movie Gen,Meta正式進軍AI視頻領域。

可以說,Movie Gen在編輯、個性化功能方面,站在了一個新階段。而且,最令人印象深刻的,便是把一張個人照,轉換成個性化視頻。

小紮在社交平臺上以身試法,將自己照片作爲輸入,Movie Gen爲其配上了健身的視頻。

文本生成視頻

現在,只要使用簡單的文本輸入,就能生成自定義的視頻了。

從官網放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「爲沉浸式AI內容」樹立了新標準。

更爲矚目的是,Movie Gen可以創建不同寬高比的高清長視頻。在業內,這屬於首次!

這個「雷聲大作,伴隨着管絃樂曲」的視頻,對於山石地貌和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。

Thunder cracks loudly, with an orchestral music track.

一個小女孩拿着風箏跑過海灘,彷彿電影中的場景。

戴着粉色太陽鏡躺在甜甜圈游泳圈上的樹懶,視頻中光影和水波都很自然。

在冒着熱氣的溫泉中玩着小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛髮還是水中怪石,都看不出破綻。

在海邊耍着火圈的男人,視頻完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經達到了大片級畫質。

各種超現實的場景,Movie Gen都能完美生成,比如這隻毛茸茸的衝浪考拉。

文本編輯視頻

而只要使用文本輸入,就可以編輯現有視頻。

Movie Gen可以支持非常精確的視頻編輯,無論是樣式、過渡,還是精細編輯。

通過文字輸入,就能讓小女孩向空中放飛的燈籠,變成一個氣泡。

在沙地上跑步的男子,手中可以加上藍色絨球,周圍環境可以換成仙人掌沙漠,甚至可以讓男子換上一身恐龍套裝。

在觀衆席上觀影的一對男女,可以讓他們戴上3D眼鏡、背景換成遊樂園,甚至加上下雨的特效。

南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘牀,甚至整幅畫面都能變成鉛筆素描畫。

個性化視頻

並且,Movie Gen還有一個Sora沒有的亮點——個性化視頻!

只要上傳我們想要的圖像,它就可以由此生成個性化視頻,保留人物的身份和動作。

輸入這個女孩的照片,給出prompt,就能讓她在南瓜地上戴着圍巾喝咖啡。

讓這名男子化身科學家,穿上實驗服開始做實驗。

一張照片,就能生成自己和愛犬在露臺上的自拍視頻。

甚至讓自己在西部世界小鎮中化身騎馬的女牛仔,身後就是落基山脈。一秒走進大片不是夢!

音效和配樂

Movie Gen還可以將視頻、文本作爲輸入,併爲視頻生成音頻。

它可讓你創建和擴展視頻音效、背景音樂或整個配樂。

比如,下面企鵝戲水的畫面中,配上了AI生成的優美的管絃樂曲。

文本輸入:A beautiful orchestral piece that evokes a sense of wonder

AI生成的煙花音效,也是如此地逼真。

文本輸入:Whistling sounds, followed by a sharp explosion and loud crackling.

傾瀉而下的瀑布和和雨水,站在高處遙望遠方頓感壯觀。

文本輸入:Rain pours against the cliff and the person, with music playing in the background.

一條蛇在草地裡緩慢前進,給人一種危機四伏的趕腳。

文本輸入:Rustling leaves and snapping twigs, with an orchestral music track.

AI生成的背景音,很有山地摩托摩托競賽那味兒了。

文本輸入:ATV engine roars and accelerates, with guitar music.

還有溜滑板,配着動作,給出不同節奏的音效。

文本輸入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.

92頁技術報告,同用Llama 3架構

Movie Gen發佈同時,Meta還祭出了92頁的技術報告。 值得一提的是,這次團隊也被命名爲「Movie Gen team」。

Pytorch之父Soumith Chintala表示,其中很多細節將會推動AI視頻領域的發展。

接下來,一起看看Movie Gen得以實現的技術要點吧。

研究人員表示,Movie Gen主要是基於兩種基礎模型打造的,一個是Movie Gen Video,另一個是Movie Gen Audio。

Movie Gen Video

Movie Gen Video參數有300億,基礎架構細節如下圖所示。

它能夠聯合文本到圖像和文本到視頻的生成。

Movie Gen Video可以遵循文本提示,生成長達16秒、16幀每秒高清視頻。

它也是通過預訓練微調完成,在骨幹網絡架構上,它繼續沿用了Transformer的設計,尤其是借鑑的Llama3的設計。

而且,該模型有強大的適應性,可生成不同縱橫比、分辨率和時長的高質量圖像和視頻。

預訓練階段,在大約1億個視頻和10億張圖像上進行了聯合預訓練。

它是通過「看」視頻,來學習視覺世界。

實驗結果發現,Movie Gen Video模型能夠理解物理世界——

可以推理物體運動、主-客體交互、幾何關係、相機運動、物理規律,以及各種概念的合理運動。

在微調階段,研究人員精選了一部分視頻,對模型在美學、運動質量方面完成了微調。

爲了提高訓練、推理效率,研究人員在時空壓縮的潛在空間(Latent Space)中進行生成。

爲此,他們訓練了一個單一的時間自編碼器(TAE),用於將RGB圖像和視頻映射到潛在空間。

然後,再使用預訓練文本編碼器,來編碼用戶提供的文本提示,並獲得文本提示嵌入,這些嵌入用作模型的條件。

流匹配,擊敗擴散損失

值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓練生成模型,這使得視頻生成效果在精度、細節表現上,都優於擴散模型。

「流匹配」是一種新興的生成模型訓練方法,其核心思想是——直接學習樣本從初始噪聲狀態向目標數據分佈轉化的過程。

而且,模型只需通過估計如何在每個時間步中演化樣本,即可生成高質量的結果。

與擴散模型相比,「流匹配」訓練效率更高、計算成本更低、並且在時間維度保持連續性和一致性。

有網友對此總結道,在質量和文本對齊上,人類評估都強烈傾向於流匹配,而不是擴散。

此外,Movie Gen Video在技術上也引入了很多創新:

他們引入了創新的位置編碼方法——「因子化可學習編碼」,能夠獨立對高度、寬度、時間三個維度進行編碼,然後將其相加。

基於這種靈活設計,讓模型不僅能夠適應不同寬高比,還能處理任意長度的視頻。

另外,爲了解決模型推理效率問題,研究人員採用了一種「線性-二次時間步長」的策略。

如下圖所示,僅需50步,就能實現接近1000步採樣效果,大幅提升了推理速度。

與此同時,Movie Gen Video還採用了一種巧妙的「時間平鋪」方法,進一步提升生成效率。

具體來說,這種方法將輸入的視頻,在時間維度上切分成多個小片段,然後對每個片對獨立進行編碼和解碼,最後再將所有處理好的片段,重新拼接成完成視頻。

這種分而治之策略,不僅顯著降低內存需求,還提高了整體推理效率。

爲了確保最終生成的視頻質量,團隊在解碼階段採用了精心設計的重疊和混合技術。

最後微調得到的Movie Gen Video模型,與當前最先進的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。

它僅小幅超越了Sora、Kling 1.5。

如下是,生成圖像質量的對比。總的來說,Movie Gen Video在畫面一致性、質量等方面,均取得了最優表現。

提示中袋鼠走路細節,在Sora中到最後並沒有展現。

Movie Gen Audio

音頻模型參數共有130億,能夠生成48kHz的高質量電影音效和音樂。

而且,這些AI音頻與輸入視頻,實現同步。

值得一提的是,Movie Gen Audio可以原生處理不同長度音頻生成。

這一過程是通過TAE完成解碼與編碼。

而且,通過音頻延伸技術,能夠爲長達幾分鐘視頻,製作出連貫長音頻。

研究人員在大約100萬小時音頻上,對模型進行了預訓練。

得到的預訓練模型,不僅學會了物理關聯,還學會了視覺世界和音頻世界之間的心理關聯。

另外,模型還可以生成,與視覺場景匹配的非畫面「內環境」聲音,即便是聲源沒有出現在畫面中。

最後,模型還可以生成支持情緒,並與視覺場景動作相匹配的非畫面內音樂。

而且,它還能與專業地混合音效和背景音樂。

通過評估,與當前先進的音頻模型ElevenLabs等相比,Movie Gen Audio結果如下所示。

參考資料:

https://x.com/AIatMeta/status/1842188252541043075

https://ai.meta.com/research/movie-gen/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=moviegen