進度趕超大廠,中國最接近Sora的視頻模型出自一家“清華系”公司 | New Things

文|周鑫雨

編輯|蘇建勳

“鏡頭圍繞一大堆老式電視旋轉,所有電視都顯示不同的節目——20世紀50年代的科幻電影、恐怖電影、新聞、靜態、1970年代的情景喜劇等,背景設置在紐約一家大型博物館畫廊。”

若這是對視頻剪輯師的一道命題作業,複雜的細節和疊加的圖層也定會讓不少人叫苦不迭。曾有專業剪輯師測試過,若是用公開素材剪出一段符合基本要求的5秒視頻,大概要花費1-2小時。

來源:網絡

而這句“地獄提示詞”,也被業界視作視頻生成模型的試金石。近期,在這一句提示詞下,誕生了兩段視頻:

1

2

前者,想必不少讀者並不陌生,出自OpenAI的現役視頻生成模型天花板,於2024年2月發佈的Sora之手。相對地,後者在滿足畫廊的環境、播放着各種老片的電視機等基本元素的要求上,還增加了機位的連續變動,讓視頻更加豐富。

這段敢在關公前耍大刀的視頻,來源於一個名叫“Vidu”(諧音We do)的文生視頻模型,並且,當大多國內廠商仍在爲突破4秒瓶頸時,Vidu已經將國產文生視頻模型的生成時長天花板,拉到了16秒。

這匹國產文生視頻模型界的“黑馬”,來自成立於2023年的“清華系”AI公司“生數科技”。在2024年4月27日舉辦的中關村論壇上,完成首秀的Vidu得到了在場不少人“很接近Sora”的感嘆。

在Sora發佈之前,隨着Runway、Pika等視頻生成新秀的崛起,國內也早就掀起視頻生成模型的競速,主要玩家不僅包括BTA和字節跳動,還有前京東副總裁梅濤成立的Hidream,以及前字節跳動AI Lab總監王長虎創辦的愛詩科技。

16秒的門檻有多難跨?可見的是,目前全球一次性視頻生成能夠達到該級別時長的“文生視頻”模型,只有OpenAI的Sora(60秒)、Runway的Gen-2(18秒),以及同爲國內初創公司的Hidream(15秒)。

製圖:36氪

即便是人才和訓練資源一騎絕塵的大廠,想要生成超過10秒的長視頻,或要輔以圖片、音頻等其他模態的輸入(如PixelDance和EMO),或需要先將文字提示詞生成爲圖片關鍵幀,再利用圖片生成連續視頻(如Hidream)。

這對剪輯師和創作者而言,生成的質量提高有限,反倒讓工具的使用門檻高了不少,得不償失。

而“國產Sora”Vidu的出現,給苦找素材、作息007的剪輯打工人們,些許解放雙手和大腦的希望。

來源:網絡

多維度對標Sora,但比Sora更懂中國風

被外界稱爲中國的“Sora”,生數科技也毫不避諱Vidu對Sora的對標。論壇上,生數科技發佈的幾個視頻Demo,用的是Sora同款提示詞,對標的也是Sora最爲出衆的幾個能力:

模擬真實物理世界、想象力、多鏡頭語言、時空一致性。

首先,爲了展示模擬真實物理世界的程度,在Vidu中輸入的是Sora同款提示詞:

根據這段充盈着複雜物理世界細節的提示詞,前者爲Sora生成的一段視頻,後者則是Vidu交的作業。在畫質、光影細節等層面,兩者幾乎難分伯仲。

△ Sora生成的視頻

△ Vidu生成的視頻(由於上傳大小限制,處理成GIF時對畫質有所壓縮)

而在虛構場景和超現實畫面的能力上,Vidu根據提示詞“畫室裡的一艘船駛向鏡頭”,也生成了一段富有視覺衝擊力的視頻。

△ Vidu生成的視頻

若要視頻生成模型能在各領域商用,畫質和細節是基本功,生成鏡頭是否足夠複雜、動態也至關重要。下文的提示詞,包含了長鏡頭、中遠近景、特寫以及追焦等效果,Vidu生成的視頻也能做到。

△ Vidu生成的視頻

在鏡頭的連貫性和時空一致性上,Vidu也能準確理解3D物體在現實中的時空維度。比如這一生成案例:

△ Vidu生成的視頻

不過,也有不少用戶發現,Vidu展示的Demo視頻中,出現的大多是西方面孔。這也讓Vidu身陷“是否套殼國外開源視頻模型”的爭議。對此,生數科技告訴36氪,這是由於Vidu訓練數據中的面孔數據中,西方面孔佔據大多數所致。

生數科技聯合創始人兼CEO唐家渝曾對36氪表示,生數科技多模態模型的訓練數據主要來源於兩塊:互聯網上大量公開的數據,通過向版權方購買的私有數據,兩者共同完善訓練數據的豐富性。而從全球來看,互聯網上的公開視頻數據,依然以西方主題爲主。

同樣是訓練數據的差異性使然,在對熊貓、龍等中國元素的理解上,Vidu相較於Sora等海外模型更勝一籌。

△ Vidu生成的視頻(上圖爲龍、熊貓兩段Demo片段拼接而成)

不到2個月,4秒到16秒

將生成視頻的時長從4秒擡到到16秒,美國AI獨角獸Runway花了4個月,Vidu背後的生數科技只用了2個月。

在2024年3月中旬的交流中,生數科技聯合創始人兼CEO唐家渝對36氪表示,團隊自研的多模態通用大模型,尚且初步具備了短視頻的生成能力。發佈的視頻Demo,時長也基本在2-4秒。

但相對地,Runway是融資總額約2.4億美元的明星獨角獸,而生數科技的融資總額纔不過數億元。

要與資源與實力兼具的強者扳手腕,生數科技的手上也必須有幾把刷子。

作爲“清華系”的企業,多模態方面的技術儲備自然是生數的門面。雖然採用與Sora相似的Diffusion Transformer融合架構,但Vidu的底層技術,則是生數團隊原創研究的成果,甚至比Sora的底層架構發佈得更早——

2022年9月,生數科技就發佈了9.5億參數規模的U-ViT網絡架構,這也是全球首個Diffusion Transformer架構。1個月後,Stable Diffusion才發佈了初代DiT架構U-Net,後被應用於Sora的研發。

另一把刷子,往往是一家企業的商業化能力。但視頻生成模型至今難以大規模落地的原因就在於:太貴了!

投資機構Factorial Funds曾對Sora的成本做了一番推算:Sora每生成一段視頻的計算成本約爲708×10^15 FLOPS。換算下來,生成1分鐘的視頻大概需要8塊英偉達A800計算3小時,成本約60-90美元,視頻每秒產生的成本就在1美元左右。

唐家渝也曾對36氪坦言,長視頻生成需要高昂的入場費,A100、A800的卡可能要上萬張。

這意味着,視頻模型的技術迭代需要燒錢,落地應用後,用戶的使用也會帶來鉅額的計算成本。視頻模型廠商需要快速找到可以覆蓋計算和推理成本的落地場景和商業模式。

來源:網絡

生數科技的想法是:先在付費能力強和成本相對可控的B端場景落地。“廣告、短視頻目前是比較直接的(落地場景),中期來講我們比較看好遊戲和電影娛樂形式的融合。”生數科技方對36氪迴應。

當然,從長遠來看,視頻模型的較量,絕對不只是各家公司之間的技術競速。AI界“教父”OpenAI,已經在視頻生成模型中,摸到了通往AGI的方向。

近日,Sora團隊的三位負責人在節目“No Priors”中表示,Sora通過在神經網絡中對複雜環境進行模擬,可以逐漸彌合當前AI和AGI(通用人工智能)之間的差距。隨着訓練數據量和參數量的不斷擴大,Sora將有可能成爲真正的世界模型。

在當下,視頻生成模型也有更爲現實的妙用:爲多模態模型生成穩定、高質的訓練數據。

比如近期,國內另一家學院派多模態模型公司——中國人民大學高瓴人工智能學院教授盧志武創立的“智子引擎”,在中關村論壇上推出了MoE(混合專家架構)多模態大模型Awaker 1.0。

特別的是,用於Awaker 1.0訓練的視覺數據,主要來源於智子引擎在2023年5月推出的自研視頻生成底座VDT,一個同樣採取Transformer Diffusion架構的模型。盧志武在論壇上表示,未來更加通用的 VDT 將成爲解決多模態大模型數據來源問題的得力工具。使用視頻生成的方式,VDT 將能夠對現實世界進行模擬,進一步提高視覺數據生產的效率。

△ VDT生成的寫真視頻(上圖爲多段Demo片段拼接而成)

當然,在16秒時長的賽道,生數科技已經用Sora同款架構,闖出了名堂。但接下來,無論是商業化的驗證、商業模式的設計,以及跨越16秒到分鐘級的時長門檻,對國內的“生數科技們”而言,都是需要相互競速的考驗。

歡迎交流!