字節版Sora終於來了!一口氣兩款視頻模型,帶來的震撼不只一點點

機器之心報道

作者:楊文

字節憋了個大招。

9 月 24 日,字節跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣發佈了兩款視頻生成大模型,正式宣告進軍 AI 視頻生成。

這兩款模型,一個名爲 PixelDance(以下簡稱 P 模型),一個名爲 Seaweed(以下簡稱 S 模型),不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。

話不多說,先整幾個視頻讓大家感受下:

一位年輕女生微簇眉頭,生氣地戴上一副墨鏡,這時,男主角入畫,緊緊抱住了她。

這段 10 秒的鏡頭中,人物面部表情變化自然,沒有任何虛化崩壞。

再如,一隻金毛小狗在草地上追逐泡泡。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

以及一個 3D 風格的可愛小女孩正在跳舞。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

看來,字節這次是把攢了許久的絕活兒,一股腦全倒出來了。

目前,新款豆包視頻生成模型正在即夢 AI 內測版小範圍測試,未來將逐步開放給所有用戶。

我們也在第一時間拿到內測資格,接下來,就奉上新鮮出爐的一手實測。

解鎖多動作、多主體

目前,市面上大部分視頻生成模型,只能完成簡單指令或者單一動作。而這次,豆包視頻生成模型一頓升級,不僅可以遵循複雜 Prompt,還能捕捉多動作序列和主體互動。

例如,梵高站在自己的畫作前,捂嘴大笑起來,臉上的褶子都清晰可見;隨即又秒變嚴肅,手緩緩落下,捋捋自己的小鬍子。

整套動作行雲流水,表情自然逼真。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

再比如,我們輸入 Prompt:兩名宇航員行走在夜晚繁華的街道上。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

兩名身穿宇航服的航天員,一前一後漫步在繁華街道上,身後人來人往,兩側的建築亮起了絢麗的燈光和店招。

衆所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者驚現四條腿。

而在豆包視頻模型中,二人走路姿勢正常,幾乎與真人無異,沒有模糊、扭曲,也沒有出現各種詭異畫面。

我們還輸入了一段形容詞賊多的 Prompt:一隻蝸牛在雨後的森林地面上緩緩爬行,它身後留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動着,它的殼的每一段都有精細的紋理。一個攝像機跟蹤着蝸牛的緩慢旅程。鏡頭非常接近,以至於蝸牛殼和身體上的水滴清晰可見,地面的細節也展現得非常清楚。

豆包模型生成的視頻中,蝸牛柔軟的軀體緩慢向後蠕動,觸角也隨之搖晃。硬硬的殼上有着精細的紋理,上面還沾着細小的水珠。

由於是特寫鏡頭,森林的背景自然虛化,而雨後地面的水窪則清晰可見。

Prompt:許多水母在水下游動,它們的身體透明,在深海中發着光。

畫面中出現了大大小小的透明水母,它們輕輕張開傘蓋,再緊緊收縮,觸手也在水中自由擺動。

Prompt:寫實,一個小女孩吹生日蠟燭,然後笑了。

鏡頭中,一個頭戴壽星帽的小女孩,張着嘴巴吹蠟燭,臉上露出微笑。同時,身後的親友團,或鼓掌、或拍照。該視頻中的人物不僅多元,動幅也很大。

動作靈活,運鏡酷炫

這次豆包視頻模型還有一大特點 —— 鏡頭多樣。

變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言,它都能靈活控制視角,而且視頻細節更豐滿,表情更豐富。

Prompt:一個推進鏡頭,沿着樹木成行的郊區住宅街道拍攝,白天,天空晴朗湛藍,色彩飽和,對比度高。

隨着鏡頭緩慢推進,乾淨的街道、樹木掩映的成排小別墅映入眼簾,畫面中還展示了優秀的光影效果。

Prompt: 北極光在北極天空中舞動,星星閃爍,白雪覆蓋的景觀的延時攝影。

天空舞動的極光,在雪地上映射出相應的顏色。豆包模型生成的這段延時攝影,簡直和紀錄片拍攝的如出一轍。

我們還試了下圖生視頻,上傳圖片後,輸入 Prompt:金魚遊動,水中冒着氣泡。

別看這個 Prompt 簡單, 豆包模型的「腦回路」卻複雜得很。不僅完美遵循文字指令,還學會了搖鏡頭。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

畫面一開始,水缸中的金魚開始遊動,並伴隨着大量氣泡。隨後,鏡頭一拉,現出女孩全身,她在水中緩緩轉過身,髮絲和寬鬆的衣襬在水中的漂浮感,以及頭頂露出水面的狀態,豆包模型均捕捉到位。

此外,豆包視頻模型還採用全新設計的擴散模型訓練方法,成功攻克了多鏡頭切換時難以保持一致性的困擾,可 10 秒講述一個起承轉合的故事。

比如,用它生成一段睡美人的故事。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

睡美人躺在牀上陷入沉睡,窗外的小鳥嘰嘰喳喳也吵不醒她,這時一位王子俯下身吻了睡美人,試圖喚醒她。

在這個 prompt 中,涉及多個鏡頭的切換,但主體、風格、氛圍和邏輯仍能保持一致性。

審美高級,風格多變

豆包新模型採用深度優化的 Transformer 結構,大幅提升了視頻生成的泛化能力,黑白、3D 動畫、2D 動畫、國畫、厚塗等多種風格,它通通支持。

比如,一隻戴着墨鏡頗具喜感的北極熊,蹬着四隻爪子在海里暢遊,水面上泛起微波,甚至還折射出了北極熊的影子。

(Prompt: 戴着墨鏡的北極熊在海里游泳。)

再來個動畫風格的。

身穿灰色時尚衛衣的貓咪,邁着「六親不認」的步伐,走在星光閃耀的 T 臺上。

其中,貓咪眨巴着眼睛,毛髮和衣服褶皺處理得也相當逼真,胸前的兩根衣帶也能隨着步伐而擺動。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

(Prompt:一隻擬人小貓正在 T 臺上走秀。)

呆萌二哈一身潮範兒,頭戴棒球帽,手端咖啡杯,仰起頭,張開嘴,就將其一飲而盡,隨後,P 模型發揮想象力,讓二哈順手將咖啡杯放置在兩側的椅子上,整套動作行雲流水,很是流暢自然。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA

(Prompt:二哈正在喝咖啡。)

陽光明媚,樹影斑駁,兩隻擬人化的企鵝,戴着 Fashion 的墨鏡,舒服地坐在沙灘椅上曬着日光浴,時不時還嘮上兩句磕兒。

(Prompt:動畫風格,兩隻擬人化的企鵝,戴着墨鏡,坐在沙灘椅上曬太陽。)

兩隻卡哇伊的毛絨小怪物,搖頭晃腦地跳着舞,畫風有種迪士尼的感覺。

豆包視頻模型對於細節的把握也是相當到位,比如小怪物晃動身體時,頭上的毛髮也會隨之起舞等。

(Prompt:兩隻毛茸茸的微型可愛怪物,正在跳舞,3D 渲染,Octane,柔和的照明,夢幻般的散景效果,電影感。)小貓晃動着爪子,和小熊貓玩親親,細節層次豐富,光影隨着主體運動而變化,大幅提升畫面視覺審美。

(Prompt:小貓和小熊貓開心地跳着,然後擁抱在一起。)

不僅如此,我們還可以拿它製作廣告大片。

例如,先通過即夢的文生圖功能,搞出一張香水的商品圖。

然後再通過圖生視頻功能,輸入 Prompt:藍色的煙霧緩緩升起。

效果如下:

大家覺得豆包視頻生成模型水平咋樣呢?來評論區聊聊吧。