視頻大模型加速“跑馬圈地” 爭搶內容創作高地

本報記者 曲忠芳 北京報道

自OpenAI的Sora在今年2月中旬引爆視頻大模型至今,國內外已有不少於10家公司發佈或更新了視頻生成模型。大半年時間裡,視頻生成模型究竟發展到什麼程度了?這成爲業界關注的熱點話題。

近日,中央廣播電視總檯導演、AIGC(AI生成內容)藝術家石宇翔(森海熒光)向《中國經營報》等媒體記者展示了自制的一條名爲《夏日的禮物》的動畫短片,同時他分享了創作流程,由國產自研視頻模型——生數科技的Vidu平臺製作生成,部分文案則由Kimi、智譜清言等國產大語言模型輔助,配樂由Suno生成。另一位是來自首屆威尼斯AI生成短片國際電影節最佳影片得主、Ainimate Lab的負責人陳劉芳,在展示其團隊的AIGC短片《一路向南》時介紹,創作團隊僅由3人——導演、故事版藝術家、AIGC技術專家各一人組成,製作週期約1周。“同樣的短片,如果按照傳統流程需要20人,涉及導演、美術、建模、燈光、渲染等不同工種,週期需要1個月左右。”她說道。

本報記者瞭解到,影視內容生產及IP開發、廣告營銷等行業成爲視頻生成技術率先落地使用的領域。無論是海外的Sora、Runway等,還是國內的Vidu、快手“可靈”、智譜AI“清影”等視頻大模型,都在加速“跑馬圈地”,佈局商業化場景。

當前視頻模型生成內容的痛點

今年4月,生數科技聯合清華大學率先發布了全自研視頻大模型Vidu,該模型在7月底正式上線後迅速在TikTok、X等海外社交體“走紅”,多家第三方監測數據顯示,Vidu上線首月即位列全球網頁類產品用戶訪問量增速第一位。9月中旬,Vidu迭代上線了“主體參照”功能,面向全球用戶免費開放。

生數科技聯合創始人兼CEO唐家渝在接受記者採訪時指出:“視頻大模型領域的競爭日益激烈,儘管衆多模型層出不窮,但普遍存在一個核心問題,即可控性不足,或者叫一致性不足。”

唐家渝解釋道,在實際視頻創作中,視頻內容往往是圍繞某個特定對象展開的,可以是角色或特定物體,這些對象在視頻中的形象需要保持連續一致。然而現有的視頻模型往往難以實現這一點,常常是主體在生成過程中容易崩壞。尤其在涉及複雜動作和交互的情況下,保持主體的一致性更是一項挑戰。此外,視頻模型的輸出結果具有較大的隨機性,對於鏡頭運用、光影效果等細節的控制也不夠精細。因此,現階段的視頻模型雖然在畫面表現力、物理規律、想象力等方面實現了一定程度的突破,但可控性的不足限制了它們在創作連貫、完整視頻內容方面的應用。大多數的AI視頻內容還是基於獨立視頻素材的拼接,情節的連貫性不足。

對於視頻生成的這一“痛點”,記者瞭解到,業界曾嘗試採用“先AI生圖、再圖生視頻的方法”,通過AI繪圖工具生成分鏡頭畫面,先在圖片層面保持主體一致,再將畫面轉化爲視頻片段進行剪輯合成,但效果並不盡如人意。Vidu給出的解法則是“主體參照”,即允許用戶上傳任意主體的一張圖片,Vidu能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出與主體一致的視頻。需要說明的是,這裡的“主體”不侷限於單一對象,而是面向任意主體,包括人物、動物、商品或者動漫角色、虛構主體等,Vidu能夠保持主體在不同環境、不同鏡頭下的形象連貫一致,即保持一致性和可控性。在唐家渝及Vidu團隊看來,這是“視頻生成領域的一項重要創新,通過上傳主體圖+輸入場景描述詞的方式直接生成視頻素材,能夠大幅減少工作量,降低了創作者的使用門檻”。

多家券商研報均指出,今年國內視頻大模型經歷快速迭代後,在技術和產品方面都實現了較大進展,在生成時長、分辨率、幀率等方面逐步縮小與Sora之間的差距。據東吳證券研報測算,假如以AI滲透率爲15%計算,中國AI視頻生成的潛在行業空間達3178億元。在傳統模式下,以2018年爲例,電視劇、電視動畫片平均投資成本爲7519萬元/部、686萬元/部;電影的製作成本(不含宣發)每部爲2300萬元—1.7億元。到2024年5月,微短劇國內和國外的製作成本分別約爲50萬元人民幣、30萬美元。在全AI模式下,電影、長劇、動畫片、短劇的製作成本分別爲2.5萬元、9.3萬元、3.7萬元和0.4萬元人民幣,相較於傳統模式成本降低幅度超過95%。這表明AI視頻生成大模型從“玩具”升級爲“生產力工具”。

“兩條腿”走路:專業生產+免費開放

視頻大模型如何從嚐鮮式的“玩具”“工具”轉變爲人人皆能用的“生產力工具”呢?本報記者注意到,視頻大模型公司普遍採取“兩條腿”走路:一方面繼續提升視頻大模型的性能,不斷降低用戶使用門檻,提升用戶活躍度;另一方面則聯合影視內容創作機構、院校創作者、IP品牌等,滲透至專業視頻製作行業的各個環節,聯合探索視頻大模型的落地場景。

作爲視頻大模型的“引爆者”Sora,儘管一直並未向公衆全面開放,但它正在與全球範圍內的視覺藝術家、設計師、創意總監、電影製作人等進行合作。例如多媒體制作公司shy kids利用Sora製作了關於氣球人的短片;藝術家Paul Trillo則通過Sora進行電影製作,探索Sora在藝術創作中的應用價值;快手旗下的可靈AI聯合9位知名導演製作出品9部AIGC短片。

智譜AI旗下在今年7月推出了視頻生成模型CogVideoX及“清影”產品,智譜CEO張鵬透露,包括視頻網站嗶哩嗶哩(B站)、影視公司華策影視等作爲合作伙伴參與到清影產品的研發、模型共建中。生數科技也推出合作伙伴計劃,邀請廣告、影視、動漫、遊戲等行業的機構加入,共同探索新的視頻創作模式,在內容共創、技術支持、市場拓展等方面展開合作。首批合作伙伴包括開心麻花、貓眼娛樂、巨人網絡、美克家居、融創文化、河南省非物質文化遺產保護和智慧化中心、李可柒畫院等。

唐家渝介紹,Vidu目前的商業模式共兩種:一是訂閱模式,每月會給用戶80分的免費積分,如有更多需求或使用更高級能力就需要支付訂閱費用;二是API(應用程序編程接口)形式,即以模型能力輸出給客戶使用,融入他們既有的工作流程中。在他看來,儘管目前AI視頻的主體使用者集中於專業用戶,但AI視頻已經來到“普及”的節點。視頻大模型在努力降低創作者的門檻,對於專業創作者來說則在加速創作過程、提升創作效率。

新壹科技副總裁毛木子在接受記者採訪時提到,視頻生成從專業創作者走向更廣泛普及化,還需要跨越三個重要的“關卡”。首先,生成質量與穩定性首當其衝。幾乎所有用戶都遇到了人物和動作的質量及穩定性不理想的問題,因此接下來,如何能夠將視頻中的細節(如人物表情、動作、背景等)進行精細化處理,使生成的視頻更加真實和自然,是所有視頻大模型都要首先解決的問題。其次,用戶都希望在短時間內獲得高質量的視頻,因此生成速度是一個重要的技術指標。特別是在某些應用場景中,如直播或互動式視頻生成,實時生成能力尤爲關鍵。雖然現在技術上已經能夠解決這些問題,但對於各家公司而言,不斷投入算力成本也是一個非常大的挑戰。最後,要想從專業走向普及,產品體驗至關重要。要把用戶的教育成本降下來,讓產品能夠根據文本提示生成高質量的視頻,同時支持複雜的文本輸入和多語言處理。

德邦證券《視頻大模型奇點時刻加速到來》研究報告稱,目前大部分廠商採取免費方式吸引用戶,同時利用訂閱模式開放更多功能這些方式來增強用戶黏性,未來市場競爭向搶佔用戶、提升黏性等方面演進。視頻大模型的逐步成熟奠定了AIGC應用普及的基礎,在垂直領域具有廣闊的應用場景和市場價值,向用戶開放正在初步驗證商用潛力。隨着用戶習慣的培育以及算力基礎設施的完善,視頻大模型或將在辦公、廣告、電影、遊戲等多領域具有可觀的前景。

(編輯:吳清 審覈:李正豪 校對:顏京寧)