☰

視頻大模型加速“跑馬圈地” 爭搶內容創作高地

本報記者曲忠芳北京報道

自OpenAI的Sora在今年2月中旬引爆視頻大模型至今，國內外已有不少於10家公司發佈或更新了視頻生成模型。大半年時間裡，視頻生成模型究竟發展到什麼程度了？這成爲業界關注的熱點話題。

近日，中央廣播電視總檯導演、AIGC（AI生成內容）藝術家石宇翔（森海熒光）向《中國經營報》等媒體記者展示了自制的一條名爲《夏日的禮物》的動畫短片，同時他分享了創作流程，由國產自研視頻模型——生數科技的Vidu平臺製作生成，部分文案則由Kimi、智譜清言等國產大語言模型輔助，配樂由Suno生成。另一位是來自首屆威尼斯AI生成短片國際電影節最佳影片得主、Ainimate Lab的負責人陳劉芳，在展示其團隊的AIGC短片《一路向南》時介紹，創作團隊僅由3人——導演、故事版藝術家、AIGC技術專家各一人組成，製作週期約1周。“同樣的短片，如果按照傳統流程需要20人，涉及導演、美術、建模、燈光、渲染等不同工種，週期需要1個月左右。”她說道。

本報記者瞭解到，影視內容生產及IP開發、廣告營銷等行業成爲視頻生成技術率先落地使用的領域。無論是海外的Sora、Runway等，還是國內的Vidu、快手“可靈”、智譜AI“清影”等視頻大模型，都在加速“跑馬圈地”，佈局商業化場景。

當前視頻模型生成內容的痛點

今年4月，生數科技聯合清華大學率先發布了全自研視頻大模型Vidu，該模型在7月底正式上線後迅速在TikTok、X等海外社交體“走紅”，多家第三方監測數據顯示，Vidu上線首月即位列全球網頁類產品用戶訪問量增速第一位。9月中旬，Vidu迭代上線了“主體參照”功能，面向全球用戶免費開放。

生數科技聯合創始人兼CEO唐家渝在接受記者採訪時指出：“視頻大模型領域的競爭日益激烈，儘管衆多模型層出不窮，但普遍存在一個核心問題，即可控性不足，或者叫一致性不足。”

唐家渝解釋道，在實際視頻創作中，視頻內容往往是圍繞某個特定對象展開的，可以是角色或特定物體，這些對象在視頻中的形象需要保持連續一致。然而現有的視頻模型往往難以實現這一點，常常是主體在生成過程中容易崩壞。尤其在涉及複雜動作和交互的情況下，保持主體的一致性更是一項挑戰。此外，視頻模型的輸出結果具有較大的隨機性，對於鏡頭運用、光影效果等細節的控制也不夠精細。因此，現階段的視頻模型雖然在畫面表現力、物理規律、想象力等方面實現了一定程度的突破，但可控性的不足限制了它們在創作連貫、完整視頻內容方面的應用。大多數的AI視頻內容還是基於獨立視頻素材的拼接，情節的連貫性不足。

對於視頻生成的這一“痛點”，記者瞭解到，業界曾嘗試採用“先AI生圖、再圖生視頻的方法”，通過AI繪圖工具生成分鏡頭畫面，先在圖片層面保持主體一致，再將畫面轉化爲視頻片段進行剪輯合成，但效果並不盡如人意。Vidu給出的解法則是“主體參照”，即允許用戶上傳任意主體的一張圖片，Vidu能夠鎖定該主體的形象，通過描述詞任意切換場景，輸出與主體一致的視頻。需要說明的是，這裡的“主體”不侷限於單一對象，而是面向任意主體，包括人物、動物、商品或者動漫角色、虛構主體等，Vidu能夠保持主體在不同環境、不同鏡頭下的形象連貫一致，即保持一致性和可控性。在唐家渝及Vidu團隊看來，這是“視頻生成領域的一項重要創新，通過上傳主體圖+輸入場景描述詞的方式直接生成視頻素材，能夠大幅減少工作量，降低了創作者的使用門檻”。

多家券商研報均指出，今年國內視頻大模型經歷快速迭代後，在技術和產品方面都實現了較大進展，在生成時長、分辨率、幀率等方面逐步縮小與Sora之間的差距。據東吳證券研報測算，假如以AI滲透率爲15%計算，中國AI視頻生成的潛在行業空間達3178億元。在傳統模式下，以2018年爲例，電視劇、電視動畫片平均投資成本爲7519萬元/部、686萬元/部；電影的製作成本（不含宣發）每部爲2300萬元—1.7億元。到2024年5月，微短劇國內和國外的製作成本分別約爲50萬元人民幣、30萬美元。在全AI模式下，電影、長劇、動畫片、短劇的製作成本分別爲2.5萬元、9.3萬元、3.7萬元和0.4萬元人民幣，相較於傳統模式成本降低幅度超過95%。這表明AI視頻生成大模型從“玩具”升級爲“生產力工具”。

“兩條腿”走路：專業生產+免費開放

視頻大模型如何從嚐鮮式的“玩具”“工具”轉變爲人人皆能用的“生產力工具”呢？本報記者注意到，視頻大模型公司普遍採取“兩條腿”走路：一方面繼續提升視頻大模型的性能，不斷降低用戶使用門檻，提升用戶活躍度；另一方面則聯合影視內容創作機構、院校創作者、IP品牌等，滲透至專業視頻製作行業的各個環節，聯合探索視頻大模型的落地場景。

作爲視頻大模型的“引爆者”Sora，儘管一直並未向公衆全面開放，但它正在與全球範圍內的視覺藝術家、設計師、創意總監、電影製作人等進行合作。例如多媒體制作公司shy kids利用Sora製作了關於氣球人的短片；藝術家Paul Trillo則通過Sora進行電影製作，探索Sora在藝術創作中的應用價值；快手旗下的可靈AI聯合9位知名導演製作出品9部AIGC短片。

智譜AI旗下在今年7月推出了視頻生成模型CogVideoX及“清影”產品，智譜CEO張鵬透露，包括視頻網站嗶哩嗶哩（B站）、影視公司華策影視等作爲合作伙伴參與到清影產品的研發、模型共建中。生數科技也推出合作伙伴計劃，邀請廣告、影視、動漫、遊戲等行業的機構加入，共同探索新的視頻創作模式，在內容共創、技術支持、市場拓展等方面展開合作。首批合作伙伴包括開心麻花、貓眼娛樂、巨人網絡、美克家居、融創文化、河南省非物質文化遺產保護和智慧化中心、李可柒畫院等。

唐家渝介紹，Vidu目前的商業模式共兩種：一是訂閱模式，每月會給用戶80分的免費積分，如有更多需求或使用更高級能力就需要支付訂閱費用；二是API（應用程序編程接口）形式，即以模型能力輸出給客戶使用，融入他們既有的工作流程中。在他看來，儘管目前AI視頻的主體使用者集中於專業用戶，但AI視頻已經來到“普及”的節點。視頻大模型在努力降低創作者的門檻，對於專業創作者來說則在加速創作過程、提升創作效率。

新壹科技副總裁毛木子在接受記者採訪時提到，視頻生成從專業創作者走向更廣泛普及化，還需要跨越三個重要的“關卡”。首先，生成質量與穩定性首當其衝。幾乎所有用戶都遇到了人物和動作的質量及穩定性不理想的問題，因此接下來，如何能夠將視頻中的細節（如人物表情、動作、背景等）進行精細化處理，使生成的視頻更加真實和自然，是所有視頻大模型都要首先解決的問題。其次，用戶都希望在短時間內獲得高質量的視頻，因此生成速度是一個重要的技術指標。特別是在某些應用場景中，如直播或互動式視頻生成，實時生成能力尤爲關鍵。雖然現在技術上已經能夠解決這些問題，但對於各家公司而言，不斷投入算力成本也是一個非常大的挑戰。最後，要想從專業走向普及，產品體驗至關重要。要把用戶的教育成本降下來，讓產品能夠根據文本提示生成高質量的視頻，同時支持複雜的文本輸入和多語言處理。

德邦證券《視頻大模型奇點時刻加速到來》研究報告稱，目前大部分廠商採取免費方式吸引用戶，同時利用訂閱模式開放更多功能這些方式來增強用戶黏性，未來市場競爭向搶佔用戶、提升黏性等方面演進。視頻大模型的逐步成熟奠定了AIGC應用普及的基礎，在垂直領域具有廣闊的應用場景和市場價值，向用戶開放正在初步驗證商用潛力。隨着用戶習慣的培育以及算力基礎設施的完善，視頻大模型或將在辦公、廣告、電影、遊戲等多領域具有可觀的前景。

（編輯：吳清審覈：李正豪校對：顏京寧）

視頻大模型加速“跑馬圈地” 爭搶內容創作高地

相關資訊