2024年,每一個大模型都躲不過容嬤嬤和紫薇 | 焦點分析

文|鄧詠儀

編輯|蘇建勳

連最積極搞AI的李彥宏,在這件事上也遲疑了。

“百度不碰Sora類的視頻生成方向。”李彥宏在近期的2024年Q3總監會上說道。原因在於,10年、20年都可能難以商業化應用。

從OpenAI Sora橫空出世,再到6月的快手可靈全量上線,視頻生成成爲2024年最火熱的AI話題。

廠商們紛紛開始你追我趕。從4月至今,視頻生產模型如同雨後春筍一般——除了快手、字節、阿里等大廠,頭部大模型公司如智譜、MiniMax,以及生數科技、智象未來等垂類廠商,均發佈了視頻生成模型。

國內視頻模型的涌現,也讓“容嬤嬤和紫薇”的鬼畜形象再次翻紅,她倆活在不同的視頻模型demo和網友二創中,考驗着不同模型的效果:

△圖源:可靈,來自公開網絡

△圖源:即夢AI,智能涌現製圖

行業對“超級應用”的渴望溢於言表,甚至影響到了如今大模型的路線——到底做不做視頻大模型,影響國內“大模型六小虎”(智譜、月之暗面、MiniMax、百川智能、階躍星辰、零一萬物)走勢的關鍵決策。

不過,對於做不做視頻模型,國內大模型廠商仍未達成共識,而是分成了截然不同的幾派:

有廠商迅速跟進。7月,智譜就推出了類Sora的視頻生成模型“智譜清影”;8月,MiniMax發佈視頻模型Video-01。

而階躍星辰發佈新圖像模型,也在今年7月的上海世界人工智能大會上,做了少量的視頻生成嘗試。

也有旗幟鮮明的反對者。“百川不會做Sora。”今年5月,百川智能CEO王小川就在《智能涌現》的專訪中就表示。他認爲,Sora並不在AGI(通用人工智能),即提升模型智力水平的主線上。

也有在探索後暫緩的廠商。最受關注的月之暗面,6月被媒體報道在海外試水兩個新應用——角色扮演應用Ohai,以及AI音樂/視頻生成應用Noisse。據《智能涌現》瞭解,這兩個應用因爲效果不達預期,後來並沒有被單獨立項,停留在試驗階段。

而在近期的“Kimi探索版”上線後,月之暗面還將發佈多模態相關能力。不過,還不確定是否會有視頻生成相關功能。

直到國慶前後,視頻生成領域迎來兩位重磅玩家:9月24日,字節跳動低調甩出了Seaweed和Pixeldance兩款產品。

而緊接着的10月5日,Meta放出的系列模型Movie Gen,則又一次炸場。

△圖注:2024上半年,全球已涌現了不少視頻模型和產品,在中國尤其熱鬧。

在語言模型迭代放緩的當下,視頻生成模型似乎成了那個更有希望的AI應用新方向——大廠也還沒形成壟斷。對初創公司而言,這更是一次重要選擇——到底要不要做Sora?

分叉路,要選哪條?

首先需要釐清的一個概念是,大廠、創業公司如今普遍標配的“多模態能力”(圖像、語音等模態),以及類Sora的視頻生成模型,並不是同樣的東西。

“多模態能力,相當於是讓模型能夠理解圖像、音頻、視頻等形式,但還是基於大語言模型延伸的能力。”一位大模型從業者對《智能涌現》分析,“將視頻、圖片、語音輸入到大模型裡,是基於大語言模型做‘理解’;但生成視頻,則是依靠視頻模型的能力。”

“類Sora”產品所依靠的視頻生成模型,借鑑了大語言模型(LLM)中Transformer架構等技術思路,但和大語言模型(LLM)是兩種不同的事物。

這意味着,如果要做一個視頻生成模型,相當於另起爐竈,從0到1重新搭模型。

可以肯定的是,要做視頻生成模型,當前還註定是少數人的遊戲。

再造一個“Sora”,成本高昂。

據Meta的數據,Movie Gen用了6144張H100進行訓練,視頻模型參數達到30B(300億)。在國內,擁有此等訓練資源的廠商,本就不多。

而眼下,國內大模型廠商基本都已經上齊了多模態能力,至於是否做視頻生成方向,還處於搖擺狀態。

對擁有短視頻相關業務的大廠,如抖音、快手等,視頻生成是不能輸的方向。據硅星人報道,對可靈的大力投入,一個重要動力是爲了服務於快手的內容生態——2023年,首次在快手發佈短視頻的創作者就有1.38億。

另外,快手做可靈,也意在服務快手的電商生態,比如爲MCN、電商商家提供商品相關的AI內容生成服務。

但對初創玩家來說,在AI應用方向不明朗的當下,大家都在忐忑地摸着石頭過河。

有玩家早早堅定了自己選擇的道路。一開始打定不做Sora的百川,在2024年全力落地醫療場景,並推出了自己的醫療AI助手。

專門做視頻生成的垂類廠商,也拿到了階段性的結果,比如生數科技旗下的Vidu,在8月上線後,兩個月內,VIdu的月訪問量就已經達到552萬。

但能不能把新故事講成自己的,還得看各家的真本事。視頻生成領域的技術路線尚未收斂,市面上的頂級視頻生成模型幾乎都選擇了閉源。

這意味着,玩家們需要投入真金白銀去試錯——選什麼技術路線和應用場景,才決定AGI大潮退去後,誰能真正留在岸上。

文本太卷,Agent太遠,視頻生成剛剛好?

OpenAI的Sora尚且沒有放開使用,爲什麼視頻生成如今成了國內的香餑餑?

以GPT-4作爲參考標杆,國內頭部的大模型廠商和大廠,在今年上半年都已慢慢接近GPT-4的水平,在OpenAI後續發佈GPT-4o後,廠商也都陸續跟進了多模態能力。

但GPT-5遲遲未出,意味着在語言模型上,國內大模型的廠商基本難以拉開代際差距。

另一方面,大模型跑了一年多,其落地和商業化成果還未讓市場信服。

在國內,大部分的AI應用方向都陷入叫好不叫座的困境。細數這兩年火過的AI應用方向——ChatBot/情感陪伴等類ChatGPT產品、文生圖、AI音樂、AI搜索,都迅速陷入同質化競爭的局面。

以國內頭部的AI應用舉例,豆包、Kimi等在今年上半年經歷了激烈的投流競爭,用戶數最高已達千萬級別,但商業化情況並不理想。

不少從業者認爲,應用難以商業化,很大程度要歸結到文本模型迭代放緩,能力提升變慢。這也讓一些更遙遠的,能完成更多複雜任務的方向——比如Agent(智能體),越發模糊。

《智能涌現》瞭解到的一個例證是,字節旗下的AI開發平臺釦子的Agent業務,在今年就經歷了一輪縮減。

而近期圈內熱切討論的放棄大模型的預訓練階段,意味着不少廠商要走下追求的牌桌,轉向AI應用落地,繼續活下去。

廠商們需要新故事,視頻生成方向則剛好站在中間點:既有足夠技術和開發壁壘,但壁壘不會高到玩家摸不着,前景也足夠大。

“語言模型的商業化就不提了,初創公司至少還要想象力。如果頭部初創公司不轉其他應用方向,就什麼都沒有,怎麼撐起這麼高的估值?”一位從業者直言。

2023年,不少做視頻生成的創業者都對《智能涌現》表示,如今的視頻生成領域可類比處在GPT-2到GPT3階段。這意味着比ChatGPT的效果稍稍略落後,比語言模型所處的發展階段早很多。

但Sora發佈後,視頻生成領域已經看到了GPT-3.5階段的曙光。“這個階段意味着,讓你看到這個賽道的巨大潛力,市場願意投入。”一位從業者對《智能涌現》表示。

共識搖擺的背後,源於賽道仍處發展早期,還有不少探索機會。比如,剛剛發佈的Meta Movie Gen。在Transformer架構基礎上,使用了Flow Matching(流匹配技術),這就與Sora的路線有很大不同,也意味着整個賽道的技術路線尚未收斂。

在國內,這個方向上也有得天獨厚的短視頻生態,視頻生成方向的模型探索,也因此站在全球前沿。

6月爆火的快手視頻模型“可靈”,就是典型例子——在大廠中,快手並不是AI人才、資源的制高點,但經歷短短數月攻堅,快手可靈僅憑20多人的小團隊,硬是在一衆大模型廠商中闖出一條路,可靈憑藉懷舊照片等一系列策劃,熱度一度傳到大洋彼岸的硅谷。

△Stability.ai創始人轉發可靈產品,評論“中國在AI上有着巨大優勢” 來源:X

並且,視頻生成方向還處在早期,算力成本仍處高位,一旦開始商業化,付費已是必選項。

在海外,視頻生成已經走出了不同路線——頭部的視頻廠商Runway和Pika都專注做B端的生產力工具,Runway甚至已經打入好萊塢,達成了不少影視界的合作。在國內,可靈、Minimax等廠商也早早開始了付費嘗試。

歸根結底,很少人願意錯過這個方向。畢竟,視頻已經取代文字,成爲互聯網上流量佔比最高的信息內容。據Sandvine《2023全球互聯網現象報告》,2022年全球互聯網視頻服務,就佔到總流量的65.93%。

隨着視頻生成技術不斷成熟,這也許不會只是大廠的遊戲。初創公司可以結合技術,以及巧妙的運營手段,快速闖出一條自己的道路。

△來源:Pika

硅谷視頻生成明星初創Pika,就摸到了不少流量密碼:一出道,就選擇先在開發者聚集的Discord運營,並且迅速獲得50萬用戶。

到了今年10月,Pika新發布的1.5模型中,還帶來了更多社交運營玩法:內置了充氣、融化、爆炸、捏揉、壓扁等模板,引來全球網友“整活兒”,服務器甚至因爲涌入的用戶太多而崩潰——有網友就不禁回憶起當年:與早期的TikTok冷啓動時期如出一轍。

本文來自微信公衆號“智能涌現”,作者:鄧詠儀,36氪經授權發佈。