☰

大模型「六小虎」裡，至少兩家要放棄大模型了 | 焦點分析

文｜周鑫雨

編輯｜蘇建勳

2024年，不少曾立下“做中國OpenAI”軍令狀的模型公司，開始打臉。

據《智能涌現》瞭解，被稱爲“AI六小虎”的6家中國大模型獨角獸（智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰）中，已經有兩家逐步放棄預訓練模型，縮減了預訓練算法團隊人數，業務重心轉向AI應用。

（本文希望重點討論國內AI公司對“預訓練”大模型的路線選擇，及其背後的思考與後續側重點，爲了不引起不必要的紛爭，遂隱去放棄預訓練模型的企業名稱。）

趕大模型早集的百度，9月也一度傳出“大概率放棄通用基礎大模型研發，主要做應用”的消息。即便後續被百度闢謠，但“放棄預訓練模型”，已經成了行業的一個轉折點。

可以說，能讓廠商上大模型牌桌的，就是“預訓練”。所謂的“預訓練（pre-train）”，就好比大模型的基礎教育階段，賦予模型海量而通用的知識，是決定模型性能最關鍵的階段，也是模型廠商最核心的技術壁壘。

對於AI行業而言，隨着第三方預訓練模型的性能提高，應用層企業逐步放棄預訓練模型，專注於讓模型更懂用戶的“後訓練（post-train）”環節，是節省算力成本考量下的正常趨勢。

2024年8月，硅谷的明星AI企業、角色扮演類應用的典範Character.AI，宣佈放棄預訓練，轉向與第三方模型合作。他們在官方博客中給出的理由是：這使我們能夠投入更多資源進行後訓練，併爲不斷增長的用戶羣體創造新的產品體驗。

然而，模型層企業放棄預訓練模型，意味着主動走下AGI競速的牌桌。

更何況，“自研預訓練模型”的故事，曾在短短一年間，給這些模型層企業帶來豐厚的融資、頂級的人才，以及市場的聲譽。模型公司放棄預訓練，戳破了AI技術的泡沫。

就如一位AI從業者對《智能涌現》所評價的那樣：

“不少廠商從OpenAI身上得到的不是通往AGI的技術，而是盲目跟隨的自信。”

但對於AI賽道而言，放棄預訓練，也不算全然消極的信號。在資金、算力緊缺的當下，現有的大模型廠商，也開始對自身的能力和資源現狀，進行了重新評估。

從模型轉向應用，意味着在追趕AGI之前，AI公司先選擇了活下去。

錢不夠燒了，模型和產品二保一

狂堆參數的Scaling Law，目前是預訓練的主流路徑，同時也意味着高昂且持續的算力和數據投入。

馬斯克曾估算，GPT-5的訓練可能需要3萬-5萬張H100，僅芯片成本就超過7億美元（約50億元），幾乎是百度一整個季度的淨利潤。

對於尚未盈利的創業公司而言，繼續堆參數煉模型，籌錢首先就是一個難關。

據《智能涌現》瞭解，隨着估值跨上200億元臺階，國內大模型公司最新的單輪次融資規模在50億元左右。估值的擡高，也會伴隨着融資難度的加劇。

一名投資人告訴《智能涌現》，今年最後一季度，大模型獨角獸不會再積極佈局融資，“無論是企業還是一級市場，對下一輪融資都保持悲觀”。

數十億元的融資，模型廠商不僅要分攤給持續堆參數的模型訓練，還要餵給不斷燒錢營銷、卻盈利能力有限的AI應用產品。

當下，與OpenAI的技術差距仍然難以彌合，國產模型之間的性能，也尚未拉開鮮明的差距。不少國內模型廠商開始藉助“數據+場景”的長板，在AI應用上發力，試圖率先跑出AI時代的“微信”和“抖音”——就連ToB基因顯著的智譜AI和百川智能，也先後推出了“智譜清言”和“百小應”等C端應用。

規模化的AI應用，逐漸代替了領先的模型性能，成爲模型廠商留在AI牌桌上的籌碼。因此，用戶數據，成了模型廠商不得不重視的指標。

《智能涌現》曾報道，月之暗面在B站給出的CPA（用戶轉化人均成本）報價高達30元左右。而另有知情人士告訴《智能涌現》，如今模型廠商最高的報價，來自於字節跳動的“豆包”，“幾乎是Kimi報價的2倍”。

2024年以來投流刷臉的營銷打法，讓不少模型廠商的營銷預算翻了數倍。營銷價格水漲船高，但在AI產品差異化程度還不夠的當下，砸錢買流量幾乎是獲客的唯一出路。

一家大模型獨角獸的員工告訴《智能涌現》，公司曾在2024年中，中止了AI對話產品在部分社交媒體的投放，“當月獲客數據立馬變得很難看”。一個月後，公司又恢復了投流。

並不是所有的大模型公司，都能從暫無盡頭的燒錢中看到希望。

如今，AI產品所消耗的推理成本，較一年前已經下降了近99%。但不少業內人士反映，模型的訓練依然佔算力成本的至少7成。

這意味着，放棄預訓練模型，是資源緊缺的當下，最具性價比的決定。

放棄預訓練模型的其中一家獨角獸，據多名知情人士透露，自2024年中，整家公司的目標重心已經放在了海外的AI應用產品，以及上市。

大模型公司，困在變現焦慮

爲什麼在模型和產品中選擇捨棄前者保證後者？核心原因還是在於，目前靠大模型本身，沒有明晰的變現渠道。

多名從業者對《智能涌現》反映，2024年開啓的模型降價潮，並沒有提高模型的營收能力。

“模型API的降價，本質上是爲了讓客戶體驗模型能力，並轉化成本地部署等高淨利業務的付費。”一名模型廠商大客戶經理對《智能涌現》表示，“但表現沒有達到預期，今年上半年大部分模型廠商的ToB業務，營收是砍半的。”

他記得，在一款模型宣佈免費後，後臺涌入了不少“白嫖”的開發者，“有一個做研究的開發者，一天用的Token數，就佔了所有用戶的60%。”

模型付費轉化的失敗，很大程度是因爲，被稱爲“價格屠夫”的開源模型更強了。

隨着Llama 3.1、Mistral Large 2、DeepSeek V 2.5等一系列開源模型，性能已經達到了叫板GPT-4，甚至GPT-4o的程度。

相對地，閉源模型的競爭力正在被削弱。“付費能力高的企業，一般有自己的技術團隊，可以基於開源模型直接做開發。”上述大客戶經理表示，對於技術能力不足的企業而言，“開源模型影響的是客戶對模型價格的心理預期。”

一個典型案例是，2023年Llama 2發佈後，某大模型獨角獸接到的客戶報價，直接砍了一個“0”。

模型變現能力不足，意味着當下模型廠商的現金流，幾乎只能依靠融資，以及能夠快速找到PMF（產品-市場匹配度）的AI應用。

但如今，能爲模型廠商吸引到融資的，除了漂亮的用戶數據，只剩下躍升的模型性能。

一名投資人告訴《智能涌現》，模型廠商誰能先把o1（OpenAI最新模型）的能力追平，一級市場還是會爲其小沸一番。

但2024年，不少大模型廠商，已經卡在了技術的瓶頸。

GPT-4後，大模型技術的發展已經進入了深水區。9月，前OpenAI首席科學家Ilya Sutskever——他曾將Scaling Law成功使用在ChatGPT等關鍵模型上——在宣佈成立新公司SSI時直言：“每個人都只說Scaling假設。但每個人都忽略了一個問題：我們到底在Scaling什麼？”

大語言模型的迭代速度變慢、多模態仍處於攻堅早期，是模型賽道的現狀。“GPT-4之前，OpenAI有公開的詳細技術報告，大家還能對着‘抄’。之後技術報告不公開了，國內廠商的參考答案也沒了。”一名從業者表示，“更何況，OpenAI的答案也不一定正確。”

一羣失去方向的大模型公司，需要在技術的不確定性中，重新找到穩定性。

放棄預訓練的模型廠商，抓住的是尚有盈利潛力的AI應用。多名知情者都對《智能涌現》表示，其中一家廠商的某款海外AI生產力工具產品，貢獻2024年以來的大部分營收，“公司現在70%的人力都在做產品”——而這款出海應用的底層模型，也逐漸從自研的，換成了GPT-4和GPT-4o。

而另一家在國內靠ToB起家的模型公司，也在2024年中推出了生產力和娛樂相的C端AI應用。

剩下仍在堅持預訓練的廠商，則開始在技術上降本增效。

一家模型獨角獸的員工告訴《智能涌現》，今年公司在算力採購上很剋制，計劃先採取優化訓練框架等方式，降低模型的訓練成本。

再比如，OpenAI最新模型o1所採用的Self-play（自博弈）策略，能夠在不增加參數的情況下提升模型性能，也成了不少模型廠商低成本訓練模型的稻草。

對於整個AI行業而言，放棄預訓練模型，並不是一個消極的信號。拾象科技CEO李廣密近期也公開對外表示，未來80%的公司會放棄預訓練，硅谷逐漸形成的共識是RL（強化學習）是接下來的突破點，能在控制算力成本的情況下，提升特定參數模型的能力。

這意味着從技術狂熱重回理性後，廠商對技術範式和行業資源，開始重新思考和整合。

歡迎交流！

大模型「六小虎」裡，至少兩家要放棄大模型了 | 焦點分析

相關資訊