大模型「六小虎」裡,至少兩家要放棄大模型了 | 焦點分析
文|周鑫雨
編輯|蘇建勳
2024年,不少曾立下“做中國OpenAI”軍令狀的模型公司,開始打臉。
據《智能涌現》瞭解,被稱爲“AI六小虎”的6家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經有兩家逐步放棄預訓練模型,縮減了預訓練算法團隊人數,業務重心轉向AI應用。
(本文希望重點討論國內AI公司對“預訓練”大模型的路線選擇,及其背後的思考與後續側重點,爲了不引起不必要的紛爭,遂隱去放棄預訓練模型的企業名稱。)
趕大模型早集的百度,9月也一度傳出“大概率放棄通用基礎大模型研發,主要做應用”的消息。即便後續被百度闢謠,但“放棄預訓練模型”,已經成了行業的一個轉折點。
可以說,能讓廠商上大模型牌桌的,就是“預訓練”。所謂的“預訓練(pre-train)”,就好比大模型的基礎教育階段,賦予模型海量而通用的知識,是決定模型性能最關鍵的階段,也是模型廠商最核心的技術壁壘。
對於AI行業而言,隨着第三方預訓練模型的性能提高,應用層企業逐步放棄預訓練模型,專注於讓模型更懂用戶的“後訓練(post-train)”環節,是節省算力成本考量下的正常趨勢。
2024年8月,硅谷的明星AI企業、角色扮演類應用的典範Character.AI,宣佈放棄預訓練,轉向與第三方模型合作。他們在官方博客中給出的理由是:這使我們能夠投入更多資源進行後訓練,併爲不斷增長的用戶羣體創造新的產品體驗。
然而,模型層企業放棄預訓練模型,意味着主動走下AGI競速的牌桌。
更何況,“自研預訓練模型”的故事,曾在短短一年間,給這些模型層企業帶來豐厚的融資、頂級的人才,以及市場的聲譽。模型公司放棄預訓練,戳破了AI技術的泡沫。
就如一位AI從業者對《智能涌現》所評價的那樣:
“不少廠商從OpenAI身上得到的不是通往AGI的技術,而是盲目跟隨的自信。”
但對於AI賽道而言,放棄預訓練,也不算全然消極的信號。在資金、算力緊缺的當下,現有的大模型廠商,也開始對自身的能力和資源現狀,進行了重新評估。
從模型轉向應用,意味着在追趕AGI之前,AI公司先選擇了活下去。
錢不夠燒了,模型和產品二保一
狂堆參數的Scaling Law,目前是預訓練的主流路徑,同時也意味着高昂且持續的算力和數據投入。
馬斯克曾估算,GPT-5的訓練可能需要3萬-5萬張H100,僅芯片成本就超過7億美元(約50億元),幾乎是百度一整個季度的淨利潤。
對於尚未盈利的創業公司而言,繼續堆參數煉模型,籌錢首先就是一個難關。
據《智能涌現》瞭解,隨着估值跨上200億元臺階,國內大模型公司最新的單輪次融資規模在50億元左右。估值的擡高,也會伴隨着融資難度的加劇。
一名投資人告訴《智能涌現》,今年最後一季度,大模型獨角獸不會再積極佈局融資,“無論是企業還是一級市場,對下一輪融資都保持悲觀”。
數十億元的融資,模型廠商不僅要分攤給持續堆參數的模型訓練,還要餵給不斷燒錢營銷、卻盈利能力有限的AI應用產品。
當下,與OpenAI的技術差距仍然難以彌合,國產模型之間的性能,也尚未拉開鮮明的差距。不少國內模型廠商開始藉助“數據+場景”的長板,在AI應用上發力,試圖率先跑出AI時代的“微信”和“抖音”——就連ToB基因顯著的智譜AI和百川智能,也先後推出了“智譜清言”和“百小應”等C端應用。
規模化的AI應用,逐漸代替了領先的模型性能,成爲模型廠商留在AI牌桌上的籌碼。因此,用戶數據,成了模型廠商不得不重視的指標。
《智能涌現》曾報道,月之暗面在B站給出的CPA(用戶轉化人均成本)報價高達30元左右。而另有知情人士告訴《智能涌現》,如今模型廠商最高的報價,來自於字節跳動的“豆包”,“幾乎是Kimi報價的2倍”。
2024年以來投流刷臉的營銷打法,讓不少模型廠商的營銷預算翻了數倍。營銷價格水漲船高,但在AI產品差異化程度還不夠的當下,砸錢買流量幾乎是獲客的唯一出路。
一家大模型獨角獸的員工告訴《智能涌現》,公司曾在2024年中,中止了AI對話產品在部分社交媒體的投放,“當月獲客數據立馬變得很難看”。一個月後,公司又恢復了投流。
並不是所有的大模型公司,都能從暫無盡頭的燒錢中看到希望。
如今,AI產品所消耗的推理成本,較一年前已經下降了近99%。但不少業內人士反映,模型的訓練依然佔算力成本的至少7成。
這意味着,放棄預訓練模型,是資源緊缺的當下,最具性價比的決定。
放棄預訓練模型的其中一家獨角獸,據多名知情人士透露,自2024年中,整家公司的目標重心已經放在了海外的AI應用產品,以及上市。
大模型公司,困在變現焦慮
爲什麼在模型和產品中選擇捨棄前者保證後者?核心原因還是在於,目前靠大模型本身,沒有明晰的變現渠道。
多名從業者對《智能涌現》反映,2024年開啓的模型降價潮,並沒有提高模型的營收能力。
“模型API的降價,本質上是爲了讓客戶體驗模型能力,並轉化成本地部署等高淨利業務的付費。”一名模型廠商大客戶經理對《智能涌現》表示,“但表現沒有達到預期,今年上半年大部分模型廠商的ToB業務,營收是砍半的。”
他記得,在一款模型宣佈免費後,後臺涌入了不少“白嫖”的開發者,“有一個做研究的開發者,一天用的Token數,就佔了所有用戶的60%。”
模型付費轉化的失敗,很大程度是因爲,被稱爲“價格屠夫”的開源模型更強了。
隨着Llama 3.1、Mistral Large 2、DeepSeek V 2.5等一系列開源模型,性能已經達到了叫板GPT-4,甚至GPT-4o的程度。
相對地,閉源模型的競爭力正在被削弱。“付費能力高的企業,一般有自己的技術團隊,可以基於開源模型直接做開發。”上述大客戶經理表示,對於技術能力不足的企業而言,“開源模型影響的是客戶對模型價格的心理預期。”
一個典型案例是,2023年Llama 2發佈後,某大模型獨角獸接到的客戶報價,直接砍了一個“0”。
模型變現能力不足,意味着當下模型廠商的現金流,幾乎只能依靠融資,以及能夠快速找到PMF(產品-市場匹配度)的AI應用。
但如今,能爲模型廠商吸引到融資的,除了漂亮的用戶數據,只剩下躍升的模型性能。
一名投資人告訴《智能涌現》,模型廠商誰能先把o1(OpenAI最新模型)的能力追平,一級市場還是會爲其小沸一番。
但2024年,不少大模型廠商,已經卡在了技術的瓶頸。
GPT-4後,大模型技術的發展已經進入了深水區。9月,前OpenAI首席科學家Ilya Sutskever——他曾將Scaling Law成功使用在ChatGPT等關鍵模型上——在宣佈成立新公司SSI時直言:“每個人都只說Scaling假設。但每個人都忽略了一個問題:我們到底在Scaling什麼?”
大語言模型的迭代速度變慢、多模態仍處於攻堅早期,是模型賽道的現狀。“GPT-4之前,OpenAI有公開的詳細技術報告,大家還能對着‘抄’。之後技術報告不公開了,國內廠商的參考答案也沒了。”一名從業者表示,“更何況,OpenAI的答案也不一定正確。”
一羣失去方向的大模型公司,需要在技術的不確定性中,重新找到穩定性。
放棄預訓練的模型廠商,抓住的是尚有盈利潛力的AI應用。多名知情者都對《智能涌現》表示,其中一家廠商的某款海外AI生產力工具產品,貢獻2024年以來的大部分營收,“公司現在70%的人力都在做產品”——而這款出海應用的底層模型,也逐漸從自研的,換成了GPT-4和GPT-4o。
而另一家在國內靠ToB起家的模型公司,也在2024年中推出了生產力和娛樂相的C端AI應用。
剩下仍在堅持預訓練的廠商,則開始在技術上降本增效。
一家模型獨角獸的員工告訴《智能涌現》,今年公司在算力採購上很剋制,計劃先採取優化訓練框架等方式,降低模型的訓練成本。
再比如,OpenAI最新模型o1所採用的Self-play(自博弈)策略,能夠在不增加參數的情況下提升模型性能,也成了不少模型廠商低成本訓練模型的稻草。
對於整個AI行業而言,放棄預訓練模型,並不是一個消極的信號。拾象科技CEO李廣密近期也公開對外表示,未來80%的公司會放棄預訓練,硅谷逐漸形成的共識是RL(強化學習)是接下來的突破點,能在控制算力成本的情況下,提升特定參數模型的能力。
這意味着從技術狂熱重回理性後,廠商對技術範式和行業資源,開始重新思考和整合。
歡迎交流!