☰

爲什麼說DeepSeek是2025年的Kimi

歲末年初，杭州的大模型創業公司“深度求索”DeepSeek 不斷放出大新聞。它所公佈的一個開源模型DeepSeek-V3，在各種基準測試等方面，能夠大致打平需要付錢的GPT-4o。

而一個更重要的問題是，這是中國公司在受到制裁，算力有限，不能購買足夠數量顯卡的基礎上，使用小數據集蒸餾等方法，而得到的一個更節省成本的模型。

官方技術論文披露，v3模型的總訓練成本僅爲557.6萬美元，相比之下GPT-4o等模型的訓練成本約爲1億美元。因此DeepSeek還被稱爲“AI界拼多多”。

這條新聞的重大意義在於，它可能會減少人們對於“大模型的智能程度=英偉達提供的算力”這樣一個認知的依賴。因此，消息還被認爲是間接影響了英偉達的股價。

在整個消息發酵的過程當中，是非常有趣的“出口轉內銷”然後再出去的，變來變去的方式。

兔撕雞在即刻上總結說，國外的消息被引到國內的時候，大家都看闌夕發的微博。但那條微博正確地指出了，DeepSeek 突破的真正意義在於GPU需求變小。“這標誌着美國對中國的AI封鎖戰略不算成功，也不需要搭建GPU萬卡集羣，就能獲得不錯的效果。”

這一層意思被重新譯介回Twitter/X上面，又讓硅谷的那幫人回過神來了，所以影響英偉達的股價。而且還需要對衝，the information說字節將會700億採購英偉達芯片，然後字節否認。如果這個消息不是真實的，那麼可以認爲，發出這個消息的，就是算力相關股票的護盤手。

總之，這種猜測甚是玄學。由此產生了兩個段子：

12月27日，原先在DeepSeek的羅福莉加入小米的消息大範圍流傳，其實之前她早就自我官宣過，而且也在大模型業界小範圍流通。但是自從有媒體將羅形容爲“95後天才少女”之後，情況就不一樣了。

這條消息獲得營銷加成，與其說利好小米，更不如說是加碼營銷了羅福莉的前東家DeepSeek，也就是證明了他們的團隊確實有實力，足夠優秀的人可以在團隊內做出非常厲害的事。

不得不說，在DeepSeek出圈前，AI業界對它的評價都非常高。因爲，即使人們發現它的訓練數據集有可能使用了來自ChatGPT的輸出結果——它曾在很多情況下都自稱爲ChatGPT——這也只是無傷大雅的插曲。你行你也上啊，如果只要用ChatGPT輸出就能做這麼好，你也可以試一試。

畢竟谷歌也在這麼做。谷歌Gemini的事實覈查人員是外包的，用來檢查雙子座模型所生成的結果是否屬實。而谷歌被曝光要放低人工覈對的標準，讓人員檢查跟自己本專業能力不相關的答案的準確性，同時還允許他們藉助類似Claude這樣的，其他模型生成的結果來覈對。

當某個階段你所做出的成績，是僅此一家別無分店的時候，那就說明潑天的富貴將會降臨到你的身上。

最近呢，當然是快手的可靈，在Sora之前吸乾了屬於它的關注度。之前另外一個華裔的作品Pika也類似。但Pika在初期版本比Runway強不少，之後就比較後勁乏力，連帶着聯合創始人郭文景，也不再繼續被稱作“天才少女”刷屏了。

但是這當中最典型的案例則是月之暗面（Kimi）。

在差不多一年前。Kimi成爲AI界當紅炸子雞，因爲它在國內外的競品當中，最早提出了一個新的概念，就是“超長文本（tokens）”。長文本成爲各大模型開始卷的領域，而Kimi依靠這個單獨概念對用戶心智的教育，牢牢的吸了一波粉絲和媒體關注。

自從長文本概念首倡以後，Kimi獲得融資的規模和頻次就像瘋了一樣，終於到達了需要老股東掐架的程度。在這一年當中，Kimi的產品發佈，包括智能體、深度思考、聯網，以及尚未發佈的視頻生成，都只能說是按部就班。

但是Kimi獲得了充足的彈藥，不僅在開發週期上面可以比較舒緩，沒有壓力，而且可以鉚足了勁兒，在B站砸錢營銷，使得大模型推廣的價格水漲船高。

在豆包積極跟進廝殺之餘，連騰訊都熬不住這麼玩了。目前混元大模型的能力被植入微信、QQ、讀書、輸入法等具體的產品內，單行版元寶則處於放養狀態，不再用力宣傳。

這就是爲什麼社長認爲，在今年，如果各家大廠還想要新的投資標的的話，最合適的選擇就是DeepSeek。因爲這一次輪到它提出新概念了，這個概念是“低成本訓練”。

如果論資本市場的青睞程度，能跟月之暗面媲美的還有智譜。但智譜的融資輪數已經太多了，從目前的發展來看，它也沒有持續領先。

其實就算是強如OpenAI，也不可能永遠“炸裂顛覆嚇尿革命”。它可能只需要一次嬰兒的啼哭，向世界證明它此時此刻是領先的。對它來說這個概念叫“ChatGPT”。

這樣的機會，這種對一個概念的定義權，只要一個創業公司擁有一次，就已經足夠幸運。在此之後它是否還能定義第二個概念，或許不太重要；蜂擁而至的融資將會是對它之前定義概念的獎賞。

相關資訊