爲什麼說DeepSeek是2025年的Kimi
歲末年初,杭州的大模型創業公司“深度求索”DeepSeek 不斷放出大新聞。它所公佈的一個開源模型DeepSeek-V3,在各種基準測試等方面,能夠大致打平需要付錢的GPT-4o。
而一個更重要的問題是,這是中國公司在受到制裁,算力有限,不能購買足夠數量顯卡的基礎上,使用小數據集蒸餾等方法,而得到的一個更節省成本的模型。
官方技術論文披露,v3模型的總訓練成本僅爲557.6萬美元,相比之下GPT-4o等模型的訓練成本約爲1億美元。因此DeepSeek還被稱爲“AI界拼多多”。
這條新聞的重大意義在於,它可能會減少人們對於“大模型的智能程度=英偉達提供的算力”這樣一個認知的依賴。因此,消息還被認爲是間接影響了英偉達的股價。
在整個消息發酵的過程當中,是非常有趣的“出口轉內銷”然後再出去的,變來變去的方式。
兔撕雞在即刻上總結說,國外的消息被引到國內的時候,大家都看闌夕發的微博。但那條微博正確地指出了,DeepSeek 突破的真正意義在於GPU需求變小。“這標誌着美國對中國的AI封鎖戰略不算成功,也不需要搭建GPU萬卡集羣,就能獲得不錯的效果。”
這一層意思被重新譯介回Twitter/X上面,又讓硅谷的那幫人回過神來了,所以影響英偉達的股價。而且還需要對衝,the information說字節將會700億採購英偉達芯片,然後字節否認。如果這個消息不是真實的,那麼可以認爲,發出這個消息的,就是算力相關股票的護盤手。
總之,這種猜測甚是玄學。由此產生了兩個段子:
12月27日,原先在DeepSeek的羅福莉加入小米的消息大範圍流傳,其實之前她早就自我官宣過,而且也在大模型業界小範圍流通。但是自從有媒體將羅形容爲“95後天才少女”之後,情況就不一樣了。
這條消息獲得營銷加成,與其說利好小米,更不如說是加碼營銷了羅福莉的前東家DeepSeek,也就是證明了他們的團隊確實有實力,足夠優秀的人可以在團隊內做出非常厲害的事。
不得不說,在DeepSeek出圈前,AI業界對它的評價都非常高。因爲,即使人們發現它的訓練數據集有可能使用了來自ChatGPT的輸出結果——它曾在很多情況下都自稱爲ChatGPT——這也只是無傷大雅的插曲。你行你也上啊,如果只要用ChatGPT輸出就能做這麼好,你也可以試一試。
畢竟谷歌也在這麼做。谷歌Gemini的事實覈查人員是外包的,用來檢查雙子座模型所生成的結果是否屬實。而谷歌被曝光要放低人工覈對的標準,讓人員檢查跟自己本專業能力不相關的答案的準確性,同時還允許他們藉助類似Claude這樣的,其他模型生成的結果來覈對。
當某個階段你所做出的成績,是僅此一家別無分店的時候,那就說明潑天的富貴將會降臨到你的身上。
最近呢,當然是快手的可靈,在Sora之前吸乾了屬於它的關注度。之前另外一個華裔的作品Pika也類似。但Pika在初期版本比Runway強不少,之後就比較後勁乏力,連帶着聯合創始人郭文景,也不再繼續被稱作“天才少女”刷屏了。
但是這當中最典型的案例則是月之暗面(Kimi)。
在差不多一年前。Kimi成爲AI界當紅炸子雞,因爲它在國內外的競品當中,最早提出了一個新的概念,就是“超長文本(tokens)”。長文本成爲各大模型開始卷的領域,而Kimi依靠這個單獨概念對用戶心智的教育,牢牢的吸了一波粉絲和媒體關注。
自從長文本概念首倡以後,Kimi獲得融資的規模和頻次就像瘋了一樣,終於到達了需要老股東掐架的程度。在這一年當中,Kimi的產品發佈,包括智能體、深度思考、聯網,以及尚未發佈的視頻生成,都只能說是按部就班。
但是Kimi獲得了充足的彈藥,不僅在開發週期上面可以比較舒緩,沒有壓力,而且可以鉚足了勁兒,在B站砸錢營銷,使得大模型推廣的價格水漲船高。
在豆包積極跟進廝殺之餘,連騰訊都熬不住這麼玩了。目前混元大模型的能力被植入微信、QQ、讀書、輸入法等具體的產品內,單行版元寶則處於放養狀態,不再用力宣傳。
這就是爲什麼社長認爲,在今年,如果各家大廠還想要新的投資標的的話,最合適的選擇就是DeepSeek。因爲這一次輪到它提出新概念了,這個概念是“低成本訓練”。
如果論資本市場的青睞程度,能跟月之暗面媲美的還有智譜。但智譜的融資輪數已經太多了,從目前的發展來看,它也沒有持續領先。
其實就算是強如OpenAI,也不可能永遠“炸裂顛覆嚇尿革命”。它可能只需要一次嬰兒的啼哭,向世界證明它此時此刻是領先的。對它來說這個概念叫“ChatGPT”。
這樣的機會,這種對一個概念的定義權,只要一個創業公司擁有一次,就已經足夠幸運。在此之後它是否還能定義第二個概念,或許不太重要;蜂擁而至的融資將會是對它之前定義概念的獎賞。