奧特曼陰陽“國產之光”DeepSeek?把訓練成本打下來99%,表現還優於GPT-4o,國產開源大模型火爆全球
整理 | 華衛、核子可樂
一家中國 AI 初創公司創建出被用戶稱作 “真正的‘Open’AI ”的人工智能模型。
11月26日,有“AI界的拼多多”之稱的DeepSeek 發佈了最新系列模型 DeepSeek-V3 首個版本並同步開源。該模型可以處理一系列基於文本的工作負載和任務,如編碼、翻譯以及根據描述性提示撰寫論文和電子郵件。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能優於可下載的 “公開 ”可用模型和只能通過 API 訪問的 “封閉 ”人工智能模型。
在編程競賽平臺 Codeforces 主辦的編碼競賽子集中,DeepSeek 的表現優於 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等模型。DeepSeek V3 還在 Aider Polyglot 測試中擊敗了競爭對手,該測試旨在衡量模型是否能成功編寫新代碼,並將其整合到現有代碼中。
“綜合評估表明,DeepSeek-V3 已成爲目前可用的最強大的開源模型,其性能可與 GPT-4o 和 Claude-3.5-Sonnet 等領先的閉源模型相媲美。”DeepSeek 表示。
6710 億參數,
訓練規模不到 600 萬美元
根據該公司的許可協議,這套新模型可以通過 Hugging Face 獲取,其參數規模達到 6710 億,但會使用混合專家架構以保證僅激活選定的參數,以便準確高效地處理給定任務。目前,DeepSeek-V3 代碼可通過 GitHub 基於 MIT 許可進行獲取;企業亦可通過類似 ChatGPT 的 DeepSeek Chat 平臺測試這套新模型,並訪問 API 以供商業使用。
模型權重下載和更多本地部署信息可參考:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
GitHub 鏈接:https://github.com/deepseek-ai/DeepSeek-V3
與其前代成果 DeepSeek-V2 一樣,這款最新超大型模型使用同樣的基礎架構,圍繞多頭潛在注意力(MLA)與 DeepSeekMoE 構建而成。這種方法確保其始終保持高效的訓練與推理能力,同時配合有針對性的共享“專家”(即大模型內各獨立且體量較小的神經網絡)爲各個 token 相應激活總計 6710 億參數中的 370 億個。
除了利用基礎架構保證 DeepSeek-V3 擁有強大性能之外,DeepSeek 方面還發布了另外兩項進一步提高模型表現的創新。
首先是輔助無損負載均衡策略,用以動態監控並調整專家負載,以均衡方式加以使用,保證不會損害模型的整體性能。其二則是多 token 預測(MTP),這允許模型同時預測多個未來 token。這項創新不僅提高了訓練效率,還使得模型的執行速度提高了三倍,每秒可生成 60 個 token。
該公司在詳細介紹新模型的技術論文中寫道,“在預訓練期間,我們在 14.8 T 高質量且多樣化的 token 上訓練了 DeepSeek-V3……接下來,我們對 DeepSeek-V3 進行了分兩個階段的上下文長度擴展。在第一階段,最大上下文長度擴展至 32K;在第二階段,則進一步擴展至 128K。在此之後,我們在 DeepSeek-V3 的基礎模型之上進行後訓練,包括監督微調(SFT)和強化學習(RL),以確保其與人類偏好保持一致並持續深挖模型潛力。在後訓練階段,我們從 DeepSeekR1 系列模型中蒸餾推理能力,同時謹慎地在模型精度與生成結果長度之間保持平衡。”
值得注意的是,在訓練階段,DeepSeek 使用了多項硬件及算法優化方法,包括 FP8 混合精度訓練框架以及用於管線並行的 DualPipe 算法,旨在降低流程運行成本。據介紹,通過算法和工程上的創新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實現了 3 倍的提升。
總體而言,該公司稱,DeepSeek-V3 的全部訓練任務在約 278.8 萬個 H800 GPU 小時內就能完成。假設租賃價格爲每 GPU 每小時租金爲 2 美元,則約爲 557 萬美元,這比以往大語言模型動輒上億美元的預訓練成本明顯要低得多。例如,Llama-3.1 模型的訓練投入估計超過 5 億美元。
曾是 OpenAI 創始成員之一的 AI 科學家 Andrej Karpathy 也被 DeepSeek-V3 的超低訓練成本所震驚,“在資源限制下,它將是一個非常令人印象深刻的研究和工程展示。”他表示,這種級別的能力應該需要接近 16K GPU 的集羣,而現在提出的集羣更多的是 100K GPU 左右。這是否意味着前沿 LLM 不需要大型 GPU 集羣?
“資源約束是一件美好的事情。在競爭激烈的 AI 競爭領域中,生存本能是取得突破的主要驅動力。”曾師從李飛飛教授、如今領導英偉達具身 AI 團隊的高級研究科學家 Jim Fan 稱。
此外,也有網友就 DeepSeek-V3 採用 H800 GPU 達到的低訓練成本討論到美國芯片出口管制的問題。Kaggle 大神、數據科學家 Bojan Tunguz 這樣評價道,“所有對高端半導體的出口禁令實際上可能以可以想象的‘最糟糕’的方式適得其反。它們似乎迫使中國研究人員比原本更聰明、更節省資源。這似乎也證實了我自己的假設,即我們離擁有 AI 的 ML 部分的最佳算法還差得很遠。”
11月27日,奧特曼突然發佈推文,表示“創新和冒險的行爲比複製已知的成功要困難得多”。
鑑於發佈時間和DeepSeek-V3的討論熱度,不少人解讀這是在陰陽DeepSeek。
效果和價格“吊打”一衆模型
儘管訓練成本低廉,但 DeepSeek-V3 仍一躍成爲當前市面上最強的開源大模型。
該公司運行了多項基準測試以比較其 AI 性能,並指出 DeepSeek-V3 以令人信服的表現優於其他領先開放模型,包括 Llama-3.1-405B 以及通義千問的 Qwen 2.5-72B,其甚至在大多數基準測試中都優於閉源 GPT-4o 模型,僅在以英語爲中心的 SimpleQA 和 FRAMES 測試中稍遜一籌。OpenAI 模型分別得到 38.2 分和 80.5 分,而 DeepSeek-V3 則爲 24.9 分和 73.3 分。
並且,DeepSeek-V3 的表現在以中文和數學爲中心的基準測試中尤其突出,得分高於所有同類大模型。在 Math-500 測試中,其得分高達 90.2,遠高於排名第二的 Qwen 的 80 分。目前,能夠挑戰 DeepSeek-V3 的模型可能只有 Anthropic 的 OpenAI 的 o1 和 Claude 3.5 Sonnet。
據悉,o1 在 GPQA Diamond(博士級科學問題)基準測試中獲得了 76% 的分數,而 DeepSeek 則以 59.1% 的分數落後。o1 的完整版在多項基準測試中擊敗了 DeepSeek。Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 測試中以更高的分數超越了 DeepSeek-V3。
目前,DeepSeek 爲 DeepSeek-V3 API 設定的價格與上一代 DeepSeek-V2 相同,即每百萬輸入 tokens 0.1 元(緩存命中)/ 1 元(緩存未命中)、每百萬輸出 tokens 2 元。但在明年 2 月 8 日之後,計費標準將調整爲每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元。
而 DeepSeek v3 的價格也獲得了不少用戶的好評。有中國網友稱 DeepSeek v3 是“國產之光”,也有國外的網友認爲 DeepSeek v3 的性價比“更上一層樓”,並表示,“人們不應低估 LLM 價格合理的重要性,這樣它們才能真正爲每個人所用,這些模型也才能被廣泛接受。”還有網友說,“DeepSeek 根本不是盲目的和你打價格戰,它是真的便宜。”
並且,第一波實測 DeepSeek v3 的用戶都對其難以置信。一位用戶表示,“Deepseek V3 在我不需要解釋任何事情的情況下就理解了正在發生的事情。”
還有一位用戶把此前一個拋給 O1 和 Gemini 2.0 但 O1 沒答對的“史上最難的高考數學題”發給了 DeepSeek v3,該模型不僅可以回答這個問題,而且解決方案更簡單。
https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/
https://analyticsindiamag.com/ai-news-updates/deepseek-v3-is-the-best-open-source-ai-model/