☰

阿里Qwen猛追DeepSeek

作者 | 劉寶丹

編輯 | 黃昱

46天前，DeepSeek-R1正式發佈，並同步開源模型權重，App也做了更新。此後，DeepSeek火遍全球，帶領中國AI向前邁出一大步。46天之後，阿里複製了這一路徑。

3月6日凌晨，阿里發佈並開源全新的推理模型通義千問QwQ-32B，該模型整體性能比肩DeepSeek-R1，並將部署成本進一步降到了消費級顯卡水平上。同時，用戶也可通過通義APP免費體驗該模型。

這意味着，繼DeepSeek、騰訊、月之暗面等公司之後，阿里也正式推出了深度推理模型，這將加速模型在更復雜場景的應用落地。

千問QwQ-32B是阿里探索推理模型的最新成果，推理能力疊加低消耗，使得該模型適合快速響應或對數據安全要求高的應用場景。不過，多位業內人士均對華爾街見聞表示，該模型的市場反饋還需要一段時間觀望。

當日收盤，阿里港股報140.8港元，創近三年新高，當日股價漲幅8.39%。年初以來，阿里股價漲幅超過70%，市值達2.68萬億港元。當日美股收盤，阿里股價微跌0.77%。

這場全球AI競賽正處於關鍵的攻堅階段，阿里的硬仗纔剛剛開始。

追趕DeepSeek

DeepSeek是當前最受青睞的AI大模型，如今，阿里準備取而代之。

這次，阿里發佈的通義千問QwQ-32B屬於中等參數模型，它最大的亮點是做到了大參數推理模型才具備的效果，很大程度上證明了，參數規模不再是模型性能的決定性因素。

根據阿里公佈的一系列權威基準測試，千問QwQ-32B模型表現異常出色，幾乎完全超越了OpenAI-o1-mini，比肩最強開源推理模型DeepSeek-R1，後者擁有6710億參數。

比如，在測試數學能力的AIME24評測集上，以及評估代碼能力的LiveCodeBench中，千問QwQ-32B表現與DeepSeek-R1相當，遠勝於o1-mini及相同尺寸的R1蒸餾模型。在LiveBench、谷歌等提出的IFEval評測集、由加州大學伯克利分校等提出的BFCL測試中，千問QwQ-32B的得分均超越了DeepSeek-R1。

千問QwQ-32B在保持強勁性能的同時，大幅降低了部署使用成本。阿里表示，該模型在消費級顯卡上也能實現本地部署。

北京星漢未來創始人、CEO劉道儒對華爾街見聞表示，DeepSeek-R1滿血版是671B，對部署配置要求非常高，需要至少8張A100顯卡，QwQ-32B的話，英偉達4090的增強版就能部署，成本是R1的1/10以內，會更利於推理模型的應用和普及。

千問QwQ-32B更高的性價比背後，得益於阿里採取了不同的技術路線。華爾街見聞從內部人士處獲悉，該模型採用了密集架構（Dense），而DeepSeek是混合專家系統（MoE），Dense和MoE是模型架構的兩種形態。

該人士進一步表示，阿里通義團隊在冷啓動基礎上，針對數學和編程任務、通用能力分別進行了兩輪大規模強化學習，在32B的模型尺寸上獲得了令人驚喜的推理能力提升，印證了大規模強化學習可顯著提高模型性能。

阿里雲內部員工稱，推理模型內部做了很久，公司從年初二就開始加班，至今沒有在半夜兩點之前下過班，現在也是這個狀態，公司上週發佈了預覽版，緊接着這周就發佈正式版並開源。

在業內看來，千問QwQ-32B進一步降低了模型的應用成本，尤其該模型既能提供極強的推理能力，又能滿足更低的資源消耗需求，適合快速響應或對數據安全要求高的應用場景，開發者和企業可以在消費級硬件上將其部署到本地設備中，打造AI解決方案。

目前，千問QwQ-32B已在魔搭社區、HuggingFace及GitHub等平臺基於寬鬆的Apache2.0協議開源，所有人都可免費下載模型進行本地部署。用戶也將可通過通義APP免費體驗最新的千問QwQ-32B模型。

對於雲端部署需求，用戶可通過阿里雲PAI平臺完成快速部署，並進行模型微調、評測和應用搭建；或是選擇容器服務ACK搭配阿里雲GPU算力，實現模型容器化部署和高效推理。

三年豪擲3800億

如果說DeepSeek帶火了中國AI產業，那阿里無疑是承接這一波AI紅利的贏家之一。

2月24日，阿里巴巴集團CEO吳泳銘宣佈，未來三年，阿里將投入超過3800億元，用於建設雲和AI硬件基礎設施，總額超過去十年總和。這也創下中國民營企業在雲和AI硬件基礎設施建設領域有史以來最大規模投資紀錄。

阿里對AI進行了廣泛的佈局，包括雲計算、模型以及自身生態體系的應用，但歸根到底，阿里最看重的主線是支撐AI應用的雲計算市場。

2月21日，在最新季度電話會上，阿里表示，阿里AI戰略的首要目標是追求實現AGI，不斷突破模型智能能力邊界，智能就是AI模型背後輸出的token，未來90%的token將在雲計算網絡上生成和輸出，通過阿里雲遍佈全球的數據中心，才能以更快的方式輸送給全球開發者。

對阿里來說，一個重要策略就是開源。作爲國內最早開源自研大模型的大廠，阿里雲在業界率先實現“全尺寸、全模態、多場景”開源。

在QwQ-32B之前，阿里今年已經先後開源了100萬Tokens上下文的Qwen2.5-1M模型，以及視覺模型Qwen2.5-VL。去年11月，阿里開源了通義千問代碼模型全系列，共6款Qwen2.5-Coder模型。

2023年至今，阿里通義團隊已開源200多款模型，包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列，開源囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態，覆蓋從0.5B到110B等參數。

據阿里內部人士介紹，截至目前，海內外AI開源社區中千問Qwen的衍生模型數量突破10萬，超越美國Llama系列模型，成爲全球最大的開源模型族羣。

在劉道儒看來，模型開源最有利的還是阿里雲等雲廠商，模型門檻降低了，但算力的門檻還是很高的，不管推理還是訓練都需要用到大規模的GPU算力，因此阿里全力推動開源。

阿里雲首席技術官周靖人曾對華爾街見聞表示，希望能以開放心態把先進技術開源出來，讓大家做並行探索。AI產品也一樣，通過開源的體系跟企業一起探索，不僅僅是模型能力提升，更重要的是基於模型能夠做什麼，把它的前景和潛力深入地挖掘出來。

不過，阿里QwQ-32B開源後的效果還需要時間來進一步觀察。有業內人士表示擔憂，當前推理模型主要是用來做數學題和寫代碼，但DeepSeek出圈的是文學創作和思想性的內容，從用戶視角達到“比肩”效果並不容易。

可以確定的是，開源已經成爲AI發展的主流。DeepSeek通過開源周活動公佈了最新技術進展，包括FlashMLA、DeepEP、DeepGEMM和3FS四個開源項目，以及DualPipe、EPLB等代碼庫，並在最後一天披露了理論上的成本利潤率545%這一數字。

3月6日，騰訊混元發佈圖生視頻模型並對外開源。目前，混元開源系列模型在Github累計獲得超2.3萬開發者關注和star（星標）。百度近日也宣佈，文心大模型4.5將於3月16日發佈，並於6月30日正式開源。

2月18日，階躍星辰首次開源，將開源視頻生成模型Step-Video-T2V和開源語音交互大模型Step-Audio向全球開發者開源。更早之前，MiniMax開源了MiniMax-01全新系列模型，包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。

同期，月之暗面也公佈了稀疏注意力技術——MoBA（MixtureofBlockAttention），這是一種受專家混合（MoE）和塊稀疏注意力（BlockSparseAttention）啓發的注意力架構，能夠在全注意力和稀疏注意力模式之間無縫切換，使其成爲長上下文任務的有效解決方案。

各家AI公司紛紛拿出自己壓箱底兒的技術路線背後，AI行業已經從最初的技術競賽大步邁向應用落地，後者將是2025年AI公司最激烈的戰場。

打響AI應用之戰

開源已經成爲多數AI企業的選擇，甚至在很多人眼裡，是否開源關係着公司能否在這場AI軍備賽中拔得頭籌。

在上述內部人士看來，行業最早開源是一個無奈之舉，因爲大家的水平跟OpenAI開發的GPT差距比較大，需要追趕，如果不開源，差距只會越來越大，現在開源模型和GPT的能力已經很小，現在開源更多是搶佔行業話語權。

階躍星辰創始人、CEO姜大昕表示，開源是希望分享最新技術成果，更重要的是，多模態模型是實現AGI的必經之路，目前尚處於早期階段，需要開發者集思廣益，共同拓展模型技術邊界，並推動產業落地。

“不開源就開除。”一位提供AI雲基礎設施的公司高管對華爾街見聞表示，今年春節前後，DeepSeek陸續開源了基礎模型和推理模型，其他模型公司被逼得沒有辦法，不開源都活不下去，也融不到錢。

多位業內人士表示，當前行業對開源模式的強烈推崇，本質在於，開源已成爲推動技術迭代、生態構建、市場擴張的核心策略，而閉源或“僞開源”模式則可能因技術壁壘難以維繫或生態封閉性逐漸失去競爭力。

不過，開源也帶來了商業化上的挑戰。對很多AI模型廠商來說，此前的主要收費方式是按Token給API定價，如今將模型權重開源之後，如何實現盈利的可持續增長成爲亟需破解的難題。

一位AI模型廠商內部人士表示，這可能會倒逼模型公司重新思考商業模式，公司的商業重心會往服務端走。模型落地要考慮的問題非常多，如果應用在生產環節，要考慮產品設備的穩定性和性能，模型需要很多配套的工具鏈。“提供企業級服務是未來比較有商業價值的地方。”

劉道儒認爲，開源之後模型微調、蒸餾等需求也會劇增，微調、蒸餾還是有門檻的，其他模型公司可以幫助企業在垂直場景落地。此外，像多模態大模型、語音大模型等不同類型的大模型由於通用性不強、算力要求高，也相對適合其他大模型廠商。

目前，AI大模型廠商已經開始把重點放在垂類應用上，以期打造出差異化競爭力。3月3日，AI獨角獸百川智能啓動了一輪裁員，金融行業ToB業務團隊被裁撤，員工當天就簽署了離職協議。

華爾街見聞從百川內部獲悉，公司優化金融業務是爲了集中資源，聚焦核心優勢業務，加速實現“造醫生、改路徑、促醫學”的願景。據瞭解，百川與北京兒童醫院共同研發的AI兒科醫生已在疑難病例的頂級專家會診中正式“上崗”。

AI Agent被認爲是2025年AI落地的最重要產品形態。3月6日，全球首款通用AI Agent Manus迅速火爆整個社交圈，它在寫文章、做PPT、寫分析報告等能力上表現出色，雖然目前仍有不少質疑聲，但Manus爆火本身說明，市場對AI Agent已經有了很大期待。

目前，智譜、MiniMax和階躍星辰等都在大力發展AI Agent。長上下文能力與多模態處理能力的提升，是發展AI Agent的必要條件，這也被認爲是AI創業公司接下來最重要的機遇。

去年12月，智譜披露了Agent新進展，公司發佈的AutoGLM可以自主執行超過50步的長步驟操作，也可以跨app執行任務，AutoGLM被認爲是邁向AI智能操作系統的重要嘗試。近日，智譜與三星達成合作，未來會將Agent體驗帶到三星最新手機GalaxyS25系列上。

此外，千問QwQ-32B模型也集成了與智能體Agent相關的能力，使其能夠在使用工具的同時進行批判性思考，並根據環境反饋調整推理過程。阿里通義團隊表示，未來將繼續探索將智能體與強化學習的集成，以實現長時推理，探索更高智能進而最終實現AGI的目標。

在經過兩年的AI技術競賽後，AI市場正在迎來新一輪大洗牌，阿里、騰訊、字節憑藉各自龐大的生態優勢嶄露頭角，對於AI創業公司來說，未來的機會點仍然是找到差異化能力，並持續打造競爭壁壘。

這會是異常殘酷的淘汰賽，槍聲已經打響了。

阿里Qwen猛追DeepSeek

相關資訊