AMD發佈最強AI芯片,對標英偉達Blackwell,2025年上市

機器之心報道

編輯:澤南、陳陳

從 PC 端到服務器,AMD 一次發佈就完成了對 AI 計算的全覆蓋。

今天凌晨,AMD 首席執行官蘇姿豐(Lisa Su)在舊金山舉行的 Advancing AI 2024 活動上發佈了全新一代 Ryzen CPU、Instinct AI 計算卡、EPYC AI 芯片等一系列產品。

蘇姿豐表示,在未來,人工智能將提高每個人的生產力。通過實時翻譯等功能,人與人的協作將變得更加高效,無論創作者還是普通用戶,生活都將變得更輕鬆。除此以外,更多的 AI 任務將在本地進行處理,以保護你的隱私。

基於這樣的願景,新一代 AMD Ryzen AI Pro PC 將支持 CoPilot+,並提供多至 23 小時的電池續航時間。

「我們一直與 AI PC 生態系統開發人員密切合作,」蘇姿豐說道,並指出到今年年底將有 100 多家公司致力於開發 AI 應用程序。

Ryzen AI Pro:AI PC 專用 CPU 問世

首先是 CPU。AMD 今天推出了專爲 PC 設計的全新 Ryzen AI Pro 300 系列處理器。新款 CPU 採用 4nm 工藝打造,使用該公司最新的微架構,結合 GPU 與 Microsoft Copiliot+ 認證的神經處理單元 (NPU),可實現 55 TOPS 性能的 AI 算力。

AMD Ryzen AI Pro 300 系列 CPU 處理器代號爲 Strix Point,最多有 12 個 Zen 5 核心、RDNA 3.5 GPU,最多 1024 個流處理器,包含最新的 XDNA 2 NPU,性能爲 50 TOPS – 55 TOPS(8-bit),以及一組適用於商用 PC 的功能,如遠程管理、增強的安全功能(內存加密、安全啓動過程、AMD 安全處理器 2.0、TPM 2.0)、雲恢復和看門狗定時器。

目前,AMD 的 Ryzen AI Pro 300 系列產品線包括三種樣式:最高端的 12 核 Ryzen AI 9 HX Pro 375,配備 55 TOPS NPU;速度稍慢的 12 核 Ryzen AI 9 HX Pro 370,配備 50 TOPS 算力的 NPU;以及八核的 Ryzen AI 7 Pro 360,配備 50 TOPS 的 NPU。

與英特爾 Core Ultra 7 165U 相比,最高版本的 Ryzen AI 9 HX PRO 375 可提供高達 40% 的性能提升和高達 14% 的生產力提升。

與往常一樣,HX 版本的 TDP 高達 55W,面向高性能筆記本電腦(包括一體機),而常規處理器的 TDP 可以固定爲低至 15W。

與上代 AMD Ryzen Pro 7040 系列處理器相比,Ryzen AI Pro 300 不僅具有顯著更高的通用和圖形性能,而且還支持微軟的 Copilot+ 功能,其將在 11 月的下一次 Windows 更新中推出。AMD 在發佈活動中宣傳了 Copilot+ 的實時字幕和實時翻譯、Cocreator 以及頗具爭議的 Recall 功能 —— 這些都是新 CPU 支持的關鍵能力。

除此之外,其中的 NPU 還支持各種第三方軟件供應商帶來的 AI 增強應用,例如來自 Adobe、Bitdefender、Blackmagic Design 和 Grammarly 等公司的產品。

AMD 表示,到 2025 年,Ryzen AI Pro 平臺將搭載於超過 100 款產品中,惠普和聯想將率先在其商用 PC 上採用 Ryzen AI Pro 300 系列處理器。

對標英偉達最強 AI 芯片:Instinct MI355X 加速卡

最近,全球 AI 芯片供不應求,AMD 已成爲 GPU 領域的重要玩家,今天該公司宣佈了最新的 AI 加速器和用於 AI 基礎設施的網絡解決方案。

具體而言,AMD 推出了 AMD Instinct MI325X 加速器、AMD Pensando Pollara 400 網絡接口卡 (NIC) 和 AMD Pensando Salina 數據處理單元 (DPU)。

AMD 聲稱 AMD Instinct MI325X 加速器爲 Gen AI 模型和數據中心樹立了新的性能標準。

AMD Instinct MI325X 加速器基於 AMD CDNA 3 架構構建,旨在爲涵蓋基礎模型訓練、微調和推理等要求苛刻的 AI 任務提供性能和效率。

AMD Instinct MI325X 加速器提供了業界領先的內存容量和帶寬,256GB HBM3E 支持 6.0TB/s,比英偉達 H200 提供了高 1.8 倍的容量和 1.3 倍的帶寬。與 H200 相比,AMD Instinct MI325X 的峰值理論 FP16 和 FP8 計算性能提高了 1.3 倍。

這種領先的內存和計算性能,較於英偉達 H200,能夠在 FP16 精度下,爲 Mistral 7B 模型提供高達 1.3 倍的推理性能,在 FP8 精度下爲 Llama 3.1 70B 模型提供 1.2 倍的推理性能,同時在 FP16 精度下爲 Mixtral 8x7B 模型提供 1.4 倍的推理性能。

AMD Instinct MI325X 加速器目前有望在 2024 年第四季度投入生產,預計從 2025 年第一季度開始將在包括戴爾、Eviden、技嘉、惠普、聯想等在內的衆多平臺提供商的系統中廣泛使用。

此外,AMD 還更新了其年度路線圖,即下一代 AMD Instinct MI350 系列加速器。基於 AMD CDNA 4 架構,AMD Instinct MI350 系列加速器的推理性能比基於 AMD CDNA 3 的加速器提高了 35 倍。

具體來說,MI300X 目前能提供 1.3 petaflops 的 FP16 算力和 2.61 petaflops 的 FP8。相比之下,MI355X 將分別將其提升至 2.3 和 4.6 petaflops。與上一代相比,這個數字提高了 77%。

MI355X 不僅擁有更多的原始計算能力。FP4 和 FP6 數字格式的引入使潛在算力相對於 FP8 再次翻倍,因此單個 MI355X 可提供高達 9.2 petaflops 的 FP4 計算能力。這是一個有趣的數字,因爲英偉達 Blackwell B200 也提供了 9 petaflops 的密集 FP4 計算能力 —— 功率更高的 GB200 可以爲每個 GPU 提供 10 petaflops 的 FP4。

僅基於該規格,AMD 的 MI355X 可能提供的 AI 計算能力與英偉達的 Blackwell 大致相同。然而,AMD 還將提供高達 288GB 的 HBM3E 內存,這比目前 Blackwell 的內存多出 50%。Blackwell 和 MI355X 的每塊 GPU 都將具有 8 TB/s 的帶寬。

AMD Instinct MI350 系列加速器有望在 2025 年下半年上市。

「毫無疑問,AMD 憑藉 EPYC 拉大了與英特爾之間的差距。目前,它在高端市場佔有 50-60% 的份額,而且我認爲這一趨勢不會減弱。AMD 面臨的最大挑戰是獲得企業市場份額。AMD 需要在銷售和營銷方面投入更多資金,以加速其企業增長,」Moor Insights & Strategy 分析師 Patrick Moorhead 表示。「很難評估 AMD 與 NVIDIA 在數據中心 GPU 方面的地位。到處都有數據,兩家公司都聲稱自己更勝一籌。」

Moohead 補充道:「我可以毫不含糊地說,AMD 的新 GPU,尤其是 MI350,與前代產品相比,效率和性能都有所提高,對低比特率模型的支持也更好,這是一個巨大的進步。這是一場激烈的競逐,英偉達遙遙領先,AMD 正在迅速追趕並取得了有意義的成果。」

AMD 下一代 AI 網絡互聯技術

AMD Pensando

AMD 正在利用可編程 DPU 爲超大規模計算提供動力,爲下一代 AI 網絡提供支持。

AI 網絡分爲兩部分:前端(向 AI 集羣提供數據和信息)和後端(管理加速器和集羣之間的數據傳輸)。

爲了有效管理這兩個網絡並推動整個系統朝着高性能、可擴展和高效率發展,AMD 推出了用於前端的 AMD Pensando Salina DPU 和用於後端的 AMD Pensando Pollara 400。

AMD Pensando Salina DPU 是全球性能最高、可編程性最強的第三代 DPU,與上一代相比,其性能、帶寬和規模提高了兩倍。AMD Pensando Salina DPU 支持 400G 吞吐量,可實現快速數據傳輸速率,是 AI 前端網絡集羣中的關鍵組件。

AMD Pensando Pollara 400 搭載了 AMD P4 可編程引擎,是業界首款支持 UEC(Ultra Ethernet Consortium) 的 AI NIC。它支持下一代 RDMA 軟件,並由開放的網絡生態系統提供支持。

AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 均於 2024 年第四季度向客戶提供樣品,並有望於 2025 年上半年上市。

用於生成式 AI 的 AI 軟件

AMD 在舊金山舉行的「Advancing AI 2024」活動。

AMD 將對軟件功能和開放生態系統進行投資,以在 AMD ROCm 開放軟件堆棧中提供強大的新特性和功能。

在開放軟件社區中,AMD 正在推動 AI 框架、庫和模型(包括 PyTorch、Triton、Hugging Face 等)對 AMD 計算引擎的支持。這項工作使得 AMD Instinct 加速器在流行的生成式 AI 模型(如 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2)以及 Hugging Face 上的一百多萬個模型上提供開箱即用的性能和支持。

除了社區之外,AMD 還繼續推進 ROCm 開放軟件堆棧,爲用戶帶來最新功能以支持生成式 AI 工作負載的領先訓練和推理。

現在,ROCm 6.2 支持很多 AI 應用,例如 FP8 數據類型、Flash Attention 3、Kernel Fusion 等。與 ROCm 6.0 相比,ROCm 6.2 在推理方面提供了 2.4 倍的性能改進,在各種 LLM 的訓練方面提供了 1.8 倍的性能改進。

第五代 AMD Epyc CPU

在服務器端,Zen 架構已經讓 AMD 的市場份額從 2017 年的零上升到 2024 年第二季度的 34%。

AMD 揭開了其全新 Zen 5 架構服務器 CPU 系列的詳細細節。第五代 EPYC「Turin」處理器 CPU 適用於企業、AI 和雲服務用例。

AMD 已將其具有全功能 Zen 5 內核的標準擴展優化模型和具有密集 Zen 5c 內核的擴展優化模型統一爲一個堆棧,該堆棧以 EPYC 9005 Turin 爲名,與英特爾的競爭對手 Xeon 處理器相比,性能表現令人印象深刻。

AMD 聲稱,其旗艦產品 192 核 EPYC 9965 比英特爾競爭對手的旗艦產品 Platinum 8952+ 快 2.7 倍,速度提升顯著。在具體應用方向上,還包括視頻轉碼速度提高 4 倍、HPC 應用程序性能提高 3.9 倍、虛擬化環境中每核性能提高 1.6 倍。AMD 還宣佈推出其新的高頻 5GHz EPYC 9575F,據稱在用於加速 AI GPU 工作負載時,它比 Zen 4 EPYC 型號要快 28%。

值得注意的是,AMD 並未在本代推出帶有堆疊 L3 緩存的 X 系列型號,而是暫時依賴其 Milan-X 系列。AMD 表示,其 X 系列可能會隔代進行升級。

AMD 的新系列最高端是一款 14813 美元的 192 核 / 384 線程 EPYC 9965,這是一款 500W 功率的龐然大物,利用臺積電的 3nm 節點通過密集的 Zen 5c 內核實現極致的計算密度。還有另外五款 Zen 5c 驅動的型號,包括 96、128、144 和 160 核心的型號,適用於高密度應用。

標準型號的 Zen 5 內核在 4nm 節點上製造,最高可達 128 個內核和 256 個線程 —— 售價 12984 美元的 EPYC 9755。該堆棧共有 22 種型號,從僅僅 8 個內核開始,這是 AMD 爲響應客戶需求而創建的全新小內核級別。AMD 在其產品堆棧中還散佈了四個單插槽「P」系列型號。

AMD 的標準 Zen 5 系列現在包括新的高頻 SKU,最高可達 5.0 GHz,這是 AMD 數據中心 CPU 系列的新高水準,可最大限度地提高 GPU 編排工作負載的性能。AMD 共有五種 F 系列型號,適用於不同級別的性能和內核數。

標準 Zen 5 型號採用多達 16 個 4nm CCD(核心計算芯片,又稱小芯片)。它們與大型中央 I/O 芯片配對,每個 CCD 提供多達 8 個 CPU 核心,TDP 範圍從 155W 到 500W。Zen 5c 型號採用多達 12 個 3nm CCD,每個小芯片有 16 個 Zen 5c 核心,與相同的 I/O 芯片配對。

AMD 聲稱,基於全新 Zen 5 架構的 RPYC 9005 系列的 IPC 增加了 17%。Zen 5 還顯著增加了對 AVX-512 的完整 512b 數據路徑支持,不過用戶也可以選擇在「雙泵」AVX-512 模式下運行芯片,將 512b 指令作爲兩組 256b 發出,從而降低功率要求並提高某些工作負載的效率。

除了旗艦 192 核型號外,所有 Turin 處理器都可以放入現有的服務器平臺採用 SP5 插槽。192 核型號也適用於 SP5 插槽,但需要特殊的電源配置,因此該高端型號需要較新的主板。

Turin 系列僅提供 12 個 DDR5 內存支持通道,每臺服務器的內存容量高達 12TB(每插槽 6TB)。AMD 最初將 Turin 的規格定爲 DDR5-6000,但現在已將其提高到合格平臺的 DDR5-6400。AMD 的平臺僅支持每通道 1 個 DIMM(DPC)。

對於 AMD 來說,目前面臨的環境即是機遇也是挑戰,如何能將架構、製程上的優勢轉化爲勝勢?從今天凌晨的發佈會上,我們或許已經看到端倪。

參考內容:

https://www.youtube.com/watch?v=vJ8aEO6ggOs

https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-reveals-core-specs-for-instinct-mi355x-cdna4-ai-accelerator-slated-for-shipping-in-the-second-half-of-2025

https://www.tomshardware.com/pc-components/cpus/amd-unveils-ryzen-ai-pro-300-cpus-zen-5-and-copilot-pcs-for-businesses-and-enterprise

https://venturebeat.com/ai/amd-unveils-ai-infused-chips-across-ryzen-instinct-and-epyc-brands/