傳英偉達取消雙機架 72 GPU GB200 開發,聚焦單機

據分析師郭明錤在 Medium 上的說法,英偉達正在停止其雙機架 72 路 GB200 型 NVL36×2 的開發,以便專注於單機架的 NVL72 和 NVL36。他是一位知名分析師,似乎對此事有內部消息。單機架 NVL36 和 NVL72 機器將按計劃推向市場,據說這一決定是受到有限的資源和客戶偏好的驅動。然而,此前的報告表明,雙機架 NVL36×2 將是英偉達客戶中最受歡迎的選擇。

該公司最初計劃基於 Blackwell GPU 爲 AI 和 HPC 工作負載開發三款 GB200 型號:NVL36、NVL72 和 NVL36×2。然而,管理這三個項目變得頗具挑戰性,特別是同時處理兩個不同的 72-GPU 版本(NVL72 和 NVL36×2)所具有的複雜性。因此,英偉達現在只專注於 NVL72 和 NVL36。

英偉達的 GB200 NVL72 機架包含 18 個計算托盤和 9 個 NVSwitch 托盤(18 個 NVSwitch ASIC),每個托盤裝着兩塊 Bianca 板,每塊板有一個 Grace CPU 和兩個 Blackwell GPU。這是英偉達最強勁的產品,不過它也是最費電的解決方案,因爲它的功耗大概是 120 千瓦。

半分析公司 預計這種配置的使用會受到限制,由於其極高的功率和密度要求(典型的機架功率是 12 千瓦,而基於 H100 的機架大約消耗 40 千瓦),大多數數據中心無法支持。然而,有一個主要客戶計劃進行廣泛部署,郭明錤稱微軟明顯更傾向於 NVL72 而非 NVL36×2。

GB200 NVL36×2 由兩個相互連接的機櫃組成,最初預計這會是更常用的配置。每個機櫃有 18 個 Grace CPU 和 36 個 Blackwell GPU,72 個 GPU 之間保持完全連接。然而,它需要 36 個 NVSwitch 專用集成電路(ASIC),因此比一個 NVL72 消耗的功率更多,而且性能略低。預計一個 GB200 NVL36×2 每個機櫃消耗 66kW(總計 132kW),略高於 NVL72,儘管它較大的尺寸與現有的數據中心更兼容。

GB200 NVL72 比 GB200 NVL36×2 在空間利用方面高效得多。然而,大多數英偉達客戶難以滿足 NVL72 的功率和散熱密度要求。此外,據郭明錤所說,這些複雜性可能會將 GB200 NVL72 的發貨時間推遲至 2025 年下半年。不過,此前有報道指出,部分 NVL72 型機器 將於今年 12 月交付,可能交付給微軟。

“我最新的供應鏈調查顯示,NVL72 的大規模生產可能會推遲到 2025 年下半年(相較於英偉達樂觀設定的 2025 年上半年的目標),”郭明錤寫道。

今年早些時候,英偉達在爲人工智能和高性能計算(HPC)封裝其B100 和 B200 GPU 時遇到了導致產量下降的問題,這促使它生產低產量的 Blackwell 硬件以滿足需求,並改進這些處理器的設計。改進後的 GPU 要到 10 月下旬纔開始大規模生產,因此要到 1 月下旬才能投入使用。在這種情況下,針對那些追求最大性能、要求最爲苛刻的客戶,專注於基於 GB200 的 NVL72 設計對英偉達而言絕對是合情合理的。

還需要指出的是,搭載布萊克韋爾處理器的 x86 服務器要到 2025 年纔會推出。在現階段,這些機器的外形尺寸仍未知,初步報告指向 NVL72 和 NVL36×2 機器。現在很可能首先轉向 NVL72 和 NVL36 機架,定製的第三方解決方案隨後登場。