美國將對H20出口管制和英偉達的“B20+GB20”替代方案

最近關於芯片出口管制比較重要的兩個消息:一個是壞消息,美國投行Jefferies的報告說BIS計劃把英偉達特供中國的H20納入出口管制。好消息是英偉達已經未雨綢繆,打算推出一個芯片+服務器的替代方案B20+GB20。

關於H20,我在中有詳細介紹。這種芯片雖然是“閹割版”,但還是能提供每秒可執行296萬億次8位整數操作(INT8 TOPS)或者浮點操作(FP8 TFLOPS),擁有96GB的第三代高帶寬內存,內存帶寬可以達到每秒4.0TB,這些特點讓H20在入門級GPU芯片中表現非常突出。儘管紙面性能不如一些高端型號的GPU,但實際應用中,由於內存性能的優勢,它在許多情況下比華爲的Ascend920系列要勝出一籌。據說國內公司已經訂購了近50多萬塊H20,總價值高達58億美元,將在今年年內交付。

從2022年10月起,BIS每年10月更新對華半導體出口管制規則似乎已形成慣例,英偉達推出的A100、H100的閹割版A800、H800在2023年10月那次規則更新後被管制。如無意外,H20大概率會被今年10月的規則更新禁掉。商務部有多種方法可以實現,比如對H20芯片本身進行管制,或者針對計算能力、內存容量劃更低的禁止線,讓H20落入管制的範圍。

英偉達可能已經瞭解到H20未來會被禁,正在提前設計替代方案。根據美國科技媒體的說法,英偉達明年會推出一款專供中國市場的GPU芯片B20。這種芯片是英偉達三月份發佈的Blackwell系列芯片的減配版,計算速度比Blackwell慢。但爲了彌補算力的缺陷,英偉達打算給這個芯片搭配一個服務器GB20,希望通過在其中同時安裝大量B20芯片,以數量優勢對衝計算速度缺陷。

消息人士透露,預計英偉達會在今年晚些時候開始量產B20,計劃在2025年第二季度開始出貨,由英偉達在中國的主要合作伙伴浪潮進行分銷。

現在還不清楚B20的性能參數,但很多分析認爲它會是一款入門級產品,和Blackwell系列的旗艦GPU B200不是一個等級。

美國對出口到中國的 GPU 實施嚴格的性能規定,使用一種稱爲 "總處理能力" (Total Processing Power, TPP) 的指標,TFLOPS(每秒執行的萬億次浮點運算,即計算能力)乘以精度位數(計算中使用的數據位數,例如 8 位FP8、16 位FP16或 32 位FP32,精度越高,每個數據點使用的位數越多,計算的準確性也越高),就能算出TPP。

我們知道目前BIS對數據中心GPU出口管制紅線是兩個指標:計算能力4800TPP,"性能密度" (Performance Density,即TPP分數除以芯片尺寸即可得到的數字)6.0,任何一個超了都會被管制。

H100和H200的TPP都是16000,遠超紅線,所以被管制。Blackwell系列芯片的計算能力更高,其在一塊芯片上集成兩個獨立的計算核心的雙晶體設計,可以輸出約4500TFLOPS 的FP8計算能力,也就是說TPP高達36000,是紅線(4800)的7.5倍。即使是比B200稍微差一些的B100也能提供3.5PFLOPS的密集FP8計算能力(28000TPP)。Blackwell系列的PD也明顯超標,因此,英偉達需要大幅削弱B20的性能,要不就是使用面積更大的芯片,才能合規。

爲了好懂,我以一個類比的方式解釋英偉達計劃推出的B20+GB20解決方案的原理。你可以把英偉達想象成一個廚師學校,剛培訓了一個新的廚師團隊(Blackwell系列芯片),都是做飯又快又好的大廚。中國的五星級餐廳想讓這些廚師來做大型宴會的餐飲,但是,美國不讓這些廚師進到中國服務。英偉達想了個辦法,派了一組次一點的廚師(B20)來,同時還搭配了大廚房(服務器GB20)。這些次一點的廚師在大廚房裡配合着工作,通過數量優勢發現還是能完成任務。

據瞭解,英偉達還計劃在GB20機架設計中整合NVLink技術,提高B20芯片之間的數據傳輸速度,同時加入新的冷卻解決方案,降低計算的功耗。

還是用廚師打比方去解釋這個設計:爲了確保大型宴會後廚做菜和上菜的速度,你把廚房的儲物櫃和冰箱升級成了更大容量的,這樣就可以一次性存放更多食材,不用頻繁補充(增加內存容量以便一次處理更多數據)。你還在廚房裡安裝了高速傳送帶,能把食材從儲物櫃和冰箱快速傳送到廚房各個烹飪區(加快內存和芯片間的數據傳輸速度);在各個烹飪區之間還安裝了對講機系統,讓廚師們可以快速溝通協作(GB20機架整合NVLink,使多塊不同芯片間能快速通信)。最後,你還很貼心地給廚房安裝了強大的通風和冷卻系統,確保廚房不會因爲高強度工作而太熱(確保芯片在高負載下運行的冷卻解決方案)。

這樣一來,就能形成多個B20組成的高效計算集羣,訓練AI模型時可以把訓練數據分割成好多部分,讓多塊B20並行處理這些不同部分的數據,大大縮短訓練時間,且不會導致芯片因爲功耗過高而很快發燙。這樣一番操作,單獨每塊芯片和每個GB20服務器都不違反出口管制,但B20在GB20服務器裡整合起來用於大模型訓練的表現也不錯。

英偉達這招既能確保B20比華爲Ascend 920系列芯片表現更好,同時也能滿足美國出口管制的要求。這本質上還是一場“貓鼠遊戲”,只能說英偉達太想要繼續在中國市場賺錢了,對雷蒙多的威脅不屑一顧(畢竟明年民主黨還在不在臺上難說地很)。

過去一段時間,美國國內對芯片出口管制效果的質疑和反思越來越多,出現了一些比較客觀冷靜的分析。比如CSIS最近的一個報告,基於紐約聯邦儲備銀行4月份的數據,指出芯片出口管制導致美國公司收入下降、市值減少、全球競爭力變弱,用在創新和研發上的投入變少。許多美國公司因爲出口管制失去了中國的大客戶,但卻沒能找到新客戶來替代和彌補。即使是不受出口管制影響的中美公司之間的商業合作也受到了影響,因爲中國公司擔心未來可能會受到限制,不願再深化和美國公司的合作。出口管制還影響了美國公司和第三國公司的合作,因爲第三國公司很多和中國有生意,更傾向於選擇穩定的供應來源,而不是依賴於供應經常受出口管制影響的美國公司。

昨天“外交事務”也發表了一篇文章,持有類似的觀點。這篇文章認爲:當前美國的戰略是有缺陷的,過分關注拖慢中國的發展,卻導致美國公司因被迫退出中國市場而收入下降,連帶影響了研發投入。出口管制還無意中加速了中國國內半導體行業的發展,創造出了對中國本土設備、製造能力和AI芯片的新需求。美國應該更多地專注於自己的技術進步和創新能力,加大對下一代計算技術,如光子計算、神經形態計算和量子計算等領域的投資,這纔是領先中國的取勝之道。

但民主黨政府醞釀了大半年的一系列對華科技限制措施,已是箭在弦上,不在大選前發出來是不可能的。10月份左右臨近選舉日的那段時間,估計會有一波措施密集出來,如商務部半導體出口管制規則更新、雲服務限制,財政部反向CFIUS,司法部數據跨境新規等等。而可能的特朗普第二任期是會延續這些限制措施,還是有自己的想法,目前還不太能看出端倪。