NVIDIA HGX 平台

為每個資料中心大幅提升 AI 與高效能運算。

概覽

為每個資料中心強化 AI 與高效能運算

NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA Vera CPUNVIDIA NVLink™NVIDIA 網路的完整功能,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,為每個資料中心提供最高的應用程式效能,並實現最快的洞察時間。

NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,提供比 HGX B200 高 5.5 倍的 NVFP4 FLOPS,帶動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA HGX Rubin NVL8 可搭配使用 NVIDIA Vera CPU 或 x86 架構的 CPU 基礎板。

NVIDIA 以 Vera Rubin 為新一代 AI 揭開序幕

新一代平台擴大了主流運用,透過五項突破性技術,提升推理與代理型 AI 效率,降低每個詞元(token)的成本。

NVIDIA Vera CPU

NVIDIA Vera 是專為新一代自主型 AI 系統所打造,能在資料中心規模下,提供強化學習與自主型工作負載所需的效能。客製化設計的 CPU 核心、高頻寬 LPDDR5X 記憶體子系統,以及 NVIDIA Scalable Coherency Fabric (SCF),可在提供加速運算的同時支援軟體環境——在最大化 AI 工廠傳輸量的同時,實現更優異的能源效率。

AI 推理效能與多功能性

AI、複雜的模擬與大規模資料集,必須以多顆 GPU 搭配超高速互連技術,以及完整加速的軟體堆疊。NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™ 與 NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為各個資料中心提供深入解析。

無與倫比的端到端加速運算平台

NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,推論效能比前一代提升了 11 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA HGX 包含先進的網路選項,速度最高每秒 800 Gb,採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum™-X 乙太網路,締造最高的 AI 效能。HGX 還包含 NVIDIA BlueField®-3 資料處理器 (DPU),可在超大規模 AI 雲端實現雲端網路、組合式儲存空間、零信任安全性,以及 GPU 運算彈性。

AI 推理效能與多功能性

DeepSeek-R1 ISL = 32K,OSL = 8K,HGX B300 搭配 FP4 Dynamo 分散式架構。H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。

增加營收 xx AI 工廠產出

前沿曲線展示決定 AI 工廠 Token 收益產量的關鍵參數。垂直軸表示 1 兆瓦 (MW) AI 工廠的每秒 GPU Token (TPS) 傳輸量,而水平軸則將使用者互動與回應能力量化為單一使用者的 TPS。HGX B300 在傳輸量與回應能力之間取得了最佳的平衡,相較於 NVIDIA Hopper™ 架構,AI 工廠產出效能整體提升 30 倍,締造最高的 Token 收益。

大型 AI 模型的可擴充訓練

全新境界的訓練效能

HGX B300 平台為 DeepSeek-R1 等大型語言模型提供最高 2.6 倍的訓練效能。這款平台具備逾 2 TB 的高速記憶體,以及每秒 14.4 TB 的 NVLink Switch 頻寬,可實現大規模模型訓練以及 GPU 間的高傳輸量通訊。

預期效能可能會有所變更。每 GPU 效能、FP8、16K BS、16K 序列長度。

以 NVIDIA 網路技術加速 HGX 平台

AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。

NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。

NVIDIA HGX 規格

NVIDIA HGX 提供單一基板配置,內含八個 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM,並可搭配 NVIDIA Vera CPU 或基於 x86 架構的基板使用。這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。

HGX Rubin NVL8*
尺寸規格 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>1</sup> 280 PFLOPS
FP8/FP6 Training<sup>1</sup> 140 PFLOPS
INT8 Tensor 核心<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor 核心<sup>1</sup> 32 PFLOPS
TF32 Tensor 核心<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor 核心 264 TFLOPS
FP32 SGEMM | FP64 DGEMM核心<sup>2</sup> 3200 TF | 1600 TF
總記憶體 2.3 TB
NVIDIA NVLink 第六代
NVIDIA NVLink Switch NVLink 6 交換器
NVLink GPU 對 GPU 頻寬 3.6 TB/s
NVLink 總頻寬 28.8 TB/s
網路頻寬 1.6 TB/s

* 初步規格,可能有所變更。
1. 高密度規格。
2. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

HGX B300<sup>3</sup> HGX B200<sup>3</sup>
外形規格 8個 NVIDIA Blackwell Ultra SXM 8個 NVIDIA Blackwell SXM
FP4 Tensor 核心<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 核心<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor 核心<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor 核心<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor 核心<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor 核心 10 TFLOPS 296 TFLOPS
總記憶體 2.1 TB 1.4 TB
NVIDIA NVLink 第五代 第五代
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU 對 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
總 NVLink 頻寬 每秒 14.4 TB 每秒 14.4 TB
網路頻寬 每秒 1.6 TB 每秒 0.8 TB
注意效能<sup>3</sup> 2x 1x

1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
4. HGX B300 與 HGX B200 現正出貨中

深入瞭解 NVIDIA Vera Rubin 平台。