為每個資料中心大幅提升 AI 與高效能運算。
NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA Vera CPU、NVIDIA NVLink™、NVIDIA 網路的完整功能,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,為每個資料中心提供最高的應用程式效能,並實現最快的洞察時間。
NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,提供比 HGX B200 高 5.5 倍的 NVFP4 FLOPS,帶動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA HGX Rubin NVL8 可搭配使用 NVIDIA Vera CPU 或 x86 架構的 CPU 基礎板。
NVIDIA Vera 是專為新一代自主型 AI 系統所打造,能在資料中心規模下,提供強化學習與自主型工作負載所需的效能。客製化設計的 CPU 核心、高頻寬 LPDDR5X 記憶體子系統,以及 NVIDIA Scalable Coherency Fabric (SCF),可在提供加速運算的同時支援軟體環境——在最大化 AI 工廠傳輸量的同時,實現更優異的能源效率。
AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。
NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。
NVIDIA HGX 提供單一基板配置,內含八個 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM,並可搭配 NVIDIA Vera CPU 或基於 x86 架構的基板使用。這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。
| HGX Rubin NVL8* | |
|---|---|
| 尺寸規格 | 8x NVIDIA Rubin SXM |
| NVFP4 Inference | 400 PFLOPS |
| NVFP4 Training<sup>1</sup> | 280 PFLOPS |
| FP8/FP6 Training<sup>1</sup> | 140 PFLOPS |
| INT8 Tensor 核心<sup>1</sup> | 2 PFLOPS |
| FP16/BF16 Tensor 核心<sup>1</sup> | 32 PFLOPS |
| TF32 Tensor 核心<sup>1</sup> | 16 PFLOPS |
| FP32 | 1040 TFLOPS |
| FP64/FP64 Tensor 核心 | 264 TFLOPS |
| FP32 SGEMM | FP64 DGEMM核心<sup>2</sup> | 3200 TF | 1600 TF |
| 總記憶體 | 2.3 TB |
| NVIDIA NVLink | 第六代 |
| NVIDIA NVLink Switch | NVLink 6 交換器 |
| NVLink GPU 對 GPU 頻寬 | 3.6 TB/s |
| NVLink 總頻寬 | 28.8 TB/s |
| 網路頻寬 | 1.6 TB/s |
* 初步規格,可能有所變更。
1. 高密度規格。
2. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。
| HGX B300<sup>3</sup> | HGX B200<sup>3</sup> | |
|---|---|---|
| 外形規格 | 8個 NVIDIA Blackwell Ultra SXM | 8個 NVIDIA Blackwell SXM |
| FP4 Tensor 核心<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 核心<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor 核心<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor 核心<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor 核心<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor 核心 | 10 TFLOPS | 296 TFLOPS |
| 總記憶體 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第五代 | 第五代 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU 對 GPU 頻寬 | 每秒 1.8 TB | 每秒 1.8 TB |
| 總 NVLink 頻寬 | 每秒 14.4 TB | 每秒 14.4 TB |
| 網路頻寬 | 每秒 1.6 TB | 每秒 0.8 TB |
| 注意效能<sup>3</sup> | 2x | 1x |
1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
4. HGX B300 與 HGX B200 現正出貨中
深入瞭解 NVIDIA Vera Rubin 平台。