![NVIDIA H100 Die](https://www.gameducky.com/wp-content/themes/justnews/themer/assets/images/lazy.png)
NVIDIA 于 GTC 2022(GPU 技术大会)正式发表以美国计算机科学家先驱 Grace Hopper 命名的 NVIDIA Hopper 架构,以及采用该架构的 NVIDIA H100 GPU,导入 TSMC 台积电 4nm 客制化 4N 制程,搭配 HBM3 内存,接替两年前推出的 NVIDIA Ampere 架构。
NVIDIA 数据中心 GPU 系列规格
产品 | 完整 GH100 GPU | NVIDIA H100 SXM5 | NVIDIA H100 PCIe | NVIDIA A100 |
芯片代号 | GH100 | GH100 | GH100 | GA100 |
制程 | TSMC 4nm | TSMC 4nm | TSMC 4nm | TSMC 7nm |
晶圆面积 | 814 mm^2 | 814 mm^2 | 814 mm^2 | 826 mm^2 |
晶体管数量 | 800亿 | 800亿 | 800亿 | 540亿 |
SM 数量 | 144 | 132 | 114 | 108 |
CUDA 核心数 | 18432 | 16896 | 14592 | 6912 |
Tensor 核心数 | 576 | 528 | 456 | 432 |
L2 快取 | 60 MB | 50 MB | 50 MB | 40 MB |
INT8 Tensor Core 效能 | 未公布 | 2000 TeraFLOPS 稀疏 4000 TeraFLOPS | 1600 TeraFLOPS 稀疏 3200 TeraFLOPS | 624 TeraOPS 稀疏 1248 TeraOPS |
FP8 Tensor Core 效能 | 2000 TeraFLOPS 稀疏 4000 TeraFLOPS | 1600 TeraFLOPS 稀疏 3200 TeraFLOPS | N/A | |
FP16 半精度浮点效能 | 120 TeraFLOPS | 96 TeraFLOPS | 78 TeraFLOPS | |
FP16 Tensor Core 效能 | 1000 TeraFLOPS 稀疏 2000 TeraFLOPS | 800 TeraFLOPS 稀疏 1600 TeraFLOPS | 312 TeraFLOPS 稀疏 624 TeraFLOPS | |
FP32 单精度浮点效能 | 60 TeraFLOPS | 48 TeraFLOPS | 19.5 TeraFLOPS | |
FP32 Tensor Core 效能 | 500 TeraFLOPS 稀疏 1000 TeraFLOPS | 400 TeraFLOPS 稀疏 800 TeraFLOPS | 156 TeraFLOPS 稀疏 312 TeraFLOPS | |
FP64 双精度浮点效能 | 30 TeraFLOPS | 24 TeraFLOPS | 9.7 TeraFLOPS | |
FP64 Tensor Core 效能 | 60 TeraFLOPS | 48 TeraFLOPS | 19.5 TeraFLOPS | |
内存形式 | HBM3 / HBM2e | 80 GB HBM3 | 80 GB HBM2e | 40GB HBM2e |
内存接口 | 6144-bit | 5120-bit | 5120-bit | 5120-bit |
记忆体带宽 | 未公布 | 3000 GB/s | 2000 GB/s | 1555 GB/s |
TDP | 未公布 | 700W | 350W | 400W |
封装形式 | SXM5 / PCIe 5.0 | SXM5 | PCIe 5.0 | SXM4 / PCIe 4.0 |
NVIDIA H100 采用的台积电 4nm 制程,是台积电 5nm 制程的强化版本,在效能、功耗、及密度方面都有所提升。 它拥有800亿个晶体管,是首款支持PCIe 5.0及首款使用HBM3的GPU产品,存储器带宽高达每秒3TB。
![NVIDIA H100](https://www.gameducky.com/wp-content/themes/justnews/themer/assets/images/lazy.png)
根据官方释出的资料,H100 在半精度、单精度、双精度浮点等人工智能常用运算模式,效能可达前代产品 A100 的 3 倍,而在 FP8 Tensor Core 效能甚至可达 A100 的 6 倍。NVIDIA H100 SXM
H100 提供 SXM 和 PCIe 两种规格。 SXM 用于 HGX H100 服务器主机板上,有 4 路和 8 路配置。 PCIe 规格则使用 NVLink 串接两个 GPU,提供比 PCIe 5.0 还要高出 7 倍的带宽,但依然能轻松安装于现有的数据中心基础设施中。
还有一种名为H100CX的融合加速器,搭配英伟达 ConnectX-7 400Gb/s InfiniBand 及Ethernet SmartNIC,为企业数据中心的多节点AI训练,以及边缘的5G信号处理等I/O密集型应用程序提供突破性的性能。
NVIDIA DGX H100
会中也同步发表第4代DGX系统:NVIDIA DGX H100超级计算机,搭载8组NVIDIA H100GPU,可在全新FP8精度下提供32 petaflops的AI运算表现,这个规模足以满足大型语言模型、推荐系统、医疗研究及气候科学的大规模运算需求。
DGX H100 内部通过第 4 代 NVLink 技术连接,GPU 之间的连接速度可达每秒 900GB。 而一台外部 NVLink 交换器甚至能够串连多达 32 个 DGX H100 节点,组合成 NVIDIA DGX SuperPOD 超级计算机。
![微信扫一扫](https://www.gameducky.com/wp-content/uploads/2021/12/2021122203132290.jpg)