Hopper架构英伟达H100 GPU登场,采台积电4nm制程

NVIDIA H100 Die

NVIDIA 于 GTC 2022(GPU 技术大会)正式发表以美国计算机科学家先驱 Grace Hopper 命名的 NVIDIA Hopper 架构,以及采用该架构的 NVIDIA H100 GPU,导入 TSMC 台积电 4nm 客制化 4N 制程,搭配 HBM3 内存,接替两年前推出的 NVIDIA Ampere 架构。

NVIDIA 数据中心 GPU 系列规格

产品完整 GH100 GPUNVIDIA H100 SXM5NVIDIA H100 PCIeNVIDIA A100
芯片代号GH100GH100GH100GA100
制程TSMC 4nmTSMC 4nmTSMC 4nmTSMC 7nm
晶圆面积814 mm^2814 mm^2814 mm^2826 mm^2
晶体管数量800亿800亿800亿540亿
SM 数量144132114108
CUDA 核心数1843216896145926912
Tensor 核心数576528456432
L2 快取60 MB50 MB50 MB40 MB
INT8 Tensor Core 效能未公布2000 TeraFLOPS
稀疏 4000 TeraFLOPS
1600 TeraFLOPS
稀疏 3200 TeraFLOPS
624 TeraOPS
稀疏 1248 TeraOPS
FP8 Tensor Core 效能2000 TeraFLOPS
稀疏 4000 TeraFLOPS
1600 TeraFLOPS
稀疏 3200 TeraFLOPS
N/A
FP16 半精度浮点效能120 TeraFLOPS96 TeraFLOPS78 TeraFLOPS
FP16 Tensor Core 效能1000 TeraFLOPS
稀疏 2000 TeraFLOPS
800 TeraFLOPS
稀疏 1600 TeraFLOPS
312 TeraFLOPS
稀疏 624 TeraFLOPS
FP32 单精度浮点效能60 TeraFLOPS48 TeraFLOPS19.5 TeraFLOPS
FP32 Tensor Core 效能500 TeraFLOPS
稀疏 1000 TeraFLOPS
400 TeraFLOPS
稀疏 800 TeraFLOPS
156 TeraFLOPS
稀疏 312 TeraFLOPS
FP64 双精度浮点效能30 TeraFLOPS24 TeraFLOPS9.7 TeraFLOPS
FP64 Tensor Core 效能60 TeraFLOPS48 TeraFLOPS19.5 TeraFLOPS
内存形式HBM3 / HBM2e80 GB HBM380 GB HBM2e40GB HBM2e
内存接口6144-bit5120-bit5120-bit5120-bit
记忆体带宽未公布3000 GB/s2000 GB/s1555 GB/s
TDP未公布700W350W400W
封装形式SXM5 / PCIe 5.0SXM5PCIe 5.0SXM4 / PCIe 4.0

NVIDIA H100 采用的台积电 4nm 制程,是台积电 5nm 制程的强化版本,在效能、功耗、及密度方面都有所提升。 它拥有800亿个晶体管,是首款支持PCIe 5.0及首款使用HBM3的GPU产品,存储器带宽高达每秒3TB。

NVIDIA H100

根据官方释出的资料,H100 在半精度、单精度、双精度浮点等人工智能常用运算模式,效能可达前代产品 A100 的 3 倍,而在 FP8 Tensor Core 效能甚至可达 A100 的 6 倍。NVIDIA H100 SXMNVIDIA H100 SXM

H100 提供 SXM 和 PCIe 两种规格。 SXM 用于 HGX H100 服务器主机板上,有 4 路和 8 路配置。 PCIe 规格则使用 NVLink 串接两个 GPU,提供比 PCIe 5.0 还要高出 7 倍的带宽,但依然能轻松安装于现有的数据中心基础设施中。

还有一种名为H100CX的融合加速器,搭配英伟达 ConnectX-7 400Gb/s InfiniBand 及Ethernet SmartNIC,为企业数据中心的多节点AI训练,以及边缘的5G信号处理等I/O密集型应用程序提供突破性的性能。

NVIDIA DGX H100NVIDIA DGX H100

会中也同步发表第4代DGX系统:NVIDIA DGX H100超级计算机,搭载8组NVIDIA H100GPU,可在全新FP8精度下提供32 petaflops的AI运算表现,这个规模足以满足大型语言模型、推荐系统、医疗研究及气候科学的大规模运算需求。

DGX H100 内部通过第 4 代 NVLink 技术连接,GPU 之间的连接速度可达每秒 900GB。 而一台外部 NVLink 交换器甚至能够串连多达 32 个 DGX H100 节点,组合成 NVIDIA DGX SuperPOD 超级计算机。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论