NVIDIA于GTC 2022发表全新Hopper GPU架构，还可与Grace合体变身超级芯片

NVIDIA在GTC 2022技术大会中正式发布次世代GPU架构Hopper，并提出多种不同组合产品，大幅提高加速运算的应用弹性。

Hopper架构正式登场

在去年GTC 2021春季场中，NVIDIA发布了专为AI超级运算设计的Grace处理器，它采用Arm处理器架构，支持LPDDR5x内存子系统，并透过第4代NVLink汇流排技术，提供处理器与GPU（绘图处理器）之间高达900 GB/s的数据传输速度，与当今技术领先的服务器相比，聚集带宽增益达30倍。 Grace也将采用LPDDR5x内存子系统，与目前的DDR4内存相比，能够提供2倍的带宽以及10倍的能源效率。

Grace的名称来自美国编程先驱葛丽丝‧穆雷‧霍普（Grace Murray Hopper），而这次发表的GPU架构Hopper，也是以她为名。

H100为首款采用Hopper架构的GPU，它采用台积电4N节点制程，具有800亿个晶体管搭载HBM3高带宽内存并支持PCIe Gen5总线与高度可扩展的NVIDIA NVLink互连技术，是世界上最先进且最强大的加速运算单元。

全新的Transformer Engine自然语言处理模型是有史以来最重要深度学习模型发明之一，它能够在不牺牲准确性的前提下提高6倍运算速度，而全新的DPX指令加速动态规划（Dynamic Programming）可以在路线规划、基因组学等领域带来40倍于处理器或7倍于前代GPU的效能，为人工智能应用注入强大动能。

此外H100也支持机密运算（Confidential Computing），以及NVIDIA第二代多执行个体GPU（Multi-Instance GPU，MIG），支持完整的每执行个体隔离和每执行个体 IO 虚拟化功能，并可支持托管7个云端租用户，能提高整体资安可靠度，更加适合医疗保健和金融服务、公有云、联邦学习（Federated Learning）等需要高安全性的应用。

▲ H100为首款采用Hopper架构的GPU，能在不牺牲准确性的前提下提高6倍运算速度。

▲ H100将成为世界上最先进的芯片，并支持Transformer Engine、DPX指令加速动态规划等重要功能。

▲ Transformer Engine能够自动按数据类型进行优化，在不牺牲准确性的前提下提高6倍运算速度。

▲ 机密运算适合医疗保健和金融服务、公有云、联邦学习等需要高安全性的应用。

▲ NVIDIA第二代多执行个体GPU能将1个实体GPU切割成7个执行个体，兼顾安全性与资源分配弹性。

▲ 与前代A100相比，H100在FP8数据类型运算中有6备效能表现。

▲ H100在多种应用情境的效能表现也大幅领先A100。

推出多种组合产品

Hopper架构的H100 GPU将可与Grace处理器共同组成Grace Hopper超级芯片，NVIDIA也将推出整合2颗Grace处理器的Grace CPU超级芯片，裸晶（Die）之间采用NVLink-C2C互连技术，以满足高速、低延迟、芯片间数据传输的需求，并将推出多种不同的配置选项，为次世代服务器带来更有弹性的建构选择。

根据NVIDIA提供的资料，Grace CPU超级芯片具有144个Arm架构处理器核心，SPECrate 2017_int_base性能测试成绩推测将高达740分，是DGX A100电脑中双处理器效能的1.5倍以上。

焦点回到H100 GPU，它采用台积电CoWoS 2.5D封装技术，将GPU与HBM3内存等组件封装在一起，并将推出SXM模块版本。以DGX H100电脑为例，它将8个H100 SXM模组安装至HGX主板，并透过4个NVLink交换器芯片连线，将8个H100变成一个巨型GPU，提供32 petaFLOP人工智能效能，将成为人工智能工厂的最小的组成单位。

需要更大量运算效能的用户，可以通过这次推出的NVIDIA NVLink交换器系统，使用NVLink连接32台DGX H100，将其扩展为单一的大型32节点256 GPU的DGX SuperPOD。

此外NVIDIA宣布正在打造由18台DGX SuperPOD（576台DGX H100、4608组H100 GPU）组成的Eos超级计算机其传统的科学运算（FP64数据类型）的效能为275 petaFLOPS，比搭载A100 GPU、目前美国最快的科学计算机Summit快了1.4 倍。而在在人工智能方面（FP8数据类型），Eos的运算效能为18.4 Exaflops，比目前全世界最快的超级计算机Fugaku（富岳）高出4倍。待它完成部署后，有望成为世界上最快的人工智能电脑，NVIDIA创办人兼执行长黄仁勋在GTC 22春季展开幕演说中表示，对Eos充满信心，而Eos将在数个月内上线。

此外NVIDIA也会推出PCIe适配卡型式的H100运算卡，而这次还发表了具有独立网络介面的H100 CNX运算卡。它最大的特色就是整合Connectx-7网络芯片，可以略过节点上的处理器，直接访问外部节点的数据，不但有助于提升数据吞吐量，也能降低处理器使用率，对现有服务器的升级很有吸引力。

▲ Grace Hopper超级芯片将整合Grace处理器与Hopper GPU，裸晶之间透过NVLink-C2C互相连接。

▲ Grace CPU超级芯片则是整合2颗Grace处理器，总共具有144个Arm架构处理器核心。

▲ Grace超级芯片的高画质渲染图。

▲ Grace Hopper超级芯片具有高度配置弹性，用户可以选择「双Grace CPU超级芯片」、「单一 Grace + 单一Hopper超级芯片」、「单一 Grace + 双 Hopper 超级芯片」、「双Grace + 双Hopper系统」、「双 Grace + 4 Hopper系统」、「双Grace + 8 Hopper系统」。