NVIDIA回击AMD，称H100 AI GPU透过优化软件提供比MI300X快47%的效能

nova • 2023年12月14日 16:41 • 投稿

NVIDIA发布了H100 AI GPU 的一组新测试，并将其与AMD最近推出的MI300X进行了比较。这些最新测试的目的是展示H100如何使用正确的软件提供比竞争对手更快的效能，而在其竞争对手最近的展示中却并非如此。
NVIDIA-Hopper-H100-vs-AMD-Instinct-MI300X-AI-GPU-Performance-Main.jpg
在推进人工智能演讲中，AMD推出了Instinct MI300X GPU，旨在开启其在数据中心领域的人工智能之旅。该展示包括各种数据和测试，该公司将MI300X与NVIDIA的H100 GPU进行了比较。 AMD声称与单一GPU相比，MI300X的效能比H100快20%; 与8个GPU服务器相比，MI300X的效能比H100快60%。 NVIDIA 很快就对这些测试做出了回应，并强调结果与事实相去甚远。

NVIDIA H100 GPU于2022年发布，在软件方面进行了各种改进。最新的TensorRT-LLM改进以及核心级优化进一步推动了AI特定工作负载的效能。 NVIDIA表示，所有这些都允许H100 AI GPU使用FP8运算执行Llama 2 70B等模型。以下是AMD在活动期间展示的Llama 2 70B的AI GPU效能数据：

在将Instinct MI300X与Hopper H100进行比较时，AMD使用ROCm 6.0套件中的最佳化数据库运行了这些数字。然而NVIDIA H100 GPU的情况并非如此，它并没有使用TensorRT-LLM等优化软件进行测试。在NVIDIA发布的测试中该公司展示了在Batch-1中运行Llama 2 70B模型的单一DGX H100服务器（有最多8个H100 GPU）的实际测量效能。

NVIDIA-Hopper-H100-vs-AMD-Instinct-MI300X-AI-GPU-Performance.jpg

AMD对H100的隐含声明是根据AMD发布展示注脚 #MI300-38中的配置来衡量的。使用vLLM v.02.2.2推理软件和NVIDIA DGX H100系统，Llama 2 70B查询的输入序列长度为2,048，输出序列长度为128。他们声称与有8x GPU MI300X系统的DGX H100相比有相对性能。
对于NVIDIA测量数据，DGX H100配备8个NVIDIA H100 Tensor Core GPU，有80 GB HBM3和公开可用的NVIDIA TensorRT-LLM，第1批的v0.5.0和延迟阈值测量的v0.6.1。工作负载详细信息与注脚#MI300-38相同。

结果显示与AMD在活动期间展示的产品相比使用优化的软件工作流程时DGX H100服务器的速度提高了2倍。该服务器也比AMD MI300X 8-GPU解决方案快 47%。

NVIDIA对这些新舍式的使用是正确的，就像AMD也使用优化软件来评估其GPU的效能一样，那么为什么在测试NVIDIA的硬件时不做同样的事情呢？ NVIDIA 围绕CUDA生态系统和新兴人工智能市场的软件非常强大，并且经过多年的努力和开发，而AMD的ROCm 6.0是新的，尚未在现实场景中进行测试。话虽如此，AMD已与Microsoft、META等顶级公司达成了大量交易，这些公司将MI300X GPU视为NVIDIA AI解决方案的替代方案。

Instinct MI300X和MI300A预计将在2024年1H之前推出，大约在同一时间NVIDIA将推出更快的Hopper H200 GPU，随后在2024年2H推出Blackwell B100。因此人工智能领域的竞争预计将变得更加激烈。