NVIDIA回击AMD,称H100 AI GPU透过优化软件提供比MI300X快47%的效能

NVIDIA发布了H100 AI GPU 的一组新测试,并将其与AMD最近推出的MI300X进行了比较。 这些最新测试的目的是展示H100如何使用正确的软件提供比竞争对手更快的效能,而在其竞争对手最近的展示中却并非如此。
NVIDIA-Hopper-H100-vs-AMD-Instinct-MI300X-AI-GPU-Performance-Main.jpg
在推进人工智能演讲中,AMD推出了Instinct MI300X GPU,旨在开启其在数据中心领域的人工智能之旅。 该展示包括各种数据和测试,该公司将MI300X与NVIDIA的H100 GPU进行了比较。 AMD声称与单一GPU相比,MI300X的效能比H100快20%; 与8个GPU服务器相比,MI300X的效能比H100快60%。 NVIDIA 很快就对这些测试做出了回应,并强调结果与事实相去甚远。

NVIDIA H100 GPU于2022年发布,在软件方面进行了各种改进。 最新的TensorRT-LLM改进以及核心级优化进一步推动了AI特定工作负载的效能。 NVIDIA表示,所有这些都允许H100 AI GPU使用FP8运算执行Llama 2 70B等模型。 以下是AMD在活动期间展示的Llama 2 70B的AI GPU效能数据:
AMD-Instinct-MI300-_-MI300X-Launch-_4-1456x819.png

AMD-Instinct-MI300-_-MI300X-Launch-_3-1456x819.png

AMD-Instinct-MI300-_-MI300X-Launch-_6-1456x819.png
在将Instinct MI300X与Hopper H100进行比较时,AMD使用ROCm 6.0套件中的最佳化数据库运行了这些数字。 然而NVIDIA H100 GPU的情况并非如此,它并没有使用TensorRT-LLM等优化软件进行测试。 在NVIDIA发布的测试中该公司展示了在Batch-1中运行Llama 2 70B模型的单一DGX H100服务器(有最多8个H100 GPU)的实际测量效能。

NVIDIA-Hopper-H100-vs-AMD-Instinct-MI300X-AI-GPU-Performance.jpg

AMD对H100的隐含声明是根据AMD发布展示注脚 #MI300-38中的配置来衡量的。 使用vLLM v.02.2.2推理软件和NVIDIA DGX H100系统,Llama 2 70B查询的输入序列长度为2,048,输出序列长度为128。 他们声称与有8x GPU MI300X系统的DGX H100相比有相对性能。

对于NVIDIA测量数据,DGX H100配备8个NVIDIA H100 Tensor Core GPU,有80 GB HBM3和公开可用的NVIDIA TensorRT-LLM,第1批的v0.5.0和延迟阈值测量的v0.6.1。 工作负载详细信息与注脚#MI300-38相同。

结果显示与AMD在活动期间展示的产品相比使用优化的软件工作流程时DGX H100服务器的速度提高了2倍。 该服务器也比AMD MI300X 8-GPU解决方案快 47%。

NVIDIA对这些新舍式的使用是正确的,就像AMD也使用优化软件来评估其GPU的效能一样,那么为什么在测试NVIDIA的硬件时不做同样的事情呢? NVIDIA 围绕CUDA生态系统和新兴人工智能市场的软件非常强大,并且经过多年的努力和开发,而AMD的ROCm 6.0是新的,尚未在现实场景中进行测试。 话虽如此,AMD已与Microsoft、META等顶级公司达成了大量交易,这些公司将MI300X GPU视为NVIDIA AI解决方案的替代方案。

Instinct MI300X和MI300A预计将在2024年1H之前推出,大约在同一时间NVIDIA将推出更快的Hopper H200 GPU,随后在2024年2H推出Blackwell B100。 因此人工智能领域的竞争预计将变得更加激烈。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论