AMD支持的Frontier超级计算机使用3K的37K MI250X GPU实现了高达1兆参数的LLM运行

数码评测 • 2024年1月8日 11:52 • 投稿

采用AMD技术并配备Instinct MI250X GPU的Frontie 超级计算机已实现1兆参数LLM运行，可与ChatGPT-4相媲美。

Frontier超级计算机是世界领先的超级计算机，也是目前唯一正在运行的Exascale超级计算机。该机器由AMD的EPYC和Instinct硬件提供支持，不仅提供顶级的HPC性能，而且还是地球上第二高效的超级计算机。个人在Arxiv上提交的一份报告显示Frontier超级计算机已经达到了通过超参数调优训练高达1万亿参数的能力，树立了新的行业标杆。

在深入讨论关键问题之前，让我们先快速回顾一下 Frontier超级计算机的功能。 ORNL的超级计算机采用AMD第三代EPYC Trento CPU和Instinct MI250X GPU加速器从头开始设计。它安装在美国田纳西州橡树岭国家实验室（ORNL），由能源部（DOE）营运。目前它使用8,699,904个核心实现了1.194 Exaflop/s。 HPE Cray EX架构结合了针对HPC和AI优化的第三代AMD EPYC CPU、AMD Instinct 250X加速器和Slingshot-11互连。 Frontier能够在 Top500.org 超级计算机排行榜上保持第一名，可见其统治力。

Frontier取得的新记录是实施有效策略来培训LLM并最有效地使用机上硬件的结果。团队通过220亿、1750亿、1万亿参数的测试，取得了显著的成果，这些数据是对模型训练过程进行优化和微调的结果。这项成果是通过使用多达3,000个AMD MI250X AI加速器来实现的，尽管它是一种相对过时的硬件，但仍显示出其强大功能。

更有趣的是整个Frontier超级计算机配备了37,000个MI250X GPU，因此可以想象使用整个GPU池为LLM提供动力时的效能。 AMD也即将在全新超级计算机中使用其MI300 GPU加速器，并拥有强大的ROCm 6.0生态系统，进一步加速人工智能效能。

对于220亿、1750亿和1万亿参数，我们分别实现了38.38%、36.14%和31.96%的GPU吞吐量。对于1750亿参数模型和1万亿参数模型的训练，我们分别在1024和3072 MI250X GPU上实现了100%的弱缩放效率。我们还为这两个模型实现了89%和87%的强大扩展效率。
– Arvix

服务器和数据中心领域的未来充满机遇，值得注意的是Frontier目前使用的硬件在业界并不是相对较新的。随着生成式人工智能领域的不断进步，市场显然需要更多的运算能力来向前发展，这就是为什么为该领域设计的硬件的进步对于下一代发展至关重要。