AMD支持的Frontier超级计算机使用3K的37K MI250X GPU实现了高达1兆参数的LLM运行

采用AMD技术并配备Instinct MI250X GPU的Frontie 超级计算机已实现1兆参数LLM运行,可与ChatGPT-4相媲美。

Frontier超级计算机是世界领先的超级计算机,也是目前唯一正在运行的Exascale超级计算机。 该机器由AMD的EPYC和Instinct硬件提供支持,不仅提供顶级的HPC性能,而且还是地球上第二高效的超级计算机。 个人在Arxiv上提交的一份报告显示Frontier超级计算机已经达到了通过超参数调优训练高达1万亿参数的能力,树立了新的行业标杆。
Frontier-Supercomputer.png
在深入讨论关键问题之前,让我们先快速回顾一下 Frontier超级计算机的功能。 ORNL的超级计算机采用AMD第三代EPYC Trento CPU和Instinct MI250X GPU加速器从头开始设计。 它安装在美国田纳西州橡树岭国家实验室(ORNL),由能源部(DOE)营运。 目前它使用8,699,904个核心实现了1.194 Exaflop/s。 HPE Cray EX架构结合了针对HPC和AI优化的第三代AMD EPYC CPU、AMD Instinct 250X加速器和Slingshot-11互连。 Frontier能够在 Top500.org 超级计算机排行榜上保持第一名,可见其统治力。

Frontier取得的新记录是实施有效策略来培训LLM并最有效地使用机上硬件的结果。 团队通过220亿、1750亿、1万亿参数的测试,取得了显著的成果,这些数据是对模型训练过程进行优化和微调的结果。 这项成果是通过使用多达3,000个AMD MI250X AI加速器来实现的,尽管它是一种相对过时的硬件,但仍显示出其强大功能。

更有趣的是整个Frontier超级计算机配备了37,000个MI250X GPU,因此可以想象使用整个GPU池为LLM提供动力时的效能。 AMD也即将在全新超级计算机中使用其MI300 GPU加速器,并拥有强大的ROCm 6.0生态系统,进一步加速人工智能效能。

对于220亿、1750亿和1万亿参数,我们分别实现了38.38%、36.14%和31.96%的GPU吞吐量。 对于1750亿参数模型和1万亿参数模型的训练,我们分别在1024和3072 MI250X GPU上实现了100%的弱缩放效率。 我们还为这两个模型实现了89%和87%的强大扩展效率。

– Arvix

服务器和数据中心领域的未来充满机遇,值得注意的是Frontier目前使用的硬件在业界并不是相对较新的。 随着生成式人工智能领域的不断进步,市场显然需要更多的运算能力来向前发展,这就是为什么为该领域设计的硬件的进步对于下一代发展至关重要。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论