NVIDIA TensorRT-LLM极大地提升了大型语言模型,Hopper GPU上的增益高达8倍

NVIDIA今天宣布推出全新的AI软件,称为TensorRT LLM,可提高GPU上的大型语言模型性能。
NVIDIA-TensorRT-LLM-Hopper-AI-GPUs.png
NVIDIA宣布推出TensorRT-LLM,这是一款高度优化的开源数据库,可通过NVIDIA的AI GPU(例如Hopper)在所有大型语言模型中实现最快的推理性能。 NVIDIA与开源社区合作,利用最新的AI核心和SmoothQuant、FlashAttention和fMHA等顶尖技术来优化其GPU。 该开源数据库包括现成执行的SOTA推理优化版本的LLM,例如GPT-3 (175B)、Llama Falcom (180B) 和 Bloom。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_1-g-standard-scale-4_00x-Custom.png
TensorRT-LLM还经过优化,可以在有Infiniband互连的多个NVLINK服务器之间进行自动并行化。 以前必须在多个服务器/GPU上手动为服务器分配大型语言模型,而使用Tensor-RT LLM则不再是这种情况。

TensorRT-LLM带来的最大更新之一是一种称为飞行批处理的新调度程序,它允许工作独立于其他任务进入和退出GPU。 它允许动态处理多个较小的查询,同时在同一GPU中处理大型计算密集型请求。 整个过程使GPU更加高效,并导致H100等GPU的吞吐量大幅提升,准确地说高达2倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_2-g-standard-scale-4_00x-Custom.png

TensorRT-LLM还围绕Hopper的Transformer引擎及其计算FP8功能进行了优化。 该数据库提供自动FP8转换、用于核心融合的DL编译器和混合精度优化器,并支持NVIDIA自己的Smoothquaint算法,可在不损失精度的情况下实现8位量化性能。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_3-g-standard-scale-4_00x-Custom.png
那么说到性能数据,NVIDIA将A100与H100在8月份的性能以及H100与TensorRT-LLM的性能进行了比较。 在GPT-J 6B(推理)中,H100已经提供了4倍增益,但借助TensorRT-LLM,该公司将性能提高了一倍,从而在该特定测试中实现了8倍增益。 在 Llama2 中我们看到使用TensorRT LLM 的增益高达 5 倍,并且比不使用 TensorRT-LLM 的标准 H100 增益几乎为 2 倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_4-g-standard-scale-4_00x-Custom.png
NVIDIA表示他们正在与所有领先的推理工作负载(例如Meta、Grammarly、Deci、anyscale 等)合作,使用TensorRT-LLM加速他们的LLM。 至于可用性,TensorRT-LLM现已提供抢先体验,预计下个月发布完整版。 至于支持,TensorRT-LLM将受到目前正在生产的所有NVIDIA数据中心和AI GPU的支持,例如A100、H100、L4、L40、L40S、HGX、Grace Hopper等。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论