NVIDIA TensorRT-LLM极大地提升了大型语言模型，Hopper GPU上的增益高达8倍

GamesIndustry • 2023年9月9日 16:08 • 投稿

NVIDIA今天宣布推出全新的AI软件，称为TensorRT LLM，可提高GPU上的大型语言模型性能。

NVIDIA宣布推出TensorRT-LLM，这是一款高度优化的开源数据库，可通过NVIDIA的AI GPU（例如Hopper）在所有大型语言模型中实现最快的推理性能。 NVIDIA与开源社区合作，利用最新的AI核心和SmoothQuant、FlashAttention和fMHA等顶尖技术来优化其GPU。该开源数据库包括现成执行的SOTA推理优化版本的LLM，例如GPT-3 （175B）、Llama Falcom （180B）和 Bloom。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_1-g-standard-scale-4_00x-Custom.png
TensorRT-LLM还经过优化，可以在有Infiniband互连的多个NVLINK服务器之间进行自动并行化。以前必须在多个服务器/GPU上手动为服务器分配大型语言模型，而使用Tensor-RT LLM则不再是这种情况。

TensorRT-LLM带来的最大更新之一是一种称为飞行批处理的新调度程序，它允许工作独立于其他任务进入和退出GPU。它允许动态处理多个较小的查询，同时在同一GPU中处理大型计算密集型请求。整个过程使GPU更加高效，并导致H100等GPU的吞吐量大幅提升，准确地说高达2倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_2-g-standard-scale-4_00x-Custom.png

TensorRT-LLM还围绕Hopper的Transformer引擎及其计算FP8功能进行了优化。该数据库提供自动FP8转换、用于核心融合的DL编译器和混合精度优化器，并支持NVIDIA自己的Smoothquaint算法，可在不损失精度的情况下实现8位量化性能。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_3-g-standard-scale-4_00x-Custom.png
那么说到性能数据，NVIDIA将A100与H100在8月份的性能以及H100与TensorRT-LLM的性能进行了比较。在GPT-J 6B（推理）中，H100已经提供了4倍增益，但借助TensorRT-LLM，该公司将性能提高了一倍，从而在该特定测试中实现了8倍增益。在 Llama2 中我们看到使用TensorRT LLM 的增益高达 5 倍，并且比不使用 TensorRT-LLM 的标准 H100 增益几乎为 2 倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_4-g-standard-scale-4_00x-Custom.png
NVIDIA表示他们正在与所有领先的推理工作负载（例如Meta、Grammarly、Deci、anyscale 等）合作，使用TensorRT-LLM加速他们的LLM。至于可用性，TensorRT-LLM现已提供抢先体验，预计下个月发布完整版。至于支持，TensorRT-LLM将受到目前正在生产的所有NVIDIA数据中心和AI GPU的支持，例如A100、H100、L4、L40、L40S、HGX、Grace Hopper等。