英伟达TensorRT-LLM开源库发布，H100推理性能提升8倍

2025-04-30 18:28:59 财经资讯 facai888

31|0条评论

当英伟达TensorRT-LLM开源库横空出世，H100推理性能的飞跃仿佛为AI领域注入了一剂强心针。这一突破性的进展，不仅揭示了技术革新的无限可能，更在业内掀起了关于未来AI推理性能的新一轮讨论。

TensorRT-LLM，英伟达最新推出的深度优化开源库，旨在为Hopper等AI GPU加速大语言模型的推理性能。据悉，英伟达与开源社区的紧密合作，使得SmoothQuant、FlashAttention和fMHA等尖端技术得以融入其中，从而加速GPT-3、Llama Falcon和Bloom等模型的运行。

H100性能提升：不只是数字的游戏

In-Flight batching：GPU性能的极致发挥

TensorRT-LLM的亮点之一便是其引入的In-Flight batching调度方案。这一创新性的方案允许工作独立于其他任务进入和退出GPU，从而在处理大型计算密集型请求时，动态处理多个较小的查询。这种灵活的处理方式，使得H100的吞吐量得以大幅提升，性能加速达2倍。

性能测试：实证数据揭示TensorRT-LLM的威力

在性能测试中，英伟达以A100为基础，对比了H100以及启用TensorRT-LLM的H100在GPT-J 6B推理中的表现。结果显示，H100推理性能比A100提升了4倍，而启用TensorRT-LLM的H100性能更是达到了A100的8倍。这一实证数据，无疑为TensorRT-LLM的强大性能提供了有力证明。