09月10日,星期天 09:30
火讯财经讯,据IT之家9月9日报道,英伟达近日宣布推出名为TensorRT-LLM,是一个深度优化的开源库,能够在Hopper等AIGPU上加速所有大语言模型的推理性能。英伟达目前已经和开源社区合作,利用SmoothQuant、FlashAttention和fMHA等尖端技术,实现AI内核来优化其GPU,可以加速GPT-3(175B),LlamaFalcom(180B)和Bloom模型。TensorRT-LLM的亮点在于引入了名为In-Flightbatching的调度方案,允许工作独立于其他任务进入和退出GPU。该方案允许同一GPU在处理大型计算密集型请求时,动态处理多个较小的查询,提高GPU的处理性能,可以让H100的吞吐量加快2倍。在性能测试中,英伟达以A100为基础,对比了H100以及启用TensorRT-LLM的H100,在GPT-J6B推理中,H100推理性能比A100提升4倍,而启用TensorRT-LLM的H100性能是A100的8倍。