英特尔为Llama2大模型提供软硬件加速，助力高效训练

2025-05-02 17:18:24 股市动态 facai888

32|0条评论

技术革新背后的故事：英特尔与Llama2的软硬件加速之旅

在人工智能的浩瀚宇宙中，每一次技术的突破都如同星辰闪耀。近日，英特尔携手Llama2大模型，为这场技术盛宴添上了浓墨重彩的一笔。究竟这场软硬件加速的盛宴背后，隐藏着怎样的故事？让我们一探究竟。

Llama2，这个名字听起来既神秘又充满力量。它是由清华大学 KEG 实验室与智谱AI共同训练的万亿参数大模型，其性能之强大，堪称业界翘楚。Llama2的诞生，标志着我国在人工智能领域迈出了坚实的步伐，也为后续的技术发展奠定了基础。

在Llama2的背后，是英特尔强大的软硬件加速能力。英特尔至强CPU Max系列和数据中心GPU Max系列，为Llama2提供了强大的计算支持。此外，英特尔AMX加速器和Habana Gaudi 2深度学习加速器，更是让Llama2的训练和推理效率得到了质的飞跃。

深度学习，作为人工智能的核心技术，其发展离不开高性能计算的支持。英特尔在深度学习领域的布局，旨在为用户提供更高效、更便捷的计算解决方案。Llama2的成功，正是英特尔在这一领域深耕细作的结果。

该测试使用optimum-habana文本生成脚本在Llama模型上运行推理。optimum-habana库能够帮助简化在Gaudi加速器上部署此类模型的流程，仅需极少的代码更改即可实现。

在近期发布的MLPerf基准测试中，Gaudi2在大语言模型上展现了出色的训练性能，包括在384个Gaudi2加速器上训练1750亿参数的GPT-3模型所展现的结果。Gaudi2经过验证的高性能使其成为Llama和Llama 2模型训练和推理的高能效解决方案。

英特尔在一个600瓦OAM形态的GPU上评估了Llama 2的70亿参数模型和Llama 2的130亿参数模型推理性能，这个GPU上封装了两个tile，而英特尔只使用其中一个tile来运行推理。

下图显示，对于输入长度为32到2000的token，英特尔数据中心GPU Max系列的一个tile可以为70亿参数模型的推理提供低于20毫秒的单token延迟，130亿参数模型的单token延迟为29.2-33.8毫秒。

亦或者，用户可以通过英特尔PyTorch 包和DeepSpeed CPU，使用张量并行的方式在两个第四代至强插槽上运行推理，从而进一步降低延迟或支持更大的模型。

因为该GPU上封装了两个tile，用户可以同时并行运行两个独立的实例，每个tile上运行一个，以获得更高的吞吐量并独立地服务客户端。

下图显示了70亿参数和130亿参数Llama 2模型的推理性能。模型分别在一台Habana Gaudi2设备上运行，batch size=1，输出token长度256，输入token长度不定，使用BF16精度。报告的性能指标为每个token的延迟。

在金融领域，Llama2的应用案例也颇为引人注目。某金融机构通过将Llama2应用于其客户服务系统，实现了客户咨询响应速度的显著提升。据该机构透露，自引入Llama2后，客户咨询的响应时间缩短了约30%，有效提高了客户满意度。

因为Llama2在多个场景中的应用不断拓展，我们可以预见，未来将有更多行业受益于这一技术。英特尔将继续致力于推动人工智能技术的发展，为各行各业带来更多创新解决方案。

MORE>

热门推荐网友点评

最近发表