英特尔为Llama2大模型提供软硬件加速,助力高效训练

2025-05-02 17:18:24 股市动态 facai888

技术革新背后的故事:英特尔与Llama2的软硬件加速之旅

在人工智能的浩瀚宇宙中,每一次技术的突破都如同星辰闪耀。近日,英特尔携手Llama2大模型,为这场技术盛宴添上了浓墨重彩的一笔。究竟这场软硬件加速的盛宴背后,隐藏着怎样的故事?让我们一探究竟。

Llama2,这个名字听起来既神秘又充满力量。它是由清华大学 KEG 实验室与智谱AI共同训练的万亿参数大模型,其性能之强大,堪称业界翘楚。Llama2的诞生,标志着我国在人工智能领域迈出了坚实的步伐,也为后续的技术发展奠定了基础。

在Llama2的背后,是英特尔强大的软硬件加速能力。英特尔至强CPU Max系列和数据中心GPU Max系列,为Llama2提供了强大的计算支持。此外,英特尔AMX加速器和Habana Gaudi 2深度学习加速器,更是让Llama2的训练和推理效率得到了质的飞跃。

理论基础:深度学习与高性能计算

深度学习,作为人工智能的核心技术,其发展离不开高性能计算的支持。英特尔在深度学习领域的布局,旨在为用户提供更高效、更便捷的计算解决方案。Llama2的成功,正是英特尔在这一领域深耕细作的结果。

该测试使用optimum-habana文本生成脚本在Llama模型上运行推理。optimum-habana库能够帮助简化在Gaudi加速器上部署此类模型的流程,仅需极少的代码更改即可实现。

在近期发布的MLPerf基准测试中,Gaudi2在大语言模型上展现了出色的训练性能,包括在384个Gaudi2加速器上训练1750亿参数的GPT-3模型所展现的结果。Gaudi2经过验证的高性能使其成为Llama和Llama 2模型训练和推理的高能效解决方案。

英特尔在一个600瓦OAM形态的GPU上评估了Llama 2的70亿参数模型和Llama 2的130亿参数模型推理性能,这个GPU上封装了两个tile,而英特尔只使用其中一个tile来运行推理。

下图显示,对于输入长度为32到2000的token,英特尔数据中心GPU Max系列的一个tile可以为70亿参数模型的推理提供低于20毫秒的单token延迟,130亿参数模型的单token延迟为29.2-33.8毫秒。

亦或者,用户可以通过英特尔PyTorch 包和DeepSpeed CPU,使用张量并行的方式在两个第四代至强插槽上运行推理,从而进一步降低延迟或支持更大的模型。

因为该GPU上封装了两个tile,用户可以同时并行运行两个独立的实例,每个tile上运行一个,以获得更高的吞吐量并独立地服务客户端。

下图显示了70亿参数和130亿参数Llama 2模型的推理性能。模型分别在一台Habana Gaudi2设备上运行,batch size=1,输出token长度256,输入token长度不定,使用BF16精度。报告的性能指标为每个token的延迟。

模型训练加速,Llama2的效能提升

英特尔至强CPU Max系列,降低延迟提升效率

张量并行与多实例并行,提升处理能力

在金融领域,Llama2的应用案例也颇为引人注目。某金融机构通过将Llama2应用于其客户服务系统,实现了客户咨询响应速度的显著提升。据该机构透露,自引入Llama2后,客户咨询的响应时间缩短了约30%,有效提高了客户满意度。

因为Llama2在多个场景中的应用不断拓展,我们可以预见,未来将有更多行业受益于这一技术。英特尔将继续致力于推动人工智能技术的发展,为各行各业带来更多创新解决方案。

搜索
最近发表
标签列表