在数据中心与高性能计算领域,AMD的MI300与英伟达的DGX GH200构成了针锋相对的竞争格局。MI300,这款AMD推出的数据中心级APU,其硬件参数之高,堪比英伟达Grace Hopper架构的CPU+GPU组合。尽管在封装工艺上,DGX GH200的2.5D封装工艺似乎略逊一筹,但英伟达通过NVLink互连技术和NVLink Switch System,将32台由8块GH200超级芯片组成的服务器串联起来,实现了1exaFLOPS的算力与144TB的内存,为用户提供强大的计算能力。这种大规模共享内存的解决方案,对于对性能要求高且资金雄厚的潜在客户无疑是一个巨大的吸引力。目前,谷歌Google Cloud、Meta和微软等企业已被曝出将成为DGX GH200的首批用户。
MI300在CPU部分集成了24个ZEN4内核,GPU部分集成了6块使用CDNA3架构的芯片,拥有1460亿个晶体管,比英特尔GPU Ponte Vecchio多460亿个晶体管,比英伟达H100多660亿个晶体管。此外,MI300的统一内存设计,可以有效降低不同内存间来回复制、同步和转换数据所导致的编程复杂性。相比之下,英伟达的CUDA平台虽然自问世以来就支持Linux、Windows多平台,但AMD的ROCm平台长期只能支持Linux系统,且不支持部分Linux的更新,直到今年4月才登录Windows平台。在开发者数量方面,AMD也远低于英伟达的400万。
尽管谁能率先完成独有的软件生态,谁就有可能挑战英伟达在训练芯片行业的市场地位。目前来看,最有机会的就是AMD。
为了改变这种被动局面,AMD也在积极丰富其软件生态。虽然目前仅有部分SKU支持Windows系统,但主流Radeon显卡用户可以开始试用过去仅专业显卡才能使用的AMD ROCm。值得注意的是,谷歌目前90%的AI工作负载都使用自研TPU,且部分性能优于英伟达产品。在谷歌今年4月发布的关于TPUv4的论文中,谷歌强调TPU v4在BERT模型上比A100快1.15倍,而在ResNet模型上比A100快1.67倍,而A100的能耗是TPUv4的1.3-1.9倍。
和谷歌TPU类似,AMD对MI300的定位是高性价比,试图用和英伟达相似的性能,更低的价格打开云算力设备市场。伴随AI浪潮持续推进,各类模型训练需求与日俱增,根据前瞻产业研究院的数据,未来几年内,中国人工智能芯片市场规模将保持年均40%至50%的增长速度,到2024年,市场规模将达到785亿元。
在软件生态方面,现有的AMD MI300还不足以威胁英伟达的市场份额。从硬件参数上来看,AMD MI300已经具备和英伟达叫板的能力,但显卡领域完善软件生态比堆硬件参数更难。AMD的软件生态能否贴合人工智能行业的市场需求,是MI300能否抢走英伟达既有市场的重要影响因素。
由此可见,和使用A100的平台相比,谷歌云TPU的最大优势就是成本低,这也直接体现在终端用户的使用成本上。在谷歌云上A100 80GB价格为3.93美元/芯片/小时,TPUv4价格为3.22美元/芯片/小时。
今年1季度,AMD宣布ROCm系统融入PyTorch2.0框架,目前TensorFlow和Caffe深度学习框架也已加入第五代ROCm。
如果谷歌今年重新成为英伟达DGX GH200的用户,意味着DGX GH200综合表现 超过谷歌的自研TPU。
现阶段,GPU行业逐渐分化为传统GPU和GPGPU两个细分市场,前者延续专门用于图形图像处理用途,内置了视频编解码加速引擎、2D 加速引擎、3D 加速引擎、图像渲染等专用运算模块。
与微软Azure中布置的A100相比,谷歌云的TPUv4在BERT上最多可节省35%的训练成本,在ResNet上最多可节省50%。除AI工作负载之外,谷歌管理层此前还曾表示TPU已广泛应用于翻译、相册、搜索、Google助理和Gmail等众多Google产品。
据华泰证券预计,拥有1600张H100芯片是AI创业公司入门水平,GPT-4级别的大模型训练则需要1.6万张H100GPU的算力,全球约有30家科技巨头和300家AI初创企业进行相关投资,未来GPU市场潜在需求达到300亿美元,英伟达或许会凭借新产品GH200继续维持极高市场份额。
封装工艺方面,MI300使用最近爆火的3D Chiplet封装技术,而GH200则使用CoWoS封装,3D对比2.5D的优势在于性能更高、延迟和功耗更低。
作为人工智能领域最主要的协处理器解决方案,GPGPU占据人工智能90%以上的市场份额。这主要是因为GPGPU能提供的完善软件生态系统,极大降低了各种已有应用程序的移植和新算法的开发门槛,这也是英伟达不断升级CUDA的主要原因。
直至今年6月,英伟达的老对手,超威半导体发布下一代数据中心加速处理器AMD MI300。业内认为,AMD的MI300,比英特尔和谷歌的产品更有机会挑战英伟达在人工智能领域的行业地位。
而且从技术层面来看,兼容意味着被动、落后,因为CUDA每一次升级,ROCm都需要做出对应升级,技术团队无法将所有精力用于ROCm生态圈的迭代上,应用场景和使用体验都会落后于英伟达。
英伟达垄断人工智能训练芯片市场的主要原因是其自研的CUDA生态。所以AMD MI300想要替代英伟达, 需要兼容英伟达的CUDA生态,AMD为此推出ROCm生态圈,并实现通过HIP完全兼容CUDA。
后者作为运算协处理器,并针对不同应用领域的需求,增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以满足不同计算场景的需要,英伟达的GH200和AMDMI300均属于这个领域。
在MI 300之前,需要训练芯片的用户大多数都选择英伟达的产品,在MI 300之后,这个情况短期内也不会改变。
自从去年11月ChatGPT发布以来,人工智能领域对算力的需求空前提升,英伟达几乎垄断了人工智能训练芯片市场,业内一直没有新玩家或新产品对其形成有效冲击。
虽然目前谷歌、微软等大厂都在积极布局云算力领域,但英伟达依旧是该领域最具竞争力的企业,谷歌TPU和AMD的产品同时聚焦高性价比市场,但由于后者可以全面兼容英伟达CUDA生态,对TensorFlow之外的深度学习框架包容度更高,故此在英伟达之外的玩家中,AMD的MI300或许有机会挑战英伟达的行业地位。
为其提供算力支撑的GPU行业也越来越细分。
在软件生态方面,AMD的ROCm与英伟达的CUDA相比,虽然起步较晚,但也在不断进步。ROCm已经支持Windows平台,并且融入了PyTorch2.0框架。谷歌TPU的成功,也展示了谷歌在AI领域的强大实力。AMD要想撼动英伟达的市场地位,还需要在软件生态上继续发力。HIPify-perl和HIPify-clang工具,可以帮助开发者将CUDA代码转换为HIP代码,这在一定程度上降低了AMD软件生态的门槛。
GPU行业正变得越来越细分。AMD的MI300,凭借其高性能和兼容性,有望在市场上占据一席之地。但要想撼动英伟达的市场地位,AMD还需要在软件生态上不断发力,提升其产品的竞争力。在未来的竞争中,AMD与英伟达的博弈将更加激烈,但无疑也将推动整个GPU行业的发展。