自2022年底ChatGPT横空出世,以其惊人的速度突破亿级用户大关,成为人类历史上最快达到这一里程碑的消费级互联网应用。而其背后的GPT-4大模型,更是在多项测试中超越了90%的人类表现。
MiniMax作为国内少数推出自研大模型产品的AI技术公司,拥有文本、视觉、声音三种通用大模型引擎能力。据MiniMax联合创始人杨斌透露,公司与火山引擎携手共建了超大规模实验平台,实现了千卡级常态化训练,并拥有万卡级算力池,支撑单日过亿次调用,在大模型业务上取得了快速突破。
火山引擎机器学习平台,经过抖音等海量用户业务的长期打磨,支持单任务万卡级别的超大规模分布式并行训练场景,GPU弹性计算实例可灵活调度资源,随用随取,最高可为客户节省70%的算力成本。
火山引擎:让大模型训练快速跑起来
火山引擎副总裁谭待表示,国内数十家做大模型的企业大多已在火山引擎云上,但大模型不会一家独大。火山引擎选择接入多家大模型深度合作,为企业和消费者提供更丰富的AI应用。
字节跳动副总裁杨震原指出,业务创新需要试错,试错要大胆、敏捷,但也要控制成本。火山引擎通过潮汐、混部等方式,实现资源的高利用率和极低成本。以抖音推荐系统为例,工程师用15个月的样本训练某个模型,仅需5小时就能完成训练,成本仅为5000元。抖音“AI绘画”特效从启动到上线仅需一周多时间,模型由一名算法工程师完成训练。
火山引擎致力于为大模型客户提供高稳定性和高性价比的AI基础设施,顺势推出了分布式云原生平台、多云安全、多云CDN、veStack混合云平台等系列产品,支持客户更好地使用多家云服务。
火山引擎新一代自研DPU实现计算、存储、网络的全组件卸载,释放更多资源给业务负载。其自研DPU已达到业界领先水平,网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的GPU实例,相较上一代实例集群性能最高提升3倍以上。
火山引擎大模型云平台已获得智谱AI、昆仑万维等众多企业的良好反馈,国内大模型领域七成以上已是火山引擎客户。
有评论称,大模型将成为云厂商弯道超车的机会。火山引擎副总裁谭待表示,大模型还在发展初期,面临数据安全、内容安全、隐私保护、版权保护等许多问题需要努力解决。但可以预见,大模型将带动云上AI算力急剧增长,AI算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会对数据中心、软硬件栈、PaaS平台带来新的挑战。
自动驾驶公司毫末智行与火山引擎合作打造智算中心,为DriveGPT自动驾驶生成式预训练模型提供强大的算力支持。毫末智行CEO顾维灏介绍,DriveGPT使用量产车4000万公里的人驾数据训练,参数规模达1200亿,对自动驾驶认知决策模型进行持续优化。
火山引擎宣布与字节跳动国内业务并池,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度10万核CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠80%以上。
字节跳动副总裁杨震原分享抖音的机器学习实践
谭待指出,因为大模型及下游应用的发展,无论传统企业还是初创企业,对AI算力的需求日益迫切,企业将趋向于使用多家云服务。谭待强调,大模型不会一家独大,而是将在千行百业中生长,形成多模型共生甚至协作的生态。未来,将是“多云多模型”的时代。
火山引擎发布新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。火山引擎总裁谭待表示,AI大模型有巨大潜力和创新空间,火山引擎会服务客户,共同推动各行业的智能化升级。
杨震原进一步表示,火山引擎对内对外提供统一的产品,抖音、今日头条等APP开屏都加上了“火山引擎提供计算服务”。杨震原说:“数字化时代,机器学习可以智能、高效地围绕目标解决问题。数字化的下一步是智能化,我们在机器学习方面的技术积累和经验,都会通过火山引擎提供给外部客户,帮助更多企业做好智能化”。
谭待表示,大模型需要大算力,虚拟化会带来资源损耗,规模越大就损耗越多。未来3年内,大规模的算力中心,都将形成‘CPU+GPU+DPU’的混合算力结构,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离,提升资源效率。