在9月24日举办的2024火山引擎AI创新巡展上,豆包视频大模型家族再添新丁。全新发布的豆包·视频生成模型,以及豆包·音乐模型、豆包·同声传译模型、豆包通用模型pro和文生图模型、语音合成模型等垂类模型迎来大幅升级,展现了火山引擎在AI领域的深厚实力。
火山引擎总裁谭待在巡展上表示,豆包视频生成模型支持多风格多比例的一致性多镜头生成,可应用于电商营销、动画教育、城市文旅、微剧本等领域。此前,视频生成模型大多只能完成简单指令,而豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互,首破多主体互动难题。
豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。同时,深度优化的Transformer结构大幅提升了豆包视频生成的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例。
官方介绍称,豆包视频生成大模型在语义理解能力、多个主体运动的复杂交互画面以及多镜头切换的内容一致性等方面,均达到业界先进水平。在电商营销领域,豆包视频生成模型能够帮助商家制作更具吸引力的广告视频,提升转化率;在动画教育领域,则能为动画师提供更高效的创作辅助。
有创作者在抢鲜体验豆包视频生成模型时发现,其生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。这一表现赢得了用户的广泛好评。
谭待表示,豆包大模型发布以来使用量爆发式增长。截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。
模型 | 日均tokens使用量 | 多模态数据处理量 |
---|---|---|
豆包语言模型 | 超过1.3万亿 | 每天5000万张图片和85万小时语音 |
在2024年9月24日的火山引擎AI创新巡展上,字节跳动旗下的豆包视频模型以其独特的功能引发了行业关注。火山引擎总裁谭待透露,豆包视频生成模型支持多风格、多比例的一致性多镜头生成,这一突破性技术为电商营销、动画教育、城市文旅等领域带来了全新的解决方案。
豆包视频生成模型的一大亮点在于其能够遵从复杂的prompt,实现时序性多拍动作指令与多个主体间的交互能力。这一特性打破了传统视频生成模型的局限,使得模型能够处理更加复杂和自然的场景。
技术优势 | 具体表现 |
---|---|
复杂prompt处理 | 实现时序性多拍动作指令 |
多主体交互 | 多个主体间的自然互动 |
豆包视频生成模型基于DiT架构,具备高效的DiT融合计算单元,这使得视频在大动态与运镜中能够自由切换,包括变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。此外,模型还具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。
深度优化的Transformer结构使得豆包视频生成模型的泛化能力大幅提升,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例。这一特性使得豆包视频生成模型不仅适用于企业场景,也能为专业创作者和艺术家提供强大的创作辅助。
豆包视频生成模型的应用场景广泛,包括电商营销、动画教育、城市文旅、微剧本等。