腾讯 引领行业潮流,其自研的混元大模型迎来重大升级,新增了备受关注的文生图功能。这一创新功能不仅实现了文字描述生成图像的突破,更标志着腾讯在AI领域的又一次飞跃。
文生图作为AIGC领域的核心技术之一,对模型算法、训练平台、算力设施都有较高的要求。腾讯混元大模型在文生图功能上实现了质的飞跃,其背后的技术突破值得深入探讨。
据悉,腾讯混元大模型在文生图功能上,通过优化算法提升了模型对细节的感知能力与生成效果,有效避免了多文化差异下的理解错误。此外,腾讯混元大模型在语义理解方面,采用了中英文双语细粒度的模型,实现了中英文的双向理解。
腾讯混元大模型的文生图功能,应用场景丰富多样。从素材创作、商品合成、游戏出图,到广告业务下的多轮测评,腾讯混元文生图的案例优秀率和广告主采纳率均表现出色。
在业界公认难度较高的人脸画像生成上,腾讯混元也交出了令人满意的作品。例如,输入提示词“生成可爱的亚洲4岁女孩穿着棉质连衣裙,大眼睛,古代中国,摄影风格,汉服”,腾讯混元大模型生成的人像,不仅完美地理解了提示词中的内容,还在风格上完美地展示了“古代中国”的风格要求。
腾讯混元大模型在技术上的优势,使其在文生图功能上实现了行业领先。腾讯自研一站式机器学习平台Angel,为混元大模型提供了强大的技术支撑。
AngelPTM训练框架提供高效的分布式训练解决方案,具备业界领先的内存利用率和训练吞吐效率;AngelHCF训练框架则支持多种模型并行,保证模型的最小化部署及最大化吞吐,推理速度相比业界主流框架FasterTransformer快1.3倍。
因为文生图功能的推出,腾讯混元大模型在图像处理能力上进一步丰富,将为AI领域带来更多可能性。未来,腾讯混元大模型将继续引领AI新潮流,为各行各业带来更多创新应用。
图像生成技术正以其独特魅力,不断推动着创意产业的发展。腾讯,这一科技巨头,近期推出文生图新升级,将创意的边界 拓宽,引领行业迈向无限可能。
腾讯自研的7B和13B模型在文生图领域首次亮相,以其卓越的性能,成为了业界的焦点。在同等效果下,这一模型仅需较少的tokens,大大提升了训练效率。在模型实测中,无论是中英文效果,腾讯自研模型均优于国内外开源模型,以更高的性价比和效率,满足了各种垂直场景和业务需求。
腾讯不仅掌握了从模型算法到机器学习框架再到AI基础设施的全链路自研技术,这为大模型的快速迭代提供了有利条件。自首次公开亮相以来,腾讯混元大模型已进入加速升级的轨道,在自研算法的支持下,模型的稳定性和可靠性稳步提升。
在过去的一个月中,腾讯混元大模型在各项能力上均有显著升级,尤其是在代码、数学能力上有了大幅提升。通过学习32种主流语言代码文件、各类计算机书籍和博客,腾讯混元代码处理水平提升超过20%,在HumanEval公开测试集指标上全面超过Starcoder、Codellama等业界头部开源代码大模型。
大模型的多模态交互能力被认为是通往通用人工智能的必由之路。腾讯混元大模型正在不断强化图片、视频、音频等各类模态的处理能力,相关成果也将很快面向外界推出,为通用人工智能的发展贡献腾讯力量。
作为实用级的通用大模型,腾讯混元大模型的应用场景丰富多样。目前,超过180个腾讯内部业务已接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。QQ浏览器还基于腾讯混元推出了“PDF阅读助手”,具备智能摘要、智能问答和多轮提问等功能。
腾讯工蜂Copilot通过接入混元大模型,可根据注释生成对应代码,或基于上下文智能补全代码,大大提高了编程效率。混元大模型还可以帮助用户进行代码漏洞检测和修复,保障软件开发过程中的安全性。
在内容合理性方面,AI生成人体结构和手部经常容易变形。混元文生图通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,减少错误率。
在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过模型算法的优化之后,混元文生图的人像模型,包含发丝、皱纹等细节的效果提升了30%,场景模型,包含草木、波纹等细节的效果提升了25%。