2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,短短一年内,模型下载量突破1000万次,成为开源社区最受欢迎的多模态模型之一。如今,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业对Qwen-VL的升级迭代更加关注。
用户可通过阿里云百炼平台调用Qwen2-VL-72B的API,轻松实现视觉智能应用的开发与部署。相比上代模型,Qwen2-VL的基础性能全面提升,能够读懂不同分辨率和不同长宽比的图片,支持20分钟以上长视频的理解,并具备强大的视觉智能体能力。
性能特点 | 应用场景 |
---|---|
高分辨率图片理解 | 图像识别、图像搜索、图像编辑 |
长视频理解 | 视频监控、视频内容审核、视频推荐 |
视觉智能体能力 | 智能机器人、智能家居、智能驾驶 |
多语言文本理解 | 国际业务、多语言客服、多语言内容审核 |
相比上代模型,Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,在部分指标上甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型。Qwen2-VL-72B在文档理解方面优势尤其明显,在综合的大学题目方面与 GPT-4o 存在差距。
通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B在大部分的指标上都达到了最优,展现出强大的视觉语言理解能力。
某知名企业通过引入Qwen2-VL-72B视觉理解模型API,成功实现了产品图片自动识别和分类,提升了产品管理效率。同时,结合Qwen2-VL-72B的视觉智能体能力,企业还实现了智能机器人辅助生产,进一步提升了生产效率。
随着Qwen2-VL-72B的推出,阿里云在视觉智能领域的技术实力 得到印证。未来,Qwen2-VL-72B将继续助力企业实现视觉智能升级,推动人工智能技术在实际应用中的落地与发展。
2023年8月,通义千问开源了首代视觉语言理解模型Qwen-VL,迅速在开源社区崭露头角,成为多模态模型中的佼佼者。短短一年间,其模型下载量已突破千万次。随着多模态模型在手机、车端等视觉识别场景的广泛应用,开发者和应用企业对Qwen-VL的升级迭代充满期待。
用户可通过阿里云百炼平台调用Qwen2-VL-72B的API。与上代模型相比,Qwen2-VL-72B在基础性能上实现了全面提升。
功能 | 描述 |
---|---|
图片理解 | 能够识别不同分辨率和不同长宽比的图片,并在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中取得全球领先成绩。 |
视频理解 | 支持理解20分钟以上的长视频,实现基于视频的问答、对话和内容创作等应用。 |
视觉智能体 | 具备强大的视觉智能体能力,可自主操作手机和机器人,实现复杂推理和决策,将模型集成到设备中,根据视觉环境和文字指令进行自动操作。 |
多语言文本理解 | 能够理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。 |
通义千问团队从六个方面对Qwen2-VL-72B的能力进行了评估,包括综合大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解和Agent能力。结果显示,Qwen2-VL-72B在大部分指标上均达到了最优,甚至在文档理解方面超越了GPT-4o和Claude3.5-Sonnet等闭源模型。
评估指标 | 描述 |
---|---|
综合大学题目 | 在综合大学题目方面与GPT-4o存在一定差距。 |
数学能力 | 表现优异,达到最优水平。 |
文档表格多语言文字图像的理解 | 在文档理解方面具有明显优势,超越GPT-4o和Claude3.5-Sonnet等模型。 |
通用场景问答 | 表现良好,达到最优水平。 |
视频理解 | 支持理解20分钟以上的长视频,实现基于视频的问答、对话和内容创作等应用。 |
Agent能力 | 具备强大的视觉智能体能力,可自主操作手机和机器人,实现复杂推理和决策。 |
Qwen2-VL-72B的发布,标志着AI视觉领域的发展迈入了一个新的阶段。在多个权威测评中,Qwen2-VL-72B刷新了多模态模型的最佳成绩,在部分指标上甚至超越了GPT-4o和Claude3.5-Sonnet等闭源模型。
随着Qwen2-VL-72B在更多场景中的应用,AI视觉领域将迎来更多创新和突破,为各行各业带来更多可能性。