阿里云推出Qwen2-VL-72B视觉理解模型API，助力AI视觉应用

2025-04-21 19:21:09 股票分析 facai888

19|0条评论

视觉智能新时代：阿里云发布Qwen2-VL-72B视觉理解模型API

2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，短短一年内，模型下载量突破1000万次，成为开源社区最受欢迎的多模态模型之一。如今，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业对Qwen-VL的升级迭代更加关注。

轻松调用，赋能应用：阿里云百炼平台助力开发者

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API，轻松实现视觉智能应用的开发与部署。相比上代模型，Qwen2-VL的基础性能全面提升，能够读懂不同分辨率和不同长宽比的图片，支持20分钟以上长视频的理解，并具备强大的视觉智能体能力。

性能特点	应用场景
高分辨率图片理解	图像识别、图像搜索、图像编辑
长视频理解	视频监控、视频内容审核、视频推荐
视觉智能体能力	智能机器人、智能家居、智能驾驶
多语言文本理解	国际业务、多语言客服、多语言内容审核

全面提升，刷新全球领先成绩

相比上代模型，Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩，在部分指标上甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型。Qwen2-VL-72B在文档理解方面优势尤其明显，在综合的大学题目方面与 GPT-4o 存在差距。

多维度评估，模型能力全面开花

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B在大部分的指标上都达到了最优，展现出强大的视觉语言理解能力。

案例分享：Qwen2-VL-72B助力企业实现视觉智能升级

某知名企业通过引入Qwen2-VL-72B视觉理解模型API，成功实现了产品图片自动识别和分类，提升了产品管理效率。同时，结合Qwen2-VL-72B的视觉智能体能力，企业还实现了智能机器人辅助生产，进一步提升了生产效率。

未来展望：Qwen2-VL-72B引领视觉智能新趋势

随着Qwen2-VL-72B的推出，阿里云在视觉智能领域的技术实力得到印证。未来，Qwen2-VL-72B将继续助力企业实现视觉智能升级，推动人工智能技术在实际应用中的落地与发展。

完成了对阿里云推出Qwen2-VL-72B视觉理解模型API，助力AI视觉应用的讨论，再来看Qwen2-VL-72B赋能AI视觉，创新应用无限可能。

2023年8月，通义千问开源了首代视觉语言理解模型Qwen-VL，迅速在开源社区崭露头角，成为多模态模型中的佼佼者。短短一年间，其模型下载量已突破千万次。随着多模态模型在手机、车端等视觉识别场景的广泛应用，开发者和应用企业对Qwen-VL的升级迭代充满期待。

Qwen2-VL-72B：性能全面升级，赋能AI视觉创新应用

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API。与上代模型相比，Qwen2-VL-72B在基础性能上实现了全面提升。

功能	描述
图片理解	能够识别不同分辨率和不同长宽比的图片，并在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中取得全球领先成绩。
视频理解	支持理解20分钟以上的长视频，实现基于视频的问答、对话和内容创作等应用。
视觉智能体	具备强大的视觉智能体能力，可自主操作手机和机器人，实现复杂推理和决策，将模型集成到设备中，根据视觉环境和文字指令进行自动操作。
多语言文本理解	能够理解图像视频中的多语言文本，包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

Qwen2-VL-72B：六大能力评估，引领多模态模型发展

通义千问团队从六个方面对Qwen2-VL-72B的能力进行了评估，包括综合大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解和Agent能力。结果显示，Qwen2-VL-72B在大部分指标上均达到了最优，甚至在文档理解方面超越了GPT-4o和Claude3.5-Sonnet等闭源模型。

评估指标	描述
综合大学题目	在综合大学题目方面与GPT-4o存在一定差距。
数学能力	表现优异，达到最优水平。
文档表格多语言文字图像的理解	在文档理解方面具有明显优势，超越GPT-4o和Claude3.5-Sonnet等模型。
通用场景问答	表现良好，达到最优水平。
视频理解	支持理解20分钟以上的长视频，实现基于视频的问答、对话和内容创作等应用。
Agent能力	具备强大的视觉智能体能力，可自主操作手机和机器人，实现复杂推理和决策。