阿里云推出Qwen2-VL-72B视觉理解模型API,助力AI视觉应用

2025-04-21 19:21:09 股票分析 facai888

视觉智能新时代:阿里云发布Qwen2-VL-72B视觉理解模型API

2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,短短一年内,模型下载量突破1000万次,成为开源社区最受欢迎的多模态模型之一。如今,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业对Qwen-VL的升级迭代更加关注。

轻松调用,赋能应用:阿里云百炼平台助力开发者

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API,轻松实现视觉智能应用的开发与部署。相比上代模型,Qwen2-VL的基础性能全面提升,能够读懂不同分辨率和不同长宽比的图片,支持20分钟以上长视频的理解,并具备强大的视觉智能体能力。

性能特点 应用场景
高分辨率图片理解 图像识别、图像搜索、图像编辑
长视频理解 视频监控、视频内容审核、视频推荐
视觉智能体能力 智能机器人、智能家居、智能驾驶
多语言文本理解 国际业务、多语言客服、多语言内容审核

全面提升,刷新全球领先成绩

相比上代模型,Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,在部分指标上甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型。Qwen2-VL-72B在文档理解方面优势尤其明显,在综合的大学题目方面与 GPT-4o 存在差距。

多维度评估,模型能力全面开花

通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B在大部分的指标上都达到了最优,展现出强大的视觉语言理解能力。

案例分享:Qwen2-VL-72B助力企业实现视觉智能升级

某知名企业通过引入Qwen2-VL-72B视觉理解模型API,成功实现了产品图片自动识别和分类,提升了产品管理效率。同时,结合Qwen2-VL-72B的视觉智能体能力,企业还实现了智能机器人辅助生产,进一步提升了生产效率。

未来展望:Qwen2-VL-72B引领视觉智能新趋势

随着Qwen2-VL-72B的推出,阿里云在视觉智能领域的技术实力 得到印证。未来,Qwen2-VL-72B将继续助力企业实现视觉智能升级,推动人工智能技术在实际应用中的落地与发展。


完成了对阿里云推出Qwen2-VL-72B视觉理解模型API,助力AI视觉应用的讨论,再来看Qwen2-VL-72B赋能AI视觉,创新应用无限可能。

2023年8月,通义千问开源了首代视觉语言理解模型Qwen-VL,迅速在开源社区崭露头角,成为多模态模型中的佼佼者。短短一年间,其模型下载量已突破千万次。随着多模态模型在手机、车端等视觉识别场景的广泛应用,开发者和应用企业对Qwen-VL的升级迭代充满期待。

Qwen2-VL-72B:性能全面升级,赋能AI视觉创新应用

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API。与上代模型相比,Qwen2-VL-72B在基础性能上实现了全面提升。

功能 描述
图片理解 能够识别不同分辨率和不同长宽比的图片,并在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中取得全球领先成绩。
视频理解 支持理解20分钟以上的长视频,实现基于视频的问答、对话和内容创作等应用。
视觉智能体 具备强大的视觉智能体能力,可自主操作手机和机器人,实现复杂推理和决策,将模型集成到设备中,根据视觉环境和文字指令进行自动操作。
多语言文本理解 能够理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

Qwen2-VL-72B:六大能力评估,引领多模态模型发展

通义千问团队从六个方面对Qwen2-VL-72B的能力进行了评估,包括综合大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解和Agent能力。结果显示,Qwen2-VL-72B在大部分指标上均达到了最优,甚至在文档理解方面超越了GPT-4o和Claude3.5-Sonnet等闭源模型。

评估指标 描述
综合大学题目 在综合大学题目方面与GPT-4o存在一定差距。
数学能力 表现优异,达到最优水平。
文档表格多语言文字图像的理解 在文档理解方面具有明显优势,超越GPT-4o和Claude3.5-Sonnet等模型。
通用场景问答 表现良好,达到最优水平。
视频理解 支持理解20分钟以上的长视频,实现基于视频的问答、对话和内容创作等应用。
Agent能力 具备强大的视觉智能体能力,可自主操作手机和机器人,实现复杂推理和决策。

Qwen2-VL-72B:赋能AI视觉创新应用,引领行业发展

Qwen2-VL-72B的发布,标志着AI视觉领域的发展迈入了一个新的阶段。在多个权威测评中,Qwen2-VL-72B刷新了多模态模型的最佳成绩,在部分指标上甚至超越了GPT-4o和Claude3.5-Sonnet等闭源模型。

随着Qwen2-VL-72B在更多场景中的应用,AI视觉领域将迎来更多创新和突破,为各行各业带来更多可能性。

搜索
最近发表
标签列表