合众财经

阿里云开源通义千问多模态视觉模型Qwen-VL，聚焦多模态图像理解

2025-04-30 21:45:01 投资策略 facai888

59|0条评论

阿里云开源通义千问多模态视觉模型Qwen-VL

视觉语言模型的崛起：阿里云开源Qwen-VL的深远意义

视觉语言模型正逐渐成为人工智能领域的新宠。阿里云近日开源的通义千问多模态视觉模型Qwen-VL，无疑为这一领域注入了一剂强心针。它不仅标志着阿里云在人工智能领域的深入布局，更预示着多模态图像理解技术的新篇章。

Qwen-VL，一款由阿里云推出的开源多模态视觉模型，其核心在于对多模态图像的理解。它能够应用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，为用户带来前所未有的便捷体验。

阿里云开源通义千问多模态视觉模型Qwen-VL，聚焦多模态图像理解

技术创新：GPT-4打分机制与对齐机制

为了测试模型的多模态对话能力，通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”，对Qwen-VL-Chat及其他模型进行对比测试。结果显示，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。此外，在Qwen-VL的基础上，团队还使用了对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，让开发者快速搭建具备多模态能力的对话应用。

语言支持与模型架构：多语言能力与视觉编码器

据悉，Qwen-VL是一款支持中英文等多种语言的视觉语言模型。相较于此前的VL模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。在模型架构上，Qwen-VL以Qwen-7B为基座语言模型，引入视觉编码器，使得模型支持视觉信号输入。值得一提的是，该模型支持的图像输入分辨率为448，远超此前开源的LVLM模型通常仅支持的224分辨率。

开源模式：阿里云AI技术的分享与创新

DoNews8月25日消息，阿里云25日推出了大规模视觉语言模型Qwen-VL，目前已经在ModeScope开源。值得注意的是，这并非阿里云首次开源AI技术。此前，阿里云已经开源了通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。这一系列的开源举措，不仅有助于推动人工智能技术的发展，也为开发者提供了丰富的技术资源。