阿里云开源通义千问多模态视觉模型Qwen-VL,号称“远超同等规模通用模
,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,IT之家早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。
据悉,Qwen-VL 是一款支持中英文等多种语言的视觉语言模型,相较于此前的 VL 模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
猜你喜欢
- 国家统计局:1至7月份全国规模以上工业企业利润下降15.5%
- 中芯国际上半年营收同比下降13.3%市场仍处库存消化阶段
- 三部门发文:到2025年农业高质量发展标准体系基本建立
- 马斯克试驾量产候选版Cybertruck,赞其是特斯拉“有史以来最好产品
- 与华为续签专利交叉许可协议后,爱立信预计今年知识产权许可收入将达110亿
- 中国人寿积极构建“寿险+”综合金融生态圈
- 中国大地保险:争分夺秒!众志成城!助力打好灾后重建战
- 17.68万元起比亚迪海豹DM-i开启预售:狙击合资燃油B级车
- 香港证监会:期货交易活动风险管理指引公布2024年2月25日生效
- 消息称英伟达正扩充“非台积电供应链”,令“硅中介层”月产能增加两倍至1万
-
最新内容