首页 > 资讯 > 内容

阿里云推出大规模视觉语言模型Qwen-VL已在ModeScope开源

发布时间：2023-08-27 10:32:30 来源：TechWeb 阅读量：5883

小中大

字号：

阿里云今日推出了大规模视觉语言模型Qwen-VL，目前已经在ModeScope开源，IT之家早前曾报道，阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。

据悉，Qwen-VL是一款支持中英文等多种语言的视觉语言模型，相较于此前的VL模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

Qwen-VL以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的LVLM模型通常仅支持224分辨率。

官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。

此外，在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于GPT-4打分机制的测试集 “试金石”，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

猜

你

喜

欢

推荐阅读

今日头条

英伟达发布新一代高端GPU RTX40系列，它能刺激玩家再次入手吗？

英伟达发布新一代高端GPU RTX40系

每日精选

猜你喜欢

理想汽车下调三季度交付数量预期，8月交付量

精彩图片

云台山重启IPO，能否争得“河南旅游第一股”

云台山重启IPO，

二甲戊灵价格延续猛涨态势，贝斯美三季度净利预增最高570%

二甲戊灵价格延续猛

8月工业企业利润同比降幅收窄，汽车、电力行业利润翻倍

8月工业企业利润同

全球半导体出货额7月同比下滑1.8%，近三年来首次同比下降

全球半导体出货额7

腾讯音乐发表上市公开信：站在新的起点，携手更多伙伴，创造音乐无限可能

腾讯音乐发表上市公

百度搜索发布两项新技术，每天已向用户提供亿万次搜索结果

百度搜索发布两项新