模型简介

Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL系列的基础上，使用对齐机制打造的视觉AI助手，该模型有更优秀的中文指令跟随，支持更灵活的交互方式，包括多图、多轮问答、创作等能力。

使用场景

Qwen-VL-Chat是通用多模态大规模语言模型，可以完成多种视觉语言任务，被应用于视觉问答，文字理解，图表数学推理，多图理解和Grounding（根据指令标注图片中指定区域的包围框）等多方面。

评测效果

零样本图像描述生成（Zero-shot Image Caption）及通用视觉问答（General VQA）

在 Zero-shot Captioning 中，Qwen-VL 在 Flickr30K 数据集上取得了 SOTA 的结果，并在 Nocaps 数据集上取得了和 InstructBlip可竞争的结果。
在 General VQA 中，Qwen-VL 取得了 LVLM 模型同等量级和设定下 SOTA 的结果。

细粒度视觉定位（Referring Expression Comprehension）

在定位任务上，Qwen-VL 全面超过 Shikra-13B，取得了目前 Generalist LVLM 模型上在 Refcoco 上的 SOTA 。
Qwen-VL 并没有在任何中文定位数据上训练过，但通过中文 Caption 数据和英文 Grounding 数据的训练，可以 Zero-shot 泛化出中文 Grounding 能力。

对话能力测评

采用TouchStone测评，它是一个基于 GPT4 打分来评测 LVLM 模型的图文对话能力和人类对齐水平的基准。

测评结果如下：

英语

Model	Score
PandaGPT	488.5
MiniGPT4	531.7
InstructBLIP	552.4
LLaMA-AdapterV2	590.1
LLaVA	602.7
mPLUG-Owl	605.4
Qwen-VL-Chat	645.2
Qwen-VL-Chat-1.1	711.6

中文

Model	Score
VisualGLM	247.1
Qwen-VL-Chat	401.2
Qwen-VL-Chat-1.1	481.7

Qwen-VL-Chat 模型在中英文的对齐评测中均取得当前 LVLM 模型下的最好结果。

技术亮点

强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果。
多语言对话模型：天然支持多语言对话，端到端支持图片里中英双语的长文本识别。
多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等。
首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注。
细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

版本列表

版本列表	版本说明
Qwen-VL-Chat	Qwen-VL系列模型提供了Qwen-VL和Qwen-VL-Chat两个模型，分别为预训练模型和Chat模型。

免责声明

Qwen-VL-Chat模型，来源于第三方，本平台不保证其合规性，请您在使用前慎重考虑，确保合法合规使用并遵守第三方的要求。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

一站式智算服务平台（文档停止维护）

一站式智算服务平台（文档停止维护）

模型简介

使用场景

评测效果

英语

中文

技术亮点

版本列表

相关资源及引用

相关资源

相关引用

免责声明

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

一站式智算服务平台（文档停止维护）

一站式智算服务平台（文档停止维护）

模型简介

使用场景

评测效果

英语

中文

技术亮点

版本列表

相关资源及引用

相关资源

相关引用

免责声明