Qwen2-VL

阿里新一代视觉语言模型

训练模型 8 个月前 1135 147 0

阿里通义千问于2024年8月29日发布了开源的新一代视觉语言模型Qwen2-VL。以下是它的一些主要特点和相关信息：

出色的多模态理解能力：

能读懂不同分辨率和长宽比的图片：在多个视觉理解基准测试中取得全球领先表现，如 MathVista（考察数学推理能力）、DocVQA（考察文档图像理解能力）、RealWorldQA（考察真实世界空间理解能力）、MTVQA（考察多语言理解能力）等。
能理解长视频：可理解20分钟以上的长视频，并应用于基于视频的问答、对话和内容创作等。例如，用户上传一段视频后，它可以总结视频要点、即时回答相关问题，并维持连贯对话，帮助用户从视频中获取有价值信息。

强大的功能与应用场景：

准确的文字与公式识别转写：能准确识别手写文字、图中文字，包括葡萄牙语、中文等多种语种，还能轻松转写数学公式以及多种语言文字。
解决多种问题：可以理解并回答数学平面几何题目、LeetCode 平台的编程题目等，也能识别如尺寸较大的技术文档截图等，并回答用户提问。还能根据各种软件截屏抓取用户需要的信息，并以特定格式（如表格、段落编号方式、JSON 格式的数组）输出。