阿里通义千问于2024年8月29日发布了开源的新一代视觉语言模型Qwen2-VL。以下是它的一些主要特点和相关信息:

出色的多模态理解能力

能读懂不同分辨率和长宽比的图片:在多个视觉理解基准测试中取得全球领先表现,如 MathVista(考察数学推理能力)、DocVQA(考察文档图像理解能力)、RealWorldQA(考察真实世界空间理解能力)、MTVQA(考察多语言理解能力)等。
能理解长视频:可理解20分钟以上的长视频,并应用于基于视频的问答、对话和内容创作等。例如,用户上传一段视频后,它可以总结视频要点、即时回答相关问题,并维持连贯对话,帮助用户从视频中获取有价值信息。

强大的功能与应用场景

准确的文字与公式识别转写:能准确识别手写文字、图中文字,包括葡萄牙语、中文等多种语种,还能轻松转写数学公式以及多种语言文字。
解决多种问题:可以理解并回答数学平面几何题目、LeetCode 平台的编程题目等,也能识别如尺寸较大的技术文档截图等,并回答用户提问。还能根据各种软件截屏抓取用户需要的信息,并以特定格式(如表格、段落编号方式、JSON 格式的数组)输出。

视觉智能体能力

借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,成为视觉智能体,根据视觉环境和文字指令进行自动操作,初步展现出利用视觉能力实现自动化工具调用和交互的潜力,比如可进行实时数据检索,如查询航班状态、天气预报、包裹追踪等。

多语言支持

除了英语和中文外,现在还支持理解图像中的大多数欧洲语言、日语、韩语、阿拉伯语、越南语等多语言文本。

通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,并发布了 Qwen2-VL-72B 的 API,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯