阿里WAN(通义万相)大模型是阿里巴巴开发的一系列开源视频生成大模型。它旨在推动AI视频生成技术的边界,支持从文本或图像生成高质量视频。以下是对该模型的详细介绍:

基本介绍

  • 研发单位:由阿里巴巴通义实验室研发。

  • 核心版本演进:Wan2.1于2025年2-3月开源,包含14B和1.3B参数规模模型,支持文生视频和图生视频;Wan2.2在2025年7月28日发布,首次将MoE架构引入视频生成,支持消费级显卡运行;Wan2.5于2025年9月24日发布,实现原生音画同步;Wan2.6在2025年12月发布,具备多镜头叙事、角色保持一致等能力。

技术特点与核心能力

  • Wan2.1技术亮点:采用3D因果VAE架构,专为视频设计的时空压缩,可减少60%显存占用;基于Diffusion Transformer基础,结合扩散模型的生成能力与Transformer的长程依赖建模;是首个支持中英双语视觉文本生成的视频模型;覆盖文生视频、图生视频、视频编辑等八大任务。

  • Wan2.2突破性创新:采用MoE架构,将视频生成分为高噪和低噪阶段,由不同专家模型处理,在保持计算成本下提升容量;5B参数版本可在RTX 4090等消费级显卡流畅运行,生成720P@24fps视频;270亿参数版本实现专业级视觉效果和复杂运动控制。

  • Wan2.5核心突破:实现原生音画同步,单一生成管道同时处理视觉、语言和声音,一步生成音画匹配的完整视频;支持文本、图像、音频任意组合输入,理解“镜头语言”;支持480p/720p/1080p分辨率,最长10秒视频生成。

  • Wan2.6核心能力:具备多镜头叙事能力,简单的提示词可生成包含多个镜头的连贯叙事视频;角色保持一致,支持角色扮演,让角色出演用户剧本;音画同步再升级,多人对话场景和歌曲生成等更稳定;支持生成15秒视频,实现更完整叙事。

开源与技术细节公开情况

  • 技术文档:已公开发布《Wan: Open and Advanced Large-Scale Video Generative Models》等论文,详细介绍模型架构、创新点、训练方法和实验结果。

  • 开源代码与权重:全系列模型的完整代码和权重已开源,采用Apache 2.0协议,开源平台包括GitHub、Hugging Face、魔搭社区等,包含推理代码、训练策略和使用示例。

  • 技术报告:发布了Wan2.1技术报告、Wan2.2技术文档、Wan2.5技术白皮书等,分别深入解析了各版本的模型架构、时空注意力机制、因果VAE设计、MoE架构应用、音画同步实现原理和多模态融合技术等内容。

使用场景

  • 内容创作:可用于电影分镜、广告制作、短视频创意等。

  • 产品演示:一键生成产品功能展示视频。

  • 游戏开发:快速创建游戏过场动画、角色动画。

  • 教育内容:自动生成教学视频,降低制作门槛。

  • 个人创作:用户上传图片加文本描述,生成个性化纪念视频。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯