WAN

阿里通义万相视频生成大模型

视频工具 1 个月前 682 214 0

阿里WAN（通义万相）大模型是阿里巴巴开发的一系列开源视频生成大模型。它旨在推动AI视频生成技术的边界，支持从文本或图像生成高质量视频。以下是对该模型的详细介绍：

基本介绍

研发单位：由阿里巴巴通义实验室研发。
核心版本演进：Wan2.1于2025年2-3月开源，包含14B和1.3B参数规模模型，支持文生视频和图生视频；Wan2.2在2025年7月28日发布，首次将MoE架构引入视频生成，支持消费级显卡运行；Wan2.5于2025年9月24日发布，实现原生音画同步；Wan2.6在2025年12月发布，具备多镜头叙事、角色保持一致等能力。

技术特点与核心能力

Wan2.1技术亮点：采用3D因果VAE架构，专为视频设计的时空压缩，可减少60%显存占用；基于Diffusion Transformer基础，结合扩散模型的生成能力与Transformer的长程依赖建模；是首个支持中英双语视觉文本生成的视频模型；覆盖文生视频、图生视频、视频编辑等八大任务。
Wan2.2突破性创新：采用MoE架构，将视频生成分为高噪和低噪阶段，由不同专家模型处理，在保持计算成本下提升容量；5B参数版本可在RTX 4090等消费级显卡流畅运行，生成720P@24fps视频；270亿参数版本实现专业级视觉效果和复杂运动控制。
Wan2.5核心突破：实现原生音画同步，单一生成管道同时处理视觉、语言和声音，一步生成音画匹配的完整视频；支持文本、图像、音频任意组合输入，理解“镜头语言”；支持480p/720p/1080p分辨率，最长10秒视频生成。
Wan2.6核心能力：具备多镜头叙事能力，简单的提示词可生成包含多个镜头的连贯叙事视频；角色保持一致，支持角色扮演，让角色出演用户剧本；音画同步再升级，多人对话场景和歌曲生成等更稳定；支持生成15秒视频，实现更完整叙事。

开源与技术细节公开情况

技术文档：已公开发布《Wan: Open and Advanced Large-Scale Video Generative Models》等论文，详细介绍模型架构、创新点、训练方法和实验结果。
开源代码与权重：全系列模型的完整代码和权重已开源，采用Apache 2.0协议，开源平台包括GitHub、Hugging Face、魔搭社区等，包含推理代码、训练策略和使用示例。
技术报告：发布了Wan2.1技术报告、Wan2.2技术文档、Wan2.5技术白皮书等，分别深入解析了各版本的模型架构、时空注意力机制、因果VAE设计、MoE架构应用、音画同步实现原理和多模态融合技术等内容。

使用场景