Z-Image

阿里通义图像生成基础模型

图像工具

7 个月前

2935

868

直达应用

Z-Image是阿里通义实验室推出的一款开源、免费的高效图像生成基础模型。

模型特点
- 参数量与性能：参数量为6B，却能生成与顶级商业模型相媲美的超真实图像，在Hugging Face趋势榜登顶双榜第一，发布首日下载量达50万。
- 推理速度：其蒸馏优化版本Z-Image-Turbo在企业级H800 GPU上可实现亚秒级推理延迟，仅需8步推理即可生成高质量图像，在消费级显卡上也能快速出图，如在RTX 4090上生成1024×1024分辨率图像仅需2.3秒。
- 显存需求：只需不到16GB显存的消费级显卡就能流畅运行，使高级图像生成变得更加普及。
- 中英双语文本渲染：Z-Image-Turbo能精准渲染中英文混合文本，在小字号、复杂排版等场景下，也能保持文字清晰、版式自然，同时不牺牲人脸真实感与整体画面美感。
- 知识与文化理解：具备对现实世界的广泛认知，能准确生成著名地标、知名人物及特定文化元素，还能通过提示词增强器处理如“鸡兔同笼”逻辑题、古诗可视化等复杂任务。
- 图像编辑能力：Z-Image-Edit可精准执行复合编辑指令，如“让人物微笑+转头+背景换成樱花+添加中文标语”等，并在大幅修改中保持身份、光照、风格的高度一致性。
模型架构：创新采用单流扩散Transformer（S³-DiT），将文本、图像潜变量与时间步条件统一为单序列输入，实现跨模态早融合，显著提升参数利用率。
训练策略：通过三阶段渐进式策略，即低分辨率预训练→全任务泛化训练→RLHF对齐，系统性注入世界知识并精准对齐人类偏好。
模型版本：目前有Z-Image-Base基础模型、Z-Image-Turbo蒸馏优化版本以及Z-Image-Edit图像编辑专用模型三个版本。