Z-Image是阿里通义实验室推出的一款开源、免费的高效图像生成基础模型。

  • 模型特点
    • 参数量与性能:参数量为6B,却能生成与顶级商业模型相媲美的超真实图像,在Hugging Face趋势榜登顶双榜第一,发布首日下载量达50万。
    • 推理速度:其蒸馏优化版本Z-Image-Turbo在企业级H800 GPU上可实现亚秒级推理延迟,仅需8步推理即可生成高质量图像,在消费级显卡上也能快速出图,如在RTX 4090上生成1024×1024分辨率图像仅需2.3秒。
    • 显存需求:只需不到16GB显存的消费级显卡就能流畅运行,使高级图像生成变得更加普及。
    • 中英双语文本渲染:Z-Image-Turbo能精准渲染中英文混合文本,在小字号、复杂排版等场景下,也能保持文字清晰、版式自然,同时不牺牲人脸真实感与整体画面美感。
    • 知识与文化理解:具备对现实世界的广泛认知,能准确生成著名地标、知名人物及特定文化元素,还能通过提示词增强器处理如“鸡兔同笼”逻辑题、古诗可视化等复杂任务。
    • 图像编辑能力:Z-Image-Edit可精准执行复合编辑指令,如“让人物微笑+转头+背景换成樱花+添加中文标语”等,并在大幅修改中保持身份、光照、风格的高度一致性。
  • 模型架构:创新采用单流扩散Transformer(S³-DiT),将文本、图像潜变量与时间步条件统一为单序列输入,实现跨模态早融合,显著提升参数利用率。
  • 训练策略:通过三阶段渐进式策略,即低分辨率预训练→全任务泛化训练→RLHF对齐,系统性注入世界知识并精准对齐人类偏好。
  • 模型版本:目前有Z-Image-Base基础模型、Z-Image-Turbo蒸馏优化版本以及Z-Image-Edit图像编辑专用模型三个版本。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯