CogVideoX

这个站点主打高效、便捷的互联网体验，更多精彩内容等您亲自探索。

视频工具

6 个月前

1557

570

CogVideoX是智谱AI于2024年7月推出、8月开源的Diffusion‑Transformer（DiT）视频生成模型，主打文生视频（T2V）与图生视频（I2V），以高连贯、长时长、强可控与低显存占用为核心优势，同步上线“清影”平台，是国内首批商用级开源视频生成模型。以下从核心定位、技术架构、关键能力、版本与部署、适用场景等方面详细介绍。

核心定位与关键指标

定位：面向创作者与开发者的生产级视频生成，兼顾开源可定制与云服务易用性，覆盖短视频、广告、创意原型、内容二次创作等轻量化视频场景，不替代专业影视工业化流程。
核心指标（v1.5）：最长10秒、768P/4K分辨率、16fps/60fps、任意比例，支持文生/图生视频，复杂语义理解与运动合理性显著提升。

技术架构与创新点

3D因果变分自编码器（3D Causal VAE）
- 将原始视频数据压缩至2%，大幅降低训练与推理成本；采用因果3D卷积替代注意力模块，支持时间维度序列独立编解码，便于向更高帧率/更长时长泛化。
- 结合3D RoPE位置编码，强化帧间时序依赖捕捉，提升视频连贯性与运动自然度。
专家Transformer（Expert Transformer）
- 移除传统cross‑attention，输入阶段直接连接文本与视频embedding，通过expert自适应层归一化弥合模态差异。
- 3D全注意力+3D RoPE，强化视觉与语义对齐，提升复杂提示词理解与镜头/人物动作的细腻呈现。
数据筛选与渐进式训练
- 自动化数据筛选框架过滤“有害”数据（动态缺失、噪声大、编辑扭曲等），提升训练数据质量。
- 渐进式训练Pipeline，从短时长/低帧率到长时长/高帧率逐步优化，兼顾效率与生成质量。
低显存优化
- 2B模型FP16推理仅需18GB显存，5B微调约40GB，单张4090可完成推理与微调，降低部署门槛。

核心功能与能力

文生视频（T2V）
- 支持复杂场景与多角色交互描述，生成镜头调度自然、动作连贯的视频，适配短视频、广告片、产品演示等。
- 支持多风格指定（写实、卡通、赛博朋克等），同一提示可多通道并行生成，快速迭代创意。
图生视频（I2V）
- 保留原图主体、风格与构图，生成自然运动与镜头变化，支持任意尺寸比例，适配社交媒体、电商主图视频等。
- 提升美学表现与运动合理性，减少变形与闪烁，适合静态素材动态化。
可控性与扩展能力
- 支持任意比例与分辨率，适配手机竖屏、宽屏、海报等场景；可指定镜头运动（推/拉/摇/移）与节奏。
- 与CogSound音效模型联动，支持音视频同步生成，提升内容完整性。

模型版本与部署方式

1. 开源模型版本（截至2024年11月）

模型名	参数规模	核心能力	适用场景	显存要求
CogVideoX‑2B	2B	基础T2V，轻量高效	快速原型、入门级创作	推理18GB（FP16）
CogVideoX‑5B	5B	高质量T2V，复杂语义	专业创作、广告、短视频	推理24GB+，微调40GB
CogVideoX‑5B‑I2V	5B	高质量I2V，任意比例	图像动态化、二次创作	推理24GB+，微调40GB
CogVideoX v1.5‑5B/5B‑I2V	5B	10秒、768P、16fps，I2V质量提升	生产级创作、多场景适配	推理24GB+，微调40GB

2. 部署与使用方式

云服务：清影平台（chatglm.cn/video），支持4K/60fps、多通道输出、音视频联动，无需本地算力。
本地部署：Hugging Face/ModelScope开源权重，适配ComfyUI等可视化节点工具，支持自定义微调与插件扩展。
API调用：智谱开放平台提供T2V/I2V接口，支持批量生成与流程集成。

适用场景与局限

场景	典型应用	价值
短视频创作	抖音/小红书竖屏、B站中视频、产品种草视频	快速出片，降低创意试错成本
广告与营销	电商主图视频、活动预告片、品牌短片	轻量化制作，适配多渠道比例
创意原型	电影分镜动态化、动画概念验证、游戏CG片段	快速验证视觉叙事与镜头语言
内容二次创作	静态插画/照片转视频、图文内容动态化	提升内容复用与传播效率
开发者集成	嵌入App/工具的视频生成模块、自动化内容生产	低代码接入，快速上线视频能力