DreamVVT

视频虚拟试穿（VVT）

设计工具

8 个月前

1808

450

视频虚拟试穿（VVT）技术在电子商务广告和娱乐领域应用前景广阔，受到了学术界的广泛关注。但大多数现有端到端方法严重依赖稀缺的以服装为中心的配对数据集，且未能有效利用先进视觉模型的先验知识和测试时输入，难以在无约束场景中准确保留服装细节并保持时间一致性。

DreamVVT是由字节跳动与清华大学（深圳）联合推出的全新视频虚拟试穿框架。它基于扩散变换器（DiTs），能为各种服装和无约束场景生成高保真度和时间连贯的虚拟试穿视频：

技术原理：
- 第一阶段：生成高保真、语义一致的关键帧试穿图像：从输入的人物视频中，挑选出姿态、视角变化最明显的代表性关键帧。然后利用集成了视觉-语言模型（VLM）的多帧图像试穿模型，为这些关键帧生成试穿后的图像，为后续视频生成提供高质量的“外观指南”。
- 第二阶段：生成时间连贯的动态试穿视频：从原始视频中提取骨骼图序列、精细运动和外观描述等多维向导，将其与第一阶段生成的关键帧试穿图像，一同输入到预训练的视频生成模型中。通过轻量级的LoRA适配器对模型进行微调，确保视频中未被关键帧覆盖的区域也能实现长期的时间一致性，并生成高度逼真的动态效果。
核心优势：
- 复杂运动场景试穿表现出色：支持整套穿搭的虚拟试穿，包括上衣、裤子、裙子等。能处理复杂的人体运动，如T台走秀和360度旋转，在试穿过程中可高保真地保留服装细节，保持良好的时间一致性和稳定性。
- 适应复杂场景：可在复杂的静态或动态环境中进行视频虚拟试穿，即使人物处于背景复杂或动作频繁的场景中，也能准确保留服装的细节表现。
- 应对复杂摄像机运动：即使输入视频中存在剧烈的摄像机运动或明显的场景切换，依然能够保持时间一致性，并精确保留服装的高保真细节表现。
- 生成逼真物理动态：在服装互动场景中，如将手插入口袋或与柔软衣物的交互动作，能生成真实的物理动态效果，表现出自然且合理的动态变化。
- 可用于卡通角色：能够为卡通角色穿戴真实世界的服装，即使在涉及不受限制的人物姿势、摄像机运动和动态场景的高难度条件下，也能实现自然逼真的试穿效果。
论文贡献与价值：
- 提出新框架：设计了新颖的两阶段视频虚拟试穿框架，有效解决了野外场景下的细节保持和时间稳定性难题。
- 融入预训练模型：成功地将强大的VLM和视频生成DiT模型融入VVT任务，并利用LoRA进行高效适配，为该领域的研究提供了新范式。
- 摆脱数据依赖：能够利用海量的非成对人物中心数据进行训练，极大地提升了模型的泛化和适应能力。
- 树立新标杆：在多个基准上取得了最优性能，并贡献了新的高质量测试基准（Wild - TryOn Benchmark），推动了整个社区的发展。