EMO:Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的人像视频

我们提出了EMO,一个富有表现力的音频驱动的纵向视频生成框架。 输入单个参考图像和人声音频,例如说话和唱歌,我们的方法可以生成具有富有表现力的面部表情和各种头部姿势的发声头像视频, 同时,我们可以根据输入视频的长度生成任意时长的视频。

让肖像歌唱
输入单个字符图像和语音音频,我们的方法可以生成具有富有表现力的面部表情和各种头部的声音头像视频,同时,我们可以根据输入音频的长度生成任意时长的视频。 我们的方法也可以在较长时间内保留字符的标识。

不同的语言和肖像风格
我们的方法支持各种语言的歌曲,并使不同的肖像风格栩栩如生。 它可以直观地识别音频中的音调变化,从而生成动态、 表情丰富的头像。

快速节律
被驱使的头像可以跟上快节奏的节奏, 保证即使是最快速的歌词也能与富有表现力和动态同步 角色动画。

与不同的角色交谈
我们的方法不仅限于处理歌唱的音频输入,还可以容纳口语 各种语言的音频。 此外,我们的方法能够为过去时代的肖像、绘画、 以及 3D 模型和 AI 生成的内容,为它们注入了逼真的动作和真实感。

跨角色性能
探索我们方法的潜在应用, 这使得电影角色的肖像能够以不同的方式提供独白或表演语言和样式。 我们可以扩大多语言和多元文化中人物刻画的可能性上下文。

(阿里智能计算研究院)

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯