EMO:Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的人像视频
我们提出了EMO,一个富有表现力的音频驱动的纵向视频生成框架。 输入单个参考图像和人声音频,例如说话和唱歌,我们的方法可以生成具有富有表现力的面部表情和各种头部姿势的发声头像视频, 同时,我们可以根据输入视频的长度生成任意时长的视频。
让肖像歌唱
输入单个字符图像和语音音频,我们的方法可以生成具有富有表现力的面部表情和各种头部的声音头像视频,同时,我们可以根据输入音频的长度生成任意时长的视频。 我们的方法也可以在较长时间内保留字符的标识。
不同的语言和肖像风格
我们的方法支持各种语言的歌曲,并使不同的肖像风格栩栩如生。 它可以直观地识别音频中的音调变化,从而生成动态、 表情丰富的头像。
快速节律
被驱使的头像可以跟上快节奏的节奏, 保证即使是最快速的歌词也能与富有表现力和动态同步 角色动画。
与不同的角色交谈
我们的方法不仅限于处理歌唱的音频输入,还可以容纳口语 各种语言的音频。 此外,我们的方法能够为过去时代的肖像、绘画、 以及 3D 模型和 AI 生成的内容,为它们注入了逼真的动作和真实感。
跨角色性能
探索我们方法的潜在应用, 这使得电影角色的肖像能够以不同的方式提供独白或表演语言和样式。 我们可以扩大多语言和多元文化中人物刻画的可能性上下文。
(阿里智能计算研究院)
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。1 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。
1 个月前
3月6日凌晨,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B: 模型性能 媲美大参数模型:拥有320亿参数,性能可与具备6710亿参数(其中370亿被激活)的DeepSeek - R1媲美,很大程度上证明了参数规模不再是模型性能的决定性因素。 超越同类模型:在一系列权威基准测试中表现出色,几乎完全超越了OpenAI去年9月发布的尺寸相近的o1 - mini模型。在测试数学能力的AIME24评测集、评估代码能力的LiveCodeBench中,表现与DeepSeek - R1相当,远胜于o1 - mini及相同尺寸的R1蒸馏模型;在LiveBench、谷歌提出的IFEval评测集、加州大学伯克利分校等提出的BFCL测试中,得分均超越了DeepSeek - R1。 技术特点 本地部署优势:突破性地让高性能推理模型在消费级显卡上实现本地部署,英伟达4090的增强版就能部署,大幅降低了模型应用成本,成本是R1的1/10以内,更利于推理模型的应用和普及。 集成Agent能力:集成了与智能体(Agent)相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 大规模强化学习:在冷启动的基础上,针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,在32B的模型尺寸上获得了令人惊喜的推理能力提升,印证了大规模强化学习可显著提高模型性能。与依赖传统的奖励模型不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。 开源情况:采用Apache 2.0开源协议,已在魔搭社区、HuggingFace及GitHub等平台开源,所有人都可免费下载及商用QwQ - 32B模型,可通过网页版Qwen Chat进行体验,也将免费上架通义APP。
5 个月前
11月12日,阿里在海外推出对话式AI搜索引擎 Accio,面向全球商家开放,这是全球第一个B2B领域的AI搜索引擎。 Accio 的页面主体是对话框,产品形态类似于 AI 搜索引擎 Perplexity,定位是个人采购代理。 当用户输入需求之后,它会通过供货商、定制范围、价格、终端零售销量、客户评价等信息筛选,输出符合的商家和商品。 Accio 意在整合全球超过 3000 万家参与跨境贸易的供应链企业信息,作为对比,阿里国际站收录的商家数量为 25 万个。
8 个月前
找到一个满意的域名平均需要查询50次以上,而智能起名应用则能一键完成这一过程,使域名注册从“拼脑力”进入“拼算力”时代。