EMO:Emote Portrait Alive - 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的人像视频
我们提出了EMO,一个富有表现力的音频驱动的纵向视频生成框架。 输入单个参考图像和人声音频,例如说话和唱歌,我们的方法可以生成具有富有表现力的面部表情和各种头部姿势的发声头像视频, 同时,我们可以根据输入视频的长度生成任意时长的视频。
让肖像歌唱
输入单个字符图像和语音音频,我们的方法可以生成具有富有表现力的面部表情和各种头部的声音头像视频,同时,我们可以根据输入音频的长度生成任意时长的视频。 我们的方法也可以在较长时间内保留字符的标识。
不同的语言和肖像风格
我们的方法支持各种语言的歌曲,并使不同的肖像风格栩栩如生。 它可以直观地识别音频中的音调变化,从而生成动态、 表情丰富的头像。
快速节律
被驱使的头像可以跟上快节奏的节奏, 保证即使是最快速的歌词也能与富有表现力和动态同步 角色动画。
与不同的角色交谈
我们的方法不仅限于处理歌唱的音频输入,还可以容纳口语 各种语言的音频。 此外,我们的方法能够为过去时代的肖像、绘画、 以及 3D 模型和 AI 生成的内容,为它们注入了逼真的动作和真实感。
跨角色性能
探索我们方法的潜在应用, 这使得电影角色的肖像能够以不同的方式提供独白或表演语言和样式。 我们可以扩大多语言和多元文化中人物刻画的可能性上下文。
(阿里智能计算研究院)
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
1 年前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。

1 年前
3月6日凌晨,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B: 模型性能 媲美大参数模型:拥有320亿参数,性能可与具备6710亿参数(其中370亿被激活)的DeepSeek - R1媲美,很大程度上证明了参数规模不再是模型性能的决定性因素。 超越同类模型:在一系列权威基准测试中表现出色,几乎完全超越了OpenAI去年9月发布的尺寸相近的o1 - mini模型。在测试数学能力的AIME24评测集、评估代码能力的LiveCodeBench中,表现与DeepSeek - R1相当,远胜于o1 - mini及相同尺寸的R1蒸馏模型;在LiveBench、谷歌提出的IFEval评测集、加州大学伯克利分校等提出的BFCL测试中,得分均超越了DeepSeek - R1。 技术特点 本地部署优势:突破性地让高性能推理模型在消费级显卡上实现本地部署,英伟达4090的增强版就能部署,大幅降低了模型应用成本,成本是R1的1/10以内,更利于推理模型的应用和普及。 集成Agent能力:集成了与智能体(Agent)相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 大规模强化学习:在冷启动的基础上,针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,在32B的模型尺寸上获得了令人惊喜的推理能力提升,印证了大规模强化学习可显著提高模型性能。与依赖传统的奖励模型不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。 开源情况:采用Apache 2.0开源协议,已在魔搭社区、HuggingFace及GitHub等平台开源,所有人都可免费下载及商用QwQ - 32B模型,可通过网页版Qwen Chat进行体验,也将免费上架通义APP。

1 年前
11月12日,阿里在海外推出对话式AI搜索引擎 Accio,面向全球商家开放,这是全球第一个B2B领域的AI搜索引擎。 Accio 的页面主体是对话框,产品形态类似于 AI 搜索引擎 Perplexity,定位是个人采购代理。 当用户输入需求之后,它会通过供货商、定制范围、价格、终端零售销量、客户评价等信息筛选,输出符合的商家和商品。 Accio 意在整合全球超过 3000 万家参与跨境贸易的供应链企业信息,作为对比,阿里国际站收录的商家数量为 25 万个。

1 年前
找到一个满意的域名平均需要查询50次以上,而智能起名应用则能一键完成这一过程,使域名注册从“拼脑力”进入“拼算力”时代。

1 天前
AiPPT: 一句话、一分钟、一键搞定

8 天前
Ralph 就是一个让 AI "自己干活直到做完"的循环机制,特别适合复杂的编程任务,解放人力。这里介绍具体怎么搭建和使用 Ralph 循环。 📋 前置准备 你需要准备以下内容: 工具 用途 Claude Code Anthropic 的 AI 编程助手 CLI Docker Desktop 提供隔离的沙盒环境 Anthropic API Key 调用 Claude API 🛠️ 搭建步骤 方法一:使用 Claude Code 插件(推荐) Step 1: 安装 Claude Code # 安装 Claude Code CLI npm install -g @anthropic-ai/claude-code Step 2: 初始化项目 mkdir my-ralph-project cd my-ralph-project claude init Step 3: 添加插件市场 claude plugins add-marketplace Step 4: 安装 Ralph Wiggum 插件 claude plugins install ralph-wiggum Step 5: 配置 Stop Hook 在 .claude/hooks/ 目录下创建 stop-hook.json: { "hook_type": "stop", "decision": "block", "conditions": { "check_tests": true, "check_type_errors": true, "check_git_changes": true }, "max_iterations": 20, "prompt": "任务未完成,请继续迭代修复问题" } 方法二:手动搭建(完全控制) Step 1: 创建项目结构 my-ralph-project/ ├── .claude/ │ ├── hooks/ │ │ └── stop-hook.sh │ ├── skills/ │ │ └── ralph-loop.json │ └── config.json ├── prd/ │ └── requirements.json └── workspace/ Step 2: 配置核心文件 config.json - 核心配置 { "max_iterations": 15, "auto_commit": true, "run_tests_after_each_iteration": true, "stop_conditions": { "all_tests_pass": true, "no_type_errors": true, "prd_completed": true } } skills/ralph-loop.json - 技能定义 { "name": "ralph-loop", "description": "自主迭代循环实现 PRD 任务", "trigger": "when_task_incomplete", "actions": [ "analyze_current_state", "identify_blockers", "fix_issues", "run_tests", "commit_if_passing" ] } hooks/stop-hook.sh - Stop Hook 脚本 #!/bin/bash # 检查测试是否通过 TESTS_PASS=$(npm test 2>&1 | grep -c "passed") # 检查是否有类型错误 TYPE_ERRORS=$(npx tsc --noEmit 2>&1 | grep -c "error") # 检查 PRD 是否完成 PRD_COMPLETE=$(node check-prd.js) if [ "$TESTS_PASS" -eq 0 ] || [ "$TYPE_ERRORS" -gt 0 ] || [ "$PRD_COMPLETE" = "false" ]; then echo "BLOCK: 任务未完成,继续迭代" exit 1 else echo "ALLOW: 任务已完成" exit 0 fi Step 3: 准备 PRD 文件 prd/requirements.json { "project_name": "My Feature", "tasks": [ { "id": 1, "description": "创建用户登录页面", "criteria": ["表单验证正常", "API 调用成功", "错误处理完善"], "status": "pending" }, { "id": 2, "description": "实现用户注册功能", "criteria": ["邮箱验证", "密码强度检查", "重复密码确认"], "status": "pending" } ] } 🚀 使用方法 启动 RALPH 循环 # 方法一:插件方式 claude run --skill ralph-loop --prd ./prd/requirements.json # 方法二:Docker 隔离环境 docker run -it \ -v $(pwd):/workspace \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ claude-ralph:latest 监控循环状态 # 查看当前迭代次数 cat .ralph/iteration_count # 查看任务完成状态 cat .ralph/task_status.json # 查看日志 tail -f .ralph/loop.log 🔧 高级配置 1. 自定义 Stop Hook 规则 { "stop_conditions": { "all_tests_pass": { "enabled": true, "command": "npm test", "success_pattern": "all tests passed" }, "no_lint_errors": { "enabled": true, "command": "npm run lint", "success_pattern": "no problems" }, "coverage_threshold": { "enabled": true, "threshold": 80 } } } 2. 添加代码审查步骤 { "after_each_iteration": [ "run_tests", "run_linter", "code_review", "commit_if_passing" ], "code_review_prompt": "审查代码质量、安全性、性能问题" } 3. 设置成本控制 { "cost_limits": { "max_tokens_per_iteration": 50000, "max_total_cost": 50, "alert_at_cost": 30 } } 📊 典型工作流程 ┌─────────────────────────────────────────────┐ │ 1. Claude 读取 PRD 任务列表 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 2. 选择下一个待完成任务 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 3. 实现代码、编写测试 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 4. 运行测试套件 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 5. Stop Hook 检查是否完成 │ │ • 测试通过? │ │ • 无类型错误? │ │ • PRD 要求满足? │ └─────────────────┬───────────────────────────┘ ↓ ┌───────┴───────┐ ↓ ↓ 未完成 完成 ↓ ↓ 返回步骤 2 结束循环 💡 最佳实践 建议 说明 PRD 要清晰 任务描述具体、可验证,避免模糊需求 设置最大迭代 防止无限循环消耗过多成本 使用 Docker 隔离环境,避免污染本地系统 定期检查 每 10 轮查看一次进度和日志 成本监控 设置预算警报,避免超支 ⚠️ 注意事项 成本控制:每次迭代消耗 tokens,长时间运行成本较高 质量检查:AI 可能"认为"完成但实际有 bug,需要严格测试 安全边界:在沙盒环境运行,避免 AI 误删重要文件 人工介入:复杂任务仍需人工审查结果

8 天前
Ralph Loop 是一种让 AI 自主迭代的机制,主要用于解决 AI 编程助手"半途而废"的问题。

27 天前
OpenClaw 本质是“开发者基础设施”,而非面向大众的 SaaS 产品。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI