2024 年《人工智能指数报告》是我们迄今为止最全面的一份,并且是在人工智能对社会的影响空前显著的重要时刻发布。今年,我们扩大了范围,更广泛地涵盖了一些关键趋势,如人工智能的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态。本版包含了比以往任何时候都多的原始数据,引入了对人工智能训练成本的新估计、对负责任的人工智能领域的详细分析,以及一个全新的章节,专门探讨人工智能对科学和医学的影响。

1.人工智能在某些任务上击败了人类,但不是在所有任务上。
人工智能已经在几个基准上超越了人类的表现,包括一些图像分类、视觉推理和英语理解。但它在更复杂的任务上落后,如竞赛级数学、视觉常识推理和规划。
2.工业界继续主导前沿人工智能研究。
2023年,工业界产生了51个著名的机器学习模型,而学术界只贡献了15个。2023年,产业界和学术界合作产生了21个值得注意的模型,创下新高。
3.前沿模型变得更加昂贵。
根据人工智能指数的估计,最先进的人工智能模型的训练成本已经达到了前所未有的水平。例如,OpenAI的GPT-4使用了价值约7800万美元的计算来训练,而谷歌的双子座超成本为1.91亿美元。
4.美国领先中国、欧盟和英国成为顶级人工智能模型的主要来源。
2023年,61个著名的人工智能模型来自美国机构,远远超过欧盟的21个和中国的15个。
5. 缺乏负责任AI的标准化基准报告
AI工具的基准效果很大程度上依赖于其标准化的方法和应用。然而,人工智能指数的研究显示,负责任AI的报告标准化程度严重不足。例如,OpenAI、谷歌和Anthropic等领先开发者大多用不同的负责任AI基准测试模型。这些使用不同基准的测试模型使我们更难做出比较,因为每个基准都有其特点。标准化的基准测试对提高AI能力的透明度至关重要。
6. 生成式AI的投资飙升
尽管2023年整体的AI私人投资有所下降,但对生成式AI的投资大幅增加。生成式AI领域去年吸引了252亿美元的投资,几乎是2022年的9倍、2019年的约30倍。2023年,生成式AI占所有AI相关私人投资的25%以上。
7.人工智能使员工更有效率,并带来更高质量的工作。****
2023年,几项研究评估了人工智能对劳动力的影响,表明人工智能使员工能够更快地完成任务,并提高他们的产出质量。这些研究还证明了人工智能弥合低技能和高技能员工之间技能差距的潜力。还有一些研究警告说,在没有适当监督的情况下使用人工智能会导致绩效下降。
8. AI越来越推动科学进步
人工智能指数指出,AI从2022年就开始推动科学发现,2023年则在推出科学相关的AI应用方面取得了更大的飞跃。例如,AI驱动化学机器人Synbot可用于合成有机分子,GNoME发现了适用于机器人和半导体制造等领域的稳定晶体等。
9.美国人工智能法规数量急剧增加。
美国人工智能相关法规的数量在过去一年大幅上升。2023年,美国有25项人工智能相关法规,而2016年美国只有一项AI法规出台。仅去年一年,美国人工智能相关法规的总数就增长了56.3%。欧盟通过的AI相关的法规数量从2022年的22项增加到2023年的32项。不过,2021年欧盟批准的法规最多,达到了46项。
10.人类更加认识到AI的潜在影响——也更加紧张。
Ipsos的一项调查显示,在过去的一年里,认为人工智能将在未来三到五年内极大地影响他们生活的比例从60%上升到66%。此外,52%的人对人工智能产品和服务表示紧张,比2022年上升了13个百分点。在美国,Pew数据显示,52%的美国人表示对人工智能感到担忧而不是兴奋,高于2022年的38%。
信息来源:斯坦福大学
更多信息请见:https://aiindex.stanford.edu/report/

11 个月前
SAP联合创始人、亿万富翁Hasso Plattner计划对位于波茨坦的前勃兰登堡州议会大楼进行重大投资,将其改造为波茨坦大学的第四个校区。这一举措意在将波茨坦打造为“欧洲的斯坦福”,进一步巩固其在科技、研究与创新领域的地位。 项目核心内容包括: 对年久失修、甚至在2023年曾发生火灾的前议会建筑进行修复与重建; 在该地建设新的教学和研究设施,为波茨坦大学提供更多空间; 扩展现有的Hasso Plattner研究所(HPI),加强软件工程与数字创新研究; 投资覆盖波茨坦大学的Golm、Griebnitzsee等校区。 人工智能将成为学术发展的重点 普拉特纳在一份声明中阐明了目标,即实现 “国际领先的研究与教学”,重点聚焦于人工智能(AI)。“欧洲需要这样的地方,让来自世界各地的人才能够自由思考、研究和创造 —— 波茨坦将成为这样一个地方。” 资金与影响: 虽然具体金额未公开,但预计是数十亿欧元级别。此投资对于财政压力较大的勃兰登堡州意义重大,尤其是在该州计划新举债约20亿欧元的背景下。 Plattner的地区影响力: 他曾出资重建州议会大楼外立面,创建了Barberini博物馆和Minsk艺术馆。他在波茨坦Griebnitzsee拥有住所,并通过其基金会深度参与当地教育与文化项目。基金会总部设在著名设计师Wolfgang Joop的旧别墅中。 (图片:HPI.de)

1 年前
CheXNet 是由斯坦福大学研究团队开发的一种深度学习模型,专门用于从胸部 X 光片中检测和诊断疾病。它基于卷积神经网络(CNN),最初是在 2017 年由 Pranav Rajpurkar、Jeremy Irvin 等研究人员在论文《CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning》中提出的。 CheXNet 的背景与目标 医学影像分析一直是人工智能在医疗领域的重要应用方向。胸部 X 光片是诊断多种胸部疾病(如肺炎、肺结节、心脏扩大等)的常见工具,但传统的诊断依赖放射科医生的人工判读,效率和准确性可能因医生的经验而异。CheXNet 旨在通过自动化分析达到甚至超过人类放射科医生的诊断水平,尤其是针对肺炎的检测。 技术原理 CheXNet 是基于 DenseNet-121(一种深度卷积神经网络架构)进行改进的模型。研究团队利用了 NIH(美国国立卫生研究院)发布的 ChestX-ray14 数据集,该数据集包含超过 10 万张胸部 X 光图像,标注了 14 种常见胸部疾病。CheXNet 在这个数据集上进行训练,能够同时预测这些疾病的存在与否。 具体来说: 输入:单张胸部 X 光图像。 输出:14 种疾病的概率分布(例如肺炎、肺气肿、胸腔积液等)。 创新点:通过微调 DenseNet-121 的最后一层,CheXNet 不仅能检测单一疾病,还能处理多标签分类任务(即一张图像可能同时存在多种疾病)。 在测试中,CheXNet 的表现尤其在肺炎检测上达到了放射科医生的水平,其 ROC 曲线下面积(AUC)超过了 0.76,显示出较高的敏感性和特异性。 应用与影响 CheXNet 的开发展示了 AI 在医学影像诊断中的潜力,尤其是在资源匮乏地区,自动化的工具可以辅助医生快速筛选和诊断。它也推动了后续研究,比如结合注意力机制、可解释性分析(如热力图,显示模型关注图像的哪些区域)以及与其他数据集的迁移学习。 局限性 尽管 CheXNet 表现优异,但它仍有局限性: 数据依赖性:模型的效果依赖于训练数据的质量和多样性,可能在不同人群或设备生成的 X 光片上表现不一致。 可解释性:作为深度学习模型,它的决策过程对人类来说仍是“黑箱”,需要进一步改进以获得医生的信任。 临床验证:虽然在研究中表现良好,但在真实临床环境中的广泛应用还需要更多验证。 后续发展 CheXNet 开辟了医学影像 AI 研究的新方向。斯坦福团队和其他研究者在此基础上开发了更先进的模型(如 CheXNeXt),并探索了与自然语言处理结合的系统,用于生成放射学报告。xAI 等公司也在类似领域推进研究,试图将 AI 更深入地融入医疗实践。

1 年前
德国人工智能研究的高校重镇 德国作为工业强国,在人工智能领域也具有深厚的底蕴和领先地位。众多德国高校在AI研究方面投入了大量资源,取得了丰硕成果。

21 天前
AiPPT: 一句话、一分钟、一键搞定

28 天前
Ralph 就是一个让 AI "自己干活直到做完"的循环机制,特别适合复杂的编程任务,解放人力。这里介绍具体怎么搭建和使用 Ralph 循环。 📋 前置准备 你需要准备以下内容: 工具 用途 Claude Code Anthropic 的 AI 编程助手 CLI Docker Desktop 提供隔离的沙盒环境 Anthropic API Key 调用 Claude API 🛠️ 搭建步骤 方法一:使用 Claude Code 插件(推荐) Step 1: 安装 Claude Code # 安装 Claude Code CLI npm install -g @anthropic-ai/claude-code Step 2: 初始化项目 mkdir my-ralph-project cd my-ralph-project claude init Step 3: 添加插件市场 claude plugins add-marketplace Step 4: 安装 Ralph Wiggum 插件 claude plugins install ralph-wiggum Step 5: 配置 Stop Hook 在 .claude/hooks/ 目录下创建 stop-hook.json: { "hook_type": "stop", "decision": "block", "conditions": { "check_tests": true, "check_type_errors": true, "check_git_changes": true }, "max_iterations": 20, "prompt": "任务未完成,请继续迭代修复问题" } 方法二:手动搭建(完全控制) Step 1: 创建项目结构 my-ralph-project/ ├── .claude/ │ ├── hooks/ │ │ └── stop-hook.sh │ ├── skills/ │ │ └── ralph-loop.json │ └── config.json ├── prd/ │ └── requirements.json └── workspace/ Step 2: 配置核心文件 config.json - 核心配置 { "max_iterations": 15, "auto_commit": true, "run_tests_after_each_iteration": true, "stop_conditions": { "all_tests_pass": true, "no_type_errors": true, "prd_completed": true } } skills/ralph-loop.json - 技能定义 { "name": "ralph-loop", "description": "自主迭代循环实现 PRD 任务", "trigger": "when_task_incomplete", "actions": [ "analyze_current_state", "identify_blockers", "fix_issues", "run_tests", "commit_if_passing" ] } hooks/stop-hook.sh - Stop Hook 脚本 #!/bin/bash # 检查测试是否通过 TESTS_PASS=$(npm test 2>&1 | grep -c "passed") # 检查是否有类型错误 TYPE_ERRORS=$(npx tsc --noEmit 2>&1 | grep -c "error") # 检查 PRD 是否完成 PRD_COMPLETE=$(node check-prd.js) if [ "$TESTS_PASS" -eq 0 ] || [ "$TYPE_ERRORS" -gt 0 ] || [ "$PRD_COMPLETE" = "false" ]; then echo "BLOCK: 任务未完成,继续迭代" exit 1 else echo "ALLOW: 任务已完成" exit 0 fi Step 3: 准备 PRD 文件 prd/requirements.json { "project_name": "My Feature", "tasks": [ { "id": 1, "description": "创建用户登录页面", "criteria": ["表单验证正常", "API 调用成功", "错误处理完善"], "status": "pending" }, { "id": 2, "description": "实现用户注册功能", "criteria": ["邮箱验证", "密码强度检查", "重复密码确认"], "status": "pending" } ] } 🚀 使用方法 启动 RALPH 循环 # 方法一:插件方式 claude run --skill ralph-loop --prd ./prd/requirements.json # 方法二:Docker 隔离环境 docker run -it \ -v $(pwd):/workspace \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ claude-ralph:latest 监控循环状态 # 查看当前迭代次数 cat .ralph/iteration_count # 查看任务完成状态 cat .ralph/task_status.json # 查看日志 tail -f .ralph/loop.log 🔧 高级配置 1. 自定义 Stop Hook 规则 { "stop_conditions": { "all_tests_pass": { "enabled": true, "command": "npm test", "success_pattern": "all tests passed" }, "no_lint_errors": { "enabled": true, "command": "npm run lint", "success_pattern": "no problems" }, "coverage_threshold": { "enabled": true, "threshold": 80 } } } 2. 添加代码审查步骤 { "after_each_iteration": [ "run_tests", "run_linter", "code_review", "commit_if_passing" ], "code_review_prompt": "审查代码质量、安全性、性能问题" } 3. 设置成本控制 { "cost_limits": { "max_tokens_per_iteration": 50000, "max_total_cost": 50, "alert_at_cost": 30 } } 📊 典型工作流程 ┌─────────────────────────────────────────────┐ │ 1. Claude 读取 PRD 任务列表 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 2. 选择下一个待完成任务 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 3. 实现代码、编写测试 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 4. 运行测试套件 │ └─────────────────┬───────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 5. Stop Hook 检查是否完成 │ │ • 测试通过? │ │ • 无类型错误? │ │ • PRD 要求满足? │ └─────────────────┬───────────────────────────┘ ↓ ┌───────┴───────┐ ↓ ↓ 未完成 完成 ↓ ↓ 返回步骤 2 结束循环 💡 最佳实践 建议 说明 PRD 要清晰 任务描述具体、可验证,避免模糊需求 设置最大迭代 防止无限循环消耗过多成本 使用 Docker 隔离环境,避免污染本地系统 定期检查 每 10 轮查看一次进度和日志 成本监控 设置预算警报,避免超支 ⚠️ 注意事项 成本控制:每次迭代消耗 tokens,长时间运行成本较高 质量检查:AI 可能"认为"完成但实际有 bug,需要严格测试 安全边界:在沙盒环境运行,避免 AI 误删重要文件 人工介入:复杂任务仍需人工审查结果

28 天前
Ralph Loop 是一种让 AI 自主迭代的机制,主要用于解决 AI 编程助手"半途而废"的问题。

1 个月前
OpenClaw 本质是“开发者基础设施”,而非面向大众的 SaaS 产品。

2 个月前
用 OpenClaw 搭建一个本地 Agent 中枢(完整方案) 不是再做一个 ChatGPT,而是建立一个真正“可控、可组合、可扩展”的本地 AI Agent 中枢。 当越来越多团队开始意识到: 云端 LLM 成本不可控 数据隐私存在风险 单一 Agent 无法解决真实业务 “本地 Agent 中枢” 正在成为一个更现实的选择。 本文将完整讲清楚: 👉 如何用 OpenClaw 搭建一个真正可用的本地 Agent 中枢 👉 它适合谁,不适合谁 👉 与 LangGraph / CrewAI 的核心差异 什么是「本地 Agent 中枢」? 先明确一个概念,避免误解。 ❌ 不是: 一个本地 ChatGPT 一个简单的 Prompt 管理器 ✅ 而是: 一个能够统一管理多个 Agent、模型、工具和任务流程的本地系统 一个合格的本地 Agent 中枢,至少要解决 5 件事: 多 Agent 协作(不是单轮对话) 任务调度与状态管理 模型可替换(本地 / API) 工具调用(搜索、代码、文件等) 可长期运行、可追溯 OpenClaw 的定位,正是这个“中枢层”。 为什么选择 OpenClaw? 在进入部署前,必须先回答一个现实问题: 为什么不是 LangGraph / CrewAI / AutoGen? 简要结论(非常重要) 框架 更适合 LangGraph 开发者写 Agent 流程 CrewAI 小规模角色协作 AutoGen 对话驱动实验 OpenClaw 长期运行的 Agent 中枢 OpenClaw 的核心优势 1️⃣ 架构清晰,不是“脚本拼装” 有明确的 Agent 管理层 有任务执行与状态机制 不是写完一次就丢的 Demo 2️⃣ 原生支持多模型策略 本地模型 云 API fallback / 优先级策略 3️⃣ 更接近“生产环境思维” 可持续运行 可复用 Agent 可演进 如果你的目标是: “做一个长期使用的 AI 中枢,而不是一段实验代码” 那 OpenClaw 是目前更合理的选择之一。 整体架构:OpenClaw 本地 Agent 中枢怎么搭? 这是一个最小可用但可扩展的架构方案。 🧩 架构拆解 ┌─────────────────────────┐ │ 用户 / 系统 │ └──────────┬──────────────┘ │ ┌──────────▼──────────┐ │ OpenClaw 中枢层 │ │ - Agent Registry │ │ - Task Orchestrator│ │ - Memory / State │ └──────────┬──────────┘ │ ┌─────────▼─────────┐ │ Agent 集群 │ │ - Research Agent │ │ - Coding Agent │ │ - Planning Agent │ │ - Tool Agent │ └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ 模型 & 工具层 │ │ - 本地 LLM │ │ - API LLM │ │ - Search / FS / DB │ └───────────────────┘ 部署准备(实战级) 1️⃣ 基础环境 推荐环境(已验证): Linux / WSL / macOS Docker + Docker Compose Python 3.10+ 2️⃣ 模型选择建议(非常现实) 场景 推荐 本地推理 Qwen / LLaMA 稳定输出 GPT / Claude API 混合方案 本地 + API fallback 👉 关键不是模型多,而是“可切换” 核心步骤:搭建 OpenClaw 本地 Agent 中枢 Step 1:部署 OpenClaw 核心 git clone https://github.com/xxx/openclaw cd openclaw docker compose up -d 启动后,你将拥有: Agent 管理入口 任务调度服务 统一配置中心 Step 2:定义你的第一个 Agent 一个 Agent ≠ 一个 Prompt 而是一个职责明确的“角色” 示例: agent: name: research_agent role: 信息调研 model: local_llm tools: - web_search - file_reader 建议起步 Agent: Research Agent(信息收集) Planner Agent(任务拆解) Executor Agent(执行) Step 3:建立 Agent 协作流程 例如一个典型任务: “调研某行业 → 输出分析 → 给出建议” 流程是: Planner 拆解任务 Research Agent 收集信息 Executor Agent 输出结果 中枢保存状态与结果 👉 这一步,才是“中枢”的价值所在 一个真实可用的示例场景 🎯 场景:AI 工具评估中枢 你可以搭一个 Agent 中枢来做: 自动收集 AI 工具信息 对比功能 / 定价 输出结构化报告 长期更新 这类系统: 人工成本极高 用 Agent 非常合适 总结:什么时候该用 OpenClaw? 当你意识到:AI 不再是“一次性回答”,而是“持续协作的系统” 那你就已经走在 OpenClaw 这条路上了。 OpenClaw 不是让你“更快用 AI”,而是让你“真正拥有 AI 能力”。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI