随着深度学习,特别是超大规模预训练模型技术的发展,模型训练和推理所消耗的能源日益增长,这带来了更多的碳排放问题,对于全球气候可能造成不良影响。为了解决这一问题,研究者们开始探索研发更为绿色的AI算法及其相关技术。
1.绿色AI指的是在不增加,甚至降低计算成本的前提下,研发性能更为强大的AI模型的技术手段。
2.实现GreenAI主要有两个方面的手段,一是设定评价模型能效的方法;二是在模型架构、训练、推理、数据利用等方面进行研究。
绿色AI指的是在不增加,甚至降低计算成本的前提下,研发性能更为强大的AI模型的技术手段。[1] 绿色AI的概念最早由艾伦人工智能研究院等机构的研究者在2020年提出。
提出绿色AI概念的目的在于呼吁AI研究者重视人工智能带来的环境和可持续发展问题。据[2]统计,2018-2019年的国际顶会中,很多研究者关注AI的准确率而非效率。

图注:顶会中研究者关注准确率、效率和二者兼有的比例 [2]
相对于绿色AI概念的是红色AI,指的是不计算力代价提升模型性能的技术和模型。[1] 与红色AI不同,绿色AI鼓励研究者尽可能减少模型训练和推理所消耗的算力资源。
2020年的绿色AI论文中,研究者认为实现绿色AI的首要工作是确定评价AI能耗的方法。[2] 在评价模型的效率的指标方面,包括:
(1)碳排放量
(2)电力消耗
(3)实时收敛时间
(4)参数规模
(5)浮点运算量(即达到预期效果所消耗的算力)

图注:计算红色AI的公式[3]
此外,有开源社区开发者提出了绿色AI标准,推动研究者上传评测结果,推动建立统一的能效评价体系。[4]

在[1]中,研究者认为应当在模型架构、训练方法、推理方法和数据使用等方面进行改进。主要包括:
(1)紧凑的模型架构:在更小规模的模型上实现更高性能;

(2)高效的训练策略:在初始化、正则化、渐进式训练、高效自动机器学习(AutoML)等方面进行技术改进;

(3)高效推理策略:包括模型剪枝、蒸馏、低阶因式分解、数量化等;

(4)高效数据利用:包括主动学习和小样本学习等。

[1] Xu, Jingjing, et al. "A Survey on Green Deep Learning." arXiv preprint arXiv:2111.05193 (2021).
[2] Schwartz, Roy, et al. "Green ai." Communications of the ACM 63.12 (2020): 54-63.
[3] Green AI:https://cacm.acm.org/magazines/2020/12/248800-green-ai/fulltext
[4] Green Artificial Intelligence Standard:https://github.com/daviddao/green-ai
文章来源:智源社区AI FrontPage

1 年前
阿西洛马人工智能原则(Asilomar AI Principles)是一套旨在确保人工智能(AI)技术安全、伦理和有益发展的指导原则。该原则于2017年1月在美国加利福尼亚州阿西洛马举行的“Beneficial AI”会议上提出,由“生命未来研究所”(Future of Life Institute)牵头制定,得到了包括斯蒂芬·霍金、埃隆·马斯克等在内的众多AI领域专家和学者的支持。 原则概述 阿西洛马人工智能原则共包含23条,分为三大类:科研问题、伦理和价值、更长期的问题。以下是各类别的核心内容: 1. 科研问题(Research Issues) 研究目标:AI研究应致力于创造有益于人类的智能,而非不受控制的智能。 研究经费:AI投资应部分用于研究如何确保其有益使用,包括计算机科学、经济学、法律、伦理等领域的问题。 科学与政策的联系:AI研究者与政策制定者之间应保持建设性交流。 科研文化:应培养合作、信任与透明的科研文化,避免因竞争而降低安全标准。 2. 伦理和价值(Ethics and Values) 安全性:AI系统应在整个生命周期内保持安全可靠,并在可行的情况下接受验证。 故障透明性:若AI系统造成损害,应能确定其原因。 责任:AI设计者和建造者应对其使用、误用及行为产生的道德影响负责。 价值归属:高度自主的AI系统应确保其目标与人类价值观一致。 个人隐私:人们应有权访问、管理和控制其生成的数据。 共同繁荣:AI创造的经济繁荣应惠及全人类。 3. 更长期的问题(Longer-term Issues) 能力警惕:应避免对未来AI能力上限的过高假设。 风险:AI系统可能带来的灾难性或存亡风险,需有针对性地减轻。 递归的自我提升:能够自我升级或复制的AI系统需受严格的安全控制。 公共利益:超级智能的开发应服务于广泛认可的伦理观念,而非单一国家或组织的利益。 原则的意义与影响 阿西洛马人工智能原则旨在为AI技术的发展提供伦理框架,确保其符合人类利益并避免潜在风险。这些原则不仅得到了学术界的广泛支持,也在政策制定和行业实践中产生了深远影响。 争议与挑战 尽管原则提出了明确的指导方向,但在实际应用中仍面临诸多挑战。例如,如何确保AI系统的价值归属与人类价值观一致,以及如何在全球范围内协调AI技术的监管等问题。 总结 阿西洛马人工智能原则为AI技术的发展提供了重要的伦理和安全指导,但其成功实施仍需全球范围内的合作与努力。如需了解更多细节,可参考相关文献或访问生命未来研究所的官方网站。

1 天前
OpenClaw 本质是“开发者基础设施”,而非面向大众的 SaaS 产品。

21 天前
用 OpenClaw 搭建一个本地 Agent 中枢(完整方案) 不是再做一个 ChatGPT,而是建立一个真正“可控、可组合、可扩展”的本地 AI Agent 中枢。 当越来越多团队开始意识到: 云端 LLM 成本不可控 数据隐私存在风险 单一 Agent 无法解决真实业务 “本地 Agent 中枢” 正在成为一个更现实的选择。 本文将完整讲清楚: 👉 如何用 OpenClaw 搭建一个真正可用的本地 Agent 中枢 👉 它适合谁,不适合谁 👉 与 LangGraph / CrewAI 的核心差异 什么是「本地 Agent 中枢」? 先明确一个概念,避免误解。 ❌ 不是: 一个本地 ChatGPT 一个简单的 Prompt 管理器 ✅ 而是: 一个能够统一管理多个 Agent、模型、工具和任务流程的本地系统 一个合格的本地 Agent 中枢,至少要解决 5 件事: 多 Agent 协作(不是单轮对话) 任务调度与状态管理 模型可替换(本地 / API) 工具调用(搜索、代码、文件等) 可长期运行、可追溯 OpenClaw 的定位,正是这个“中枢层”。 为什么选择 OpenClaw? 在进入部署前,必须先回答一个现实问题: 为什么不是 LangGraph / CrewAI / AutoGen? 简要结论(非常重要) 框架 更适合 LangGraph 开发者写 Agent 流程 CrewAI 小规模角色协作 AutoGen 对话驱动实验 OpenClaw 长期运行的 Agent 中枢 OpenClaw 的核心优势 1️⃣ 架构清晰,不是“脚本拼装” 有明确的 Agent 管理层 有任务执行与状态机制 不是写完一次就丢的 Demo 2️⃣ 原生支持多模型策略 本地模型 云 API fallback / 优先级策略 3️⃣ 更接近“生产环境思维” 可持续运行 可复用 Agent 可演进 如果你的目标是: “做一个长期使用的 AI 中枢,而不是一段实验代码” 那 OpenClaw 是目前更合理的选择之一。 整体架构:OpenClaw 本地 Agent 中枢怎么搭? 这是一个最小可用但可扩展的架构方案。 🧩 架构拆解 ┌─────────────────────────┐ │ 用户 / 系统 │ └──────────┬──────────────┘ │ ┌──────────▼──────────┐ │ OpenClaw 中枢层 │ │ - Agent Registry │ │ - Task Orchestrator│ │ - Memory / State │ └──────────┬──────────┘ │ ┌─────────▼─────────┐ │ Agent 集群 │ │ - Research Agent │ │ - Coding Agent │ │ - Planning Agent │ │ - Tool Agent │ └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ 模型 & 工具层 │ │ - 本地 LLM │ │ - API LLM │ │ - Search / FS / DB │ └───────────────────┘ 部署准备(实战级) 1️⃣ 基础环境 推荐环境(已验证): Linux / WSL / macOS Docker + Docker Compose Python 3.10+ 2️⃣ 模型选择建议(非常现实) 场景 推荐 本地推理 Qwen / LLaMA 稳定输出 GPT / Claude API 混合方案 本地 + API fallback 👉 关键不是模型多,而是“可切换” 核心步骤:搭建 OpenClaw 本地 Agent 中枢 Step 1:部署 OpenClaw 核心 git clone https://github.com/xxx/openclaw cd openclaw docker compose up -d 启动后,你将拥有: Agent 管理入口 任务调度服务 统一配置中心 Step 2:定义你的第一个 Agent 一个 Agent ≠ 一个 Prompt 而是一个职责明确的“角色” 示例: agent: name: research_agent role: 信息调研 model: local_llm tools: - web_search - file_reader 建议起步 Agent: Research Agent(信息收集) Planner Agent(任务拆解) Executor Agent(执行) Step 3:建立 Agent 协作流程 例如一个典型任务: “调研某行业 → 输出分析 → 给出建议” 流程是: Planner 拆解任务 Research Agent 收集信息 Executor Agent 输出结果 中枢保存状态与结果 👉 这一步,才是“中枢”的价值所在 一个真实可用的示例场景 🎯 场景:AI 工具评估中枢 你可以搭一个 Agent 中枢来做: 自动收集 AI 工具信息 对比功能 / 定价 输出结构化报告 长期更新 这类系统: 人工成本极高 用 Agent 非常合适 总结:什么时候该用 OpenClaw? 当你意识到:AI 不再是“一次性回答”,而是“持续协作的系统” 那你就已经走在 OpenClaw 这条路上了。 OpenClaw 不是让你“更快用 AI”,而是让你“真正拥有 AI 能力”。

24 天前
Asking User Question Tool(AI智能体版) 这是AI智能体必备的交互式工具,让Agent在执行任务时主动向用户提问、澄清需求、收集信息,避免瞎猜、减少返工、提升准确率。 一、核心定位 本质:Agent的“人在回路”交互接口,让AI在模糊/信息不足时暂停执行,向用户要明确输入。 作用:把“模糊指令→AI瞎做→反复修改”变成“AI提问→用户明确→一次做对”。 常见名称: AskUserQuestion 、 AskUserQuestionTool 、 ask_user_question 。 二、核心工作流(极简) 1. Agent判断信息不足:发现需求模糊、缺少参数、需要决策 2. 调用工具生成结构化问题:单选/多选+自定义输入+说明 3. 用户作答:在聊天/弹窗/终端选择或输入 4. Agent接收答案:解析结构化结果,补全上下文 5. 继续执行任务:基于完整信息推进,不再猜 三、关键能力(标配) 结构化提问:标题+问题+2–4个选项+单选/多选+ Other 自定义输入 上下文澄清:自动追问,直到需求完全明确 结构化返回:输出JSON,方便前端渲染(按钮/表单/弹窗) 人在回路:强制用户确认,避免AI自主决策风险 多轮交互:可连续提问,形成“需求访谈”流程 四、主流实现(你会遇到的版本) Claude Code(Anthropic) 原生内置,最成熟 支持多轮、单选/多选、自定义输入 常用于代码生成、需求梳理 Qwen-Agent(通义千问) 开源工具: qwen_agent/tools/ask_user_question.py 支持参数: question / options / explanations / multiSelect / allowFreeform Spring AI AskUserQuestionTool ,Java生态 模型无关,可对接GPT/Claude/Gemini OpenClaw / EasyClaw 集成到本地智能体,用于任务执行前确认 本地运行,隐私优先 五、典型使用场景(高频) 需求澄清:“做一个登录页”→AI问:技术栈?风格?是否第三方登录? 偏好收集:“写报告”→AI问:正式/ casual?长度?受众? 决策点确认:“部署服务”→AI问:云厂商?实例规格?环境? 复杂任务拆解:多轮提问,把模糊需求变成可执行步骤 六、与普通聊天的区别 普通聊天:用户主动说,AI被动答;信息靠用户自己补全 AskUserQuestion:AI主动问、结构化问、按任务节点问;用户只需点选/填空,效率高、歧义少 七、为什么要用(价值) 减少返工:一次做对,节省时间与Token 提升准确率:AI不瞎猜,结果更贴合需求 降低门槛:用户不用写长Prompt,点选即可 安全可控:关键决策必须用户确认,避免误操作 八、一句话总结 Asking User Question Tool = AI智能体的“需求访谈官”,让Agent从“猜着做”变成“问清楚再做”,是构建可靠、实用AI助手的核心工具。

27 天前
部署本地 OpenClaw 主要有两种主流且资料详尽的方式,你可以根据自己的技术背景和需求来选择。 我把这两种方式的流程整理成了一个概览表格,方便你快速对比和决策: 特性 方案一:Docker 部署(推荐新手) 方案二:Node.js 源码部署(适合开发者) 核心依赖 Docker, Docker Compose, Git Node.js (≥22), npm, Git 优点 环境隔离,部署和卸载干净,失败率低,适合快速体验 配置灵活,方便二次开发和调试,可直接运行最新源码 缺点 需要了解基本的 Docker 命令 对系统环境要求较高,可能遇到依赖冲突 适用人群 希望快速、稳定运行OpenClaw的用户 开发者、希望修改源码或深度定制OpenClaw的用户 方案一:使用 Docker 部署(推荐) 这种方法将 OpenClaw 运行在容器中,与你的系统环境隔离,最为稳妥。 第1步:准备工作与环境检查 在开始之前,请确保你的电脑满足最低要求:CPU ≥ 2核,内存 ≥ 4GB,磁盘空间 ≥ 20GB 。 第2步:安装通用依赖 你需要安装 Docker、Git 等工具。以下是 Linux (Ubuntu/Debian) 的示例命令,Windows 用户请手动下载安装 Docker Desktop 和 Git 。 # 1. 安装 Docker (使用阿里云镜像加速) curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun # 2. 启动 Docker 并设置开机自启 sudo systemctl start docker sudo systemctl enable docker # 3. 验证 Docker 安装 docker --version && docker compose version # 4. 安装 Git sudo apt update && sudo apt install git -y git --version 第3步:获取 OpenClaw 源码与镜像 创建工作目录,并拉取汉化版的源码和预构建的 Docker 镜像 。 # 1. 创建并进入部署目录 mkdir -p /opt/openclaw && cd /opt/openclaw # 2. 拉取2026版OpenClaw源码(汉化版) git clone https://github.com/openclaw-community/openclaw-zh.git . # 3. 拉取OpenClaw核心镜像(国内加速源) docker pull registry.cn-hangzhou.aliyuncs.com/openclaw/openclaw-core:2026-zh docker pull registry.cn-hangzhou.aliyuncs.com/openclaw/openclaw-web:2026-zh # 4. 验证镜像拉取结果 docker images | grep openclaw 第4步:初始化配置文件 复制配置文件模板并进行修改,填入你的 API Key 等重要信息 。 # 1. 复制默认配置文件 cp config/example.yaml config/config.yaml # 2. 编辑配置文件 (这里使用nano,你也可以用vim) nano config/config.yaml 找到文件中的对应部分,修改为以下内容。请务必将 你的阿里云百炼API-Key 替换为你自己的密钥 。 # ① 模型配置(替换为你的API-Key) models: providers: bailian: apiKey: "你的阿里云百炼API-Key" # <-- 在这里填入你的Key model: "bailian/qwen3-max-2026-01-23" # ② 服务端口配置 server: port: 18789 host: "0.0.0.0" # 监听所有网络接口,方便局域网内访问 # ③ 数据存储配置(本地路径) storage: local: path: "/opt/openclaw/data" 保存文件 (nano 中按 Ctrl+X,然后按 Y 确认,再按 Enter)。 第5步:启动 OpenClaw 服务 使用 Docker Compose 启动服务,并检查运行状态 。 # 1. 启动服务(后台运行) docker compose up -d # 2. 查看服务启动状态(所有容器应为 "Up" 状态) docker compose ps # 3. (可选)查看启动日志,确保无错误 docker compose logs -f 第6步:访问并完成初始化 打开浏览器,访问 http://127.0.0.1:18789 (如果在本机) 或 http://你的局域网IP:18789。首次访问时,页面会引导你设置管理员密码,之后就可以开始使用你的 OpenClaw 了 。 方案二:使用 Node.js 从源码部署 这种方式更贴近开发环境,适合需要定制功能的用户。 第1步:安装 Node.js 环境 OpenClaw 需要 Node.js 22 或更高版本 。推荐使用 NodeSource 仓库进行安装。 # 1. 添加 NodeSource 仓库 (以 Node.js 22 为例) curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash - # 2. 安装 Node.js sudo apt install -y nodejs # 3. 验证安装 node -v # 应显示 v22.x.x 或更高 npm -v # 4. (可选) 配置 npm 国内镜像加速 npm config set registry https://registry.npmmirror.com 第2步:安装 OpenClaw 官方提供了一个一键安装脚本,会自动完成全局安装 。 # macOS / Linux 系统执行 curl -fsSL https://openclaw.ai/install.sh | bash 安装脚本执行完成后,会自动进入一个名为 onboard 的交互式设置向导。如果向导中断,你可以随时通过 openclaw onboard --install-daemon 命令重新启动 。 第3步:处理可能遇到的问题 command not found 错误: 安装后如果找不到 openclaw 命令,通常是因为 npm 的全局安装目录不在系统的 PATH 环境变量中。你可以通过 npm prefix -g 找到该目录(例如 /usr/local),然后将 export PATH="$(npm prefix -g)/bin:$PATH" 添加到你的 ~/.bashrc 或 ~/.zshrc 文件中,并执行 source ~/.bashrc 使其生效 。 sharp 模块安装失败: 在某些系统上,可能会遇到图像处理库 sharp 的安装错误。可以尝试设置环境变量绕过本地编译:SHARP_IGNORE_GLOBAL_LIBVIPS=1 npm install -g openclaw@latest 。 第4步:运行 OpenClaw 完成配置后,你可以通过以下命令启动 OpenClaw 的 Gateway 核心服务 : openclaw gateway 然后,打开浏览器访问 http://127.0.0.1:18789 即可看到 Web 控制台界面 。 总的来说,对于大多数想要本地尝鲜的朋友,我强烈建议使用 Docker 方案,它足够简单且不容易把系统环境弄乱。如果你是个喜欢折腾的开发者,希望深入定制 OpenClaw 的能力,那么 Node.js 源码部署会更适合你。

28 天前
2026年2月,维也纳这座古典音乐之都意外成为AI开源社区的焦点。继旧金山ClawCon之后,OpenClaw(中文社区昵称“小龙虾”或“龙虾”)的欧洲首场线下盛会——ClawCon Vienna顺利举办,吸引了约500名开发者、创业者、AI爱好者和非技术背景的“蟹教徒”齐聚一堂。现场能量爆棚,原定场地直接爆满,主办方紧急加开直播点,线上线下同步狂欢。这场聚会不仅是技术分享,更是“养龙虾”亚文化的一次集体高光。 Peter Steinberger:家乡英雄的“衣锦还乡” OpenClaw创始人Peter Steinberger(中文圈常称“虾爸”或“龙虾之父”)是奥地利本地人,曾就读维也纳工业大学,早年创办PSPDFKit(移动PDF解决方案公司),2021年以高价出售大部分股份后一度“退休”。2025年底,他重出江湖推出Clawdbot(后更名为OpenClaw),一个完全本地运行、开源的自主AI Agent框架,支持多模型调用、工具集成和复杂任务执行。 在维也纳大会上,Peter以“回家”姿态登台,分享了项目从车库原型到全球现象的历程。他强调OpenClaw的核心理念:让普通人也能轻松拥有强大AI能力,无需编程门槛,就能让Agent完成从酿啤酒配方生成到模拟小型公司运营的各种任务。现场开发者分享真实案例,有人用它自动化职场周报,有人构建个人知识库,还有人让它24小时监控市场情报。企业家和开发者一致认为,“Agent经济”已在悄然成型,而OpenClaw正成为这场革命的先锋。 从聊天框“逃离”:3D可视化与具身进化 大会最亮眼的Demo之一来自开发者Dominik Scholz。他基于OpenClaw打造了一个3D交互界面(使用Three.js + Electron),将Agent的推理过程从线性文本“解放”到三维空间:思考路径如星云扩散、决策节点如能量流,用户可以从“驾驶舱视角”直观观察AI内部逻辑,避免传统黑盒体验。 这一展示呼应了社区共识:未来的AI Agent不应永远困在对话框里,而应向更沉浸、更具情绪价值的形态进化。有人开玩笑说,早期的“soul.md”文件被删是为了“净化灵魂”,但也反映出大家对AI具身化、元宇宙式交互的热情探索。 史上首款“龙虾手机”亮相:25美元实现廉价具身AI 另一个重磅炸场的是开发者Marshall的ClawPhone项目。他在一台仅售25美元的廉价手机上安装OpenClaw,并授予完整硬件权限。Agent可直接调用麦克风、摄像头、短信、打印机等,实现实时TTS(语音合成)、浏览器自动化、短信预约、设备远程控制等功能。 现场演示中,ClawPhone通过打印机错误音“哔哔”反馈任务状态、WhatsApp审批流程、甚至自主预约日程。Marshall认为,这种极客玩具预示未来:每个房间、实验室或小型机器人可能都配备类似廉价“龙虾终端”——断网也能运行,极端情况下“一锤砸掉”即可关停,形成分布式、去中心化的具身AI节点。 全球“养龙虾”浪潮:从旧金山到维也纳,再到亚洲 ClawCon Vienna是OpenClaw全球化扩张的又一里程碑。上周旧金山首场ClawCon已吸引超1000人,韩国AI女友项目Clawra上线后一夜爆火。全球开发者正围绕OpenClaw构建技能市场、Prompt库、多Agent协作系统,从单一工具演变为活跃开源生态。 维也纳的狂欢证明:OpenClaw已超越技术本身,成为一种社区文化现象。“蟹教徒”“虾粮”“蜕皮进化”“龙虾大逃杀”等梗在中文圈刷屏,英文社区也同步玩梗。项目从本地运行到硬件具身、从聊天框到3D空间,正在以惊人速度进化。 结语:小龙虾的下一个蜕皮 维也纳ClawCon不是终点,而是OpenClaw“征服全世界”叙事的又一章。Peter Steinberger的回归、社区的狂热、硬件的创新,都在告诉我们:开源AI Agent的春天来了,而“小龙虾”正以最意想不到的方式,搅动整个行业。

1 个月前
Xiaomi-Robotics-0 预训练了大量跨身体机器人轨迹和视觉语言数据,使其能够获得广泛且可推广的动作生成知识,同时保持强大的VLM能力。

1 个月前
在2026年开发AI产品时,搭建一个生产级(production-grade)RAG系统已经不再是“简单接个向量数据库就行”,而是需要系统性工程化思维。以下是从0到1再到生产可用的完整路径,按实际优先级和踩坑顺序组织。 一、生产级RAG ≠ Demo级RAG 的本质区别(2025-2026共识) 维度 Demo级(常见教程) 生产级(真正能上线赚钱) 为什么重要 文档量 几MB ~ 几百页 几万 ~ 几百万文档 / 多模态 / 每天增量更新 决定了分块、索引、召回策略完全不同 召回准确率 60-75% 目标88-95%+(视场景) 差10%召回率,用户体验天差地别 延迟 2-8秒随便 <1.5秒(p95),理想<800ms 用户流失率与延迟呈指数关系 幻觉控制 看运气 需要多重机制把幻觉率压到<5% 企业客户最怕胡说八道 可维护性 脚本跑一遍就行 需要数据质量pipeline、版本控制、监控告警 半年后没人敢碰代码 成本 不care embedding + LLM + vectorDB 每月几千到几十万刀 直接影响商业模式能否跑通 二、2026年主流生产级RAG搭建完整路径(推荐路线) Phase 0:先别写代码,先做这两件事(很多人跳过直接失败) 明确业务成功标准(最重要一步) 准确率目标:≥88%(RAGAS faithfulness & answer relevancy) 幻觉率:<5% 响应时间:p95 < 2秒(或按产品定位) 支持的文档类型:PDF/Word/Excel/网页/Markdown/扫描件/表格/图片? 更新频率:实时 / 每天 / 每周? 用户问题类型:单轮 / 多轮 / 带表格 / 需要推理? 准备评估集(金标准) 至少200-500条 真实用户问题 + 人工标注的完美答案 后续所有优化都拿这个集子打分 Phase 1:数据摄入与预处理(决定天花板,占60%工作量) 现代顺序(2025-2026主流做法): 文档清洗与质量分级(最被低估的一步) 运行一个轻量文档质量打分模型(或规则+小型LLM) 分三类:Clean / Decent / Garbage Garbage类直接人工干预或低权重处理 结构化解析(别直接喂Unstructured) PDF:用Marker / PyMuPDF + table detection(Marker 2025年后很强) Word/Excel:python-docx / pandas 保留层级:标题 → 段落 → 表格 → 图片说明 → 元数据 高级Chunk策略(2026年最核心差异化点) 策略 Chunk大小 适用场景 召回提升 Fixed-size 512 token 快速验证 baseline Semantic 200-800 主流生产 +15-25% Hierarchical 父子chunk 长文档、合同、手册 +20-35% Proposition-based 小粒度命题 法律/医疗/技术文档 +30%+ 推荐起步组合:Semantic + 父子索引 + 100-200 token重叠 Phase 2:Embedding 与 向量存储(2026主流选型) Embedding模型推荐(2026.2月时点性价比排序): bge-m3 / Snowflake Arctic Embed(开源王者) voyage-3-large / Cohere embed-v4(闭源但效果顶尖) text-embedding-3-large(稳定但已被超越) 向量数据库主流选择: 场景 首选数据库 次选 备注 < 100万向量 Chroma / Qdrant本地 PGVector 开发快 100万-1亿 Qdrant / Milvus Weaviate Qdrant 2025-2026口碑最佳 亿级 + 高并发 Pinecone serverless Zilliz Cloud 省心但贵 极致私有化 pgvector + pgvectorscale Milvus standalone 强烈建议:hybrid search(dense + sparse / BM25)几乎成为2026标配。 Phase 3:检索与后处理(拉开差距的关键层) 现代检索流水线(2026主流): 用户问题 ↓ Query分类与改写(是否需要检索?多意图拆分?) ↓ 多路召回(vector + BM25 + 知识图谱等) ↓ 初筛 top-30~100 ↓ 重排序(Cohere Rerank3 / bge-reranker-v2 / flashrank) ↓ 上下文压缩 / 抽取(LLM summarize top-8) ↓ 最终给LLM的上下文(带清晰source引用) Phase 4:生成与防幻觉 Prompt工程模板(必须有): 强制要求:只用提供的内容回答 / 不知道就说不知道 / 标注来源 结构化输出(JSON)便于下游解析 防幻觉组合拳: Self-Check / Self-RAG Corrective RAG Groundedness check(RAGAS / TruLens) 后置事实核查(小模型或规则) Phase 5:评估、监控、迭代闭环(生产级灵魂) 必须上的指标: Retrieval:Recall@K, MRR, NDCG Generation:Faithfulness, Answer Relevancy, Context Precision/Recall End-to-End:用户打分 / A/B测试 / 业务指标(解决率、CSAT) 推荐工具组合(2026主流): 评估:RAGAS / DeepEval / TruLens / Phoenix 监控:LangSmith / Helicone / Phoenix / PromptLayer Orchestration:LangGraph / LlamaIndex Workflows / Haystack / Flowise(低代码) 三、2026年推荐最小可用生产技术栈(性价比最高) 极简但能上线(适合小团队) 解析 → Marker / LlamaParse 向量化 → bge-m3 或 voyage-3 向量库 → Qdrant (docker) 召回+重排 → Qdrant + bge-reranker-v2 框架 → LlamaIndex 或 LangGraph LLM → DeepSeek-R1 / Qwen2.5-72B-Instruct / Claude-3.5-Sonnet (根据预算) 评估 → RAGAS + 人工golden set 进阶企业级(已验证可支撑十万+文档) 加:混合检索 + 父子索引 + query分解 + 多路召回 + 上下文压缩 + corrective RAG + 在线监控 一句话总结2026年RAG哲学: “70%的效果提升来自于数据质量、切块策略和检索后处理;20%来自embedding和重排序模型;只有10%靠换个更强的LLM。” 先把前70%做好,后面自然水到渠成。 ( Grok )
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI