
-Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
-Dify 原生提供了两种类型的应用:对话和文本生成,均已在 GitHub 上开源,您可以基于它们创造出所需的应用。
-Dify 允许创建 AI 应用,并提供二次开发的能力。例如,可以创建一个法律问答助手的 AI 应用(机器人)。
-Dify 支持创建个性化对话机器人、AI 智能客服、基于专业知识的文本生成等应用。
-在应用编排中新增了 Agent 模式,可以基于不同的 LLMs 作为基础的自然语言理解和推理模型,并提供一系列工具让 LLM 根据需要来调用,解决多步骤的复杂问题场景,帮助开发者构建更具想象力的 GPTs 和 Agent Assistants(智能助手)。
-Dify 还支持诸如网页浏览、Google 搜索、Wikipedia 查询等第一方插件,可在对话中实现联网搜索、分析网页内容、展示 AI 的推理过程。团队 Workspace 使得团队成员可加入 Workspace 编辑、管理和使用团队内的 AI 应用。同时,Dify 具有数据标注与改进的功能,能够可视化查阅 AI 应用日志并对数据进行改进标注,观测 AI 的推理过程,不断提高其性能。
Dify 的对话应用具有会话持久化的特点,这意味着它能够将之前的聊天记录作为上下文进行回答。这种特性使得对话更加连贯和自然,适用于聊天和客服等场景。例如,在客服场景中,用户咨询了一系列问题后,再次提出新的疑问时,Dify 可以基于之前的交流内容提供更准确和有针对性的回答,而不是孤立地处理每次的询问。它还可以通过不断学习和优化,更好地理解用户的意图和需求,从而提供更满意的服务。
Dify 的文本生成应用具有高效和高质量的优势。它能够快速生成准确、清晰且富有逻辑的文本,适用于翻译、文章写作、总结等多种任务。比如在翻译工作中,能够准确地将一种语言转换为另一种语言,同时保持原文的意思和风格。在文章写作方面,可以根据给定的主题和要求,生成结构合理、内容丰富的文章。对于总结任务,能够从大量的文本中提取关键信息,生成简洁明了的总结。
Dify 个性化对话机器人具备强大的功能。它能够理解用户的个性化需求和偏好,为用户提供专属的服务和回答。通过对用户的历史交互数据进行分析和学习,不断优化自身的回答策略,以更好地满足用户的期望。例如,为用户提供个性化的推荐,如电影、音乐、书籍等;根据用户的情绪和语气,给予相应的安慰或鼓励;还能针对特定领域,如医疗、金融等,提供专业的知识和建议。
Dify 智能客服的应用场景十分广泛。在在线零售业,它能为顾客提供产品推荐、解答常见问题,并及时跟踪订单状态。金融服务领域中,它可为客户提供在线咨询、账户管理和财务建议,同时识别防范欺诈行为。医疗健康领域,能为患者提供预约挂号、医疗咨询和药品建议,甚至进行初步诊断引导。教育行业,为学生提供课程咨询、作业辅导和学习建议,制定个性化学习计划。旅游与酒店行业,帮助顾客规划行程、查询预订和提供入住安排等服务。汽车行业,为车主提供预约维修、故障排查和保养建议。
Dify 在基于专业知识的文本生成方面有众多案例。例如在法律领域,能够生成准确的法律文书、案例分析和法律建议;在医学领域,可生成详细的病历报告、诊断说明和治疗方案;在科技领域,能撰写技术文档、研究报告和创新方案等。这些案例充分展示了 Dify 在不同专业领域的强大文本生成能力。
Dify 中的 Agent 模式具有重要作用。它能够像人类解决复杂问题一样,通过理解信息、分析解决问题的步骤、做出决策、借助工具采取行动、观察变化,然后再做出下一个决策和动作,以此来完成复杂任务。大型语言模型本身具备强大的自然语言理解能力和推理能力,而 Agent 模式让这种能力在解决实际复杂问题中得到更好的应用。例如,在处理多步骤的业务流程时,Agent 模式可以自动规划步骤、调用相关工具和资源,提高工作效率和准确性。
Dify 作为一个功能强大的开源平台,支持多种类型的 AI 应用,为开发者和用户提供了丰富的选择和便利。无论是对话应用、文本生成应用,还是个性化对话机器人、智能客服等,都展现出了出色的性能和广泛的适用性,能够满足不同领域和场景的需求。

1 个月前
OpenClaw 本质是“开发者基础设施”,而非面向大众的 SaaS 产品。

2 个月前
用 OpenClaw 搭建一个本地 Agent 中枢(完整方案) 不是再做一个 ChatGPT,而是建立一个真正“可控、可组合、可扩展”的本地 AI Agent 中枢。 当越来越多团队开始意识到: 云端 LLM 成本不可控 数据隐私存在风险 单一 Agent 无法解决真实业务 “本地 Agent 中枢” 正在成为一个更现实的选择。 本文将完整讲清楚: 👉 如何用 OpenClaw 搭建一个真正可用的本地 Agent 中枢 👉 它适合谁,不适合谁 👉 与 LangGraph / CrewAI 的核心差异 什么是「本地 Agent 中枢」? 先明确一个概念,避免误解。 ❌ 不是: 一个本地 ChatGPT 一个简单的 Prompt 管理器 ✅ 而是: 一个能够统一管理多个 Agent、模型、工具和任务流程的本地系统 一个合格的本地 Agent 中枢,至少要解决 5 件事: 多 Agent 协作(不是单轮对话) 任务调度与状态管理 模型可替换(本地 / API) 工具调用(搜索、代码、文件等) 可长期运行、可追溯 OpenClaw 的定位,正是这个“中枢层”。 为什么选择 OpenClaw? 在进入部署前,必须先回答一个现实问题: 为什么不是 LangGraph / CrewAI / AutoGen? 简要结论(非常重要) 框架 更适合 LangGraph 开发者写 Agent 流程 CrewAI 小规模角色协作 AutoGen 对话驱动实验 OpenClaw 长期运行的 Agent 中枢 OpenClaw 的核心优势 1️⃣ 架构清晰,不是“脚本拼装” 有明确的 Agent 管理层 有任务执行与状态机制 不是写完一次就丢的 Demo 2️⃣ 原生支持多模型策略 本地模型 云 API fallback / 优先级策略 3️⃣ 更接近“生产环境思维” 可持续运行 可复用 Agent 可演进 如果你的目标是: “做一个长期使用的 AI 中枢,而不是一段实验代码” 那 OpenClaw 是目前更合理的选择之一。 整体架构:OpenClaw 本地 Agent 中枢怎么搭? 这是一个最小可用但可扩展的架构方案。 🧩 架构拆解 ┌─────────────────────────┐ │ 用户 / 系统 │ └──────────┬──────────────┘ │ ┌──────────▼──────────┐ │ OpenClaw 中枢层 │ │ - Agent Registry │ │ - Task Orchestrator│ │ - Memory / State │ └──────────┬──────────┘ │ ┌─────────▼─────────┐ │ Agent 集群 │ │ - Research Agent │ │ - Coding Agent │ │ - Planning Agent │ │ - Tool Agent │ └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ 模型 & 工具层 │ │ - 本地 LLM │ │ - API LLM │ │ - Search / FS / DB │ └───────────────────┘ 部署准备(实战级) 1️⃣ 基础环境 推荐环境(已验证): Linux / WSL / macOS Docker + Docker Compose Python 3.10+ 2️⃣ 模型选择建议(非常现实) 场景 推荐 本地推理 Qwen / LLaMA 稳定输出 GPT / Claude API 混合方案 本地 + API fallback 👉 关键不是模型多,而是“可切换” 核心步骤:搭建 OpenClaw 本地 Agent 中枢 Step 1:部署 OpenClaw 核心 git clone https://github.com/xxx/openclaw cd openclaw docker compose up -d 启动后,你将拥有: Agent 管理入口 任务调度服务 统一配置中心 Step 2:定义你的第一个 Agent 一个 Agent ≠ 一个 Prompt 而是一个职责明确的“角色” 示例: agent: name: research_agent role: 信息调研 model: local_llm tools: - web_search - file_reader 建议起步 Agent: Research Agent(信息收集) Planner Agent(任务拆解) Executor Agent(执行) Step 3:建立 Agent 协作流程 例如一个典型任务: “调研某行业 → 输出分析 → 给出建议” 流程是: Planner 拆解任务 Research Agent 收集信息 Executor Agent 输出结果 中枢保存状态与结果 👉 这一步,才是“中枢”的价值所在 一个真实可用的示例场景 🎯 场景:AI 工具评估中枢 你可以搭一个 Agent 中枢来做: 自动收集 AI 工具信息 对比功能 / 定价 输出结构化报告 长期更新 这类系统: 人工成本极高 用 Agent 非常合适 总结:什么时候该用 OpenClaw? 当你意识到:AI 不再是“一次性回答”,而是“持续协作的系统” 那你就已经走在 OpenClaw 这条路上了。 OpenClaw 不是让你“更快用 AI”,而是让你“真正拥有 AI 能力”。

2 个月前
Asking User Question Tool(AI智能体版) 这是AI智能体必备的交互式工具,让Agent在执行任务时主动向用户提问、澄清需求、收集信息,避免瞎猜、减少返工、提升准确率。 一、核心定位 本质:Agent的“人在回路”交互接口,让AI在模糊/信息不足时暂停执行,向用户要明确输入。 作用:把“模糊指令→AI瞎做→反复修改”变成“AI提问→用户明确→一次做对”。 常见名称: AskUserQuestion 、 AskUserQuestionTool 、 ask_user_question 。 二、核心工作流(极简) 1. Agent判断信息不足:发现需求模糊、缺少参数、需要决策 2. 调用工具生成结构化问题:单选/多选+自定义输入+说明 3. 用户作答:在聊天/弹窗/终端选择或输入 4. Agent接收答案:解析结构化结果,补全上下文 5. 继续执行任务:基于完整信息推进,不再猜 三、关键能力(标配) 结构化提问:标题+问题+2–4个选项+单选/多选+ Other 自定义输入 上下文澄清:自动追问,直到需求完全明确 结构化返回:输出JSON,方便前端渲染(按钮/表单/弹窗) 人在回路:强制用户确认,避免AI自主决策风险 多轮交互:可连续提问,形成“需求访谈”流程 四、主流实现(你会遇到的版本) Claude Code(Anthropic) 原生内置,最成熟 支持多轮、单选/多选、自定义输入 常用于代码生成、需求梳理 Qwen-Agent(通义千问) 开源工具: qwen_agent/tools/ask_user_question.py 支持参数: question / options / explanations / multiSelect / allowFreeform Spring AI AskUserQuestionTool ,Java生态 模型无关,可对接GPT/Claude/Gemini OpenClaw / EasyClaw 集成到本地智能体,用于任务执行前确认 本地运行,隐私优先 五、典型使用场景(高频) 需求澄清:“做一个登录页”→AI问:技术栈?风格?是否第三方登录? 偏好收集:“写报告”→AI问:正式/ casual?长度?受众? 决策点确认:“部署服务”→AI问:云厂商?实例规格?环境? 复杂任务拆解:多轮提问,把模糊需求变成可执行步骤 六、与普通聊天的区别 普通聊天:用户主动说,AI被动答;信息靠用户自己补全 AskUserQuestion:AI主动问、结构化问、按任务节点问;用户只需点选/填空,效率高、歧义少 七、为什么要用(价值) 减少返工:一次做对,节省时间与Token 提升准确率:AI不瞎猜,结果更贴合需求 降低门槛:用户不用写长Prompt,点选即可 安全可控:关键决策必须用户确认,避免误操作 八、一句话总结 Asking User Question Tool = AI智能体的“需求访谈官”,让Agent从“猜着做”变成“问清楚再做”,是构建可靠、实用AI助手的核心工具。

2 个月前
部署本地 OpenClaw 主要有两种主流且资料详尽的方式,你可以根据自己的技术背景和需求来选择。 我把这两种方式的流程整理成了一个概览表格,方便你快速对比和决策: 特性 方案一:Docker 部署(推荐新手) 方案二:Node.js 源码部署(适合开发者) 核心依赖 Docker, Docker Compose, Git Node.js (≥22), npm, Git 优点 环境隔离,部署和卸载干净,失败率低,适合快速体验 配置灵活,方便二次开发和调试,可直接运行最新源码 缺点 需要了解基本的 Docker 命令 对系统环境要求较高,可能遇到依赖冲突 适用人群 希望快速、稳定运行OpenClaw的用户 开发者、希望修改源码或深度定制OpenClaw的用户 方案一:使用 Docker 部署(推荐) 这种方法将 OpenClaw 运行在容器中,与你的系统环境隔离,最为稳妥。 第1步:准备工作与环境检查 在开始之前,请确保你的电脑满足最低要求:CPU ≥ 2核,内存 ≥ 4GB,磁盘空间 ≥ 20GB 。 第2步:安装通用依赖 你需要安装 Docker、Git 等工具。以下是 Linux (Ubuntu/Debian) 的示例命令,Windows 用户请手动下载安装 Docker Desktop 和 Git 。 # 1. 安装 Docker (使用阿里云镜像加速) curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun # 2. 启动 Docker 并设置开机自启 sudo systemctl start docker sudo systemctl enable docker # 3. 验证 Docker 安装 docker --version && docker compose version # 4. 安装 Git sudo apt update && sudo apt install git -y git --version 第3步:获取 OpenClaw 源码与镜像 创建工作目录,并拉取汉化版的源码和预构建的 Docker 镜像 。 # 1. 创建并进入部署目录 mkdir -p /opt/openclaw && cd /opt/openclaw # 2. 拉取2026版OpenClaw源码(汉化版) git clone https://github.com/openclaw-community/openclaw-zh.git . # 3. 拉取OpenClaw核心镜像(国内加速源) docker pull registry.cn-hangzhou.aliyuncs.com/openclaw/openclaw-core:2026-zh docker pull registry.cn-hangzhou.aliyuncs.com/openclaw/openclaw-web:2026-zh # 4. 验证镜像拉取结果 docker images | grep openclaw 第4步:初始化配置文件 复制配置文件模板并进行修改,填入你的 API Key 等重要信息 。 # 1. 复制默认配置文件 cp config/example.yaml config/config.yaml # 2. 编辑配置文件 (这里使用nano,你也可以用vim) nano config/config.yaml 找到文件中的对应部分,修改为以下内容。请务必将 你的阿里云百炼API-Key 替换为你自己的密钥 。 # ① 模型配置(替换为你的API-Key) models: providers: bailian: apiKey: "你的阿里云百炼API-Key" # <-- 在这里填入你的Key model: "bailian/qwen3-max-2026-01-23" # ② 服务端口配置 server: port: 18789 host: "0.0.0.0" # 监听所有网络接口,方便局域网内访问 # ③ 数据存储配置(本地路径) storage: local: path: "/opt/openclaw/data" 保存文件 (nano 中按 Ctrl+X,然后按 Y 确认,再按 Enter)。 第5步:启动 OpenClaw 服务 使用 Docker Compose 启动服务,并检查运行状态 。 # 1. 启动服务(后台运行) docker compose up -d # 2. 查看服务启动状态(所有容器应为 "Up" 状态) docker compose ps # 3. (可选)查看启动日志,确保无错误 docker compose logs -f 第6步:访问并完成初始化 打开浏览器,访问 http://127.0.0.1:18789 (如果在本机) 或 http://你的局域网IP:18789。首次访问时,页面会引导你设置管理员密码,之后就可以开始使用你的 OpenClaw 了 。 方案二:使用 Node.js 从源码部署 这种方式更贴近开发环境,适合需要定制功能的用户。 第1步:安装 Node.js 环境 OpenClaw 需要 Node.js 22 或更高版本 。推荐使用 NodeSource 仓库进行安装。 # 1. 添加 NodeSource 仓库 (以 Node.js 22 为例) curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash - # 2. 安装 Node.js sudo apt install -y nodejs # 3. 验证安装 node -v # 应显示 v22.x.x 或更高 npm -v # 4. (可选) 配置 npm 国内镜像加速 npm config set registry https://registry.npmmirror.com 第2步:安装 OpenClaw 官方提供了一个一键安装脚本,会自动完成全局安装 。 # macOS / Linux 系统执行 curl -fsSL https://openclaw.ai/install.sh | bash 安装脚本执行完成后,会自动进入一个名为 onboard 的交互式设置向导。如果向导中断,你可以随时通过 openclaw onboard --install-daemon 命令重新启动 。 第3步:处理可能遇到的问题 command not found 错误: 安装后如果找不到 openclaw 命令,通常是因为 npm 的全局安装目录不在系统的 PATH 环境变量中。你可以通过 npm prefix -g 找到该目录(例如 /usr/local),然后将 export PATH="$(npm prefix -g)/bin:$PATH" 添加到你的 ~/.bashrc 或 ~/.zshrc 文件中,并执行 source ~/.bashrc 使其生效 。 sharp 模块安装失败: 在某些系统上,可能会遇到图像处理库 sharp 的安装错误。可以尝试设置环境变量绕过本地编译:SHARP_IGNORE_GLOBAL_LIBVIPS=1 npm install -g openclaw@latest 。 第4步:运行 OpenClaw 完成配置后,你可以通过以下命令启动 OpenClaw 的 Gateway 核心服务 : openclaw gateway 然后,打开浏览器访问 http://127.0.0.1:18789 即可看到 Web 控制台界面 。 总的来说,对于大多数想要本地尝鲜的朋友,我强烈建议使用 Docker 方案,它足够简单且不容易把系统环境弄乱。如果你是个喜欢折腾的开发者,希望深入定制 OpenClaw 的能力,那么 Node.js 源码部署会更适合你。

2 个月前
2026年2月,维也纳这座古典音乐之都意外成为AI开源社区的焦点。继旧金山ClawCon之后,OpenClaw(中文社区昵称“小龙虾”或“龙虾”)的欧洲首场线下盛会——ClawCon Vienna顺利举办,吸引了约500名开发者、创业者、AI爱好者和非技术背景的“蟹教徒”齐聚一堂。现场能量爆棚,原定场地直接爆满,主办方紧急加开直播点,线上线下同步狂欢。这场聚会不仅是技术分享,更是“养龙虾”亚文化的一次集体高光。 Peter Steinberger:家乡英雄的“衣锦还乡” OpenClaw创始人Peter Steinberger(中文圈常称“虾爸”或“龙虾之父”)是奥地利本地人,曾就读维也纳工业大学,早年创办PSPDFKit(移动PDF解决方案公司),2021年以高价出售大部分股份后一度“退休”。2025年底,他重出江湖推出Clawdbot(后更名为OpenClaw),一个完全本地运行、开源的自主AI Agent框架,支持多模型调用、工具集成和复杂任务执行。 在维也纳大会上,Peter以“回家”姿态登台,分享了项目从车库原型到全球现象的历程。他强调OpenClaw的核心理念:让普通人也能轻松拥有强大AI能力,无需编程门槛,就能让Agent完成从酿啤酒配方生成到模拟小型公司运营的各种任务。现场开发者分享真实案例,有人用它自动化职场周报,有人构建个人知识库,还有人让它24小时监控市场情报。企业家和开发者一致认为,“Agent经济”已在悄然成型,而OpenClaw正成为这场革命的先锋。 从聊天框“逃离”:3D可视化与具身进化 大会最亮眼的Demo之一来自开发者Dominik Scholz。他基于OpenClaw打造了一个3D交互界面(使用Three.js + Electron),将Agent的推理过程从线性文本“解放”到三维空间:思考路径如星云扩散、决策节点如能量流,用户可以从“驾驶舱视角”直观观察AI内部逻辑,避免传统黑盒体验。 这一展示呼应了社区共识:未来的AI Agent不应永远困在对话框里,而应向更沉浸、更具情绪价值的形态进化。有人开玩笑说,早期的“soul.md”文件被删是为了“净化灵魂”,但也反映出大家对AI具身化、元宇宙式交互的热情探索。 史上首款“龙虾手机”亮相:25美元实现廉价具身AI 另一个重磅炸场的是开发者Marshall的ClawPhone项目。他在一台仅售25美元的廉价手机上安装OpenClaw,并授予完整硬件权限。Agent可直接调用麦克风、摄像头、短信、打印机等,实现实时TTS(语音合成)、浏览器自动化、短信预约、设备远程控制等功能。 现场演示中,ClawPhone通过打印机错误音“哔哔”反馈任务状态、WhatsApp审批流程、甚至自主预约日程。Marshall认为,这种极客玩具预示未来:每个房间、实验室或小型机器人可能都配备类似廉价“龙虾终端”——断网也能运行,极端情况下“一锤砸掉”即可关停,形成分布式、去中心化的具身AI节点。 全球“养龙虾”浪潮:从旧金山到维也纳,再到亚洲 ClawCon Vienna是OpenClaw全球化扩张的又一里程碑。上周旧金山首场ClawCon已吸引超1000人,韩国AI女友项目Clawra上线后一夜爆火。全球开发者正围绕OpenClaw构建技能市场、Prompt库、多Agent协作系统,从单一工具演变为活跃开源生态。 维也纳的狂欢证明:OpenClaw已超越技术本身,成为一种社区文化现象。“蟹教徒”“虾粮”“蜕皮进化”“龙虾大逃杀”等梗在中文圈刷屏,英文社区也同步玩梗。项目从本地运行到硬件具身、从聊天框到3D空间,正在以惊人速度进化。 结语:小龙虾的下一个蜕皮 维也纳ClawCon不是终点,而是OpenClaw“征服全世界”叙事的又一章。Peter Steinberger的回归、社区的狂热、硬件的创新,都在告诉我们:开源AI Agent的春天来了,而“小龙虾”正以最意想不到的方式,搅动整个行业。

2 个月前
在2026年开发AI产品时,搭建一个生产级(production-grade)RAG系统已经不再是“简单接个向量数据库就行”,而是需要系统性工程化思维。以下是从0到1再到生产可用的完整路径,按实际优先级和踩坑顺序组织。 一、生产级RAG ≠ Demo级RAG 的本质区别(2025-2026共识) 维度 Demo级(常见教程) 生产级(真正能上线赚钱) 为什么重要 文档量 几MB ~ 几百页 几万 ~ 几百万文档 / 多模态 / 每天增量更新 决定了分块、索引、召回策略完全不同 召回准确率 60-75% 目标88-95%+(视场景) 差10%召回率,用户体验天差地别 延迟 2-8秒随便 <1.5秒(p95),理想<800ms 用户流失率与延迟呈指数关系 幻觉控制 看运气 需要多重机制把幻觉率压到<5% 企业客户最怕胡说八道 可维护性 脚本跑一遍就行 需要数据质量pipeline、版本控制、监控告警 半年后没人敢碰代码 成本 不care embedding + LLM + vectorDB 每月几千到几十万刀 直接影响商业模式能否跑通 二、2026年主流生产级RAG搭建完整路径(推荐路线) Phase 0:先别写代码,先做这两件事(很多人跳过直接失败) 明确业务成功标准(最重要一步) 准确率目标:≥88%(RAGAS faithfulness & answer relevancy) 幻觉率:<5% 响应时间:p95 < 2秒(或按产品定位) 支持的文档类型:PDF/Word/Excel/网页/Markdown/扫描件/表格/图片? 更新频率:实时 / 每天 / 每周? 用户问题类型:单轮 / 多轮 / 带表格 / 需要推理? 准备评估集(金标准) 至少200-500条 真实用户问题 + 人工标注的完美答案 后续所有优化都拿这个集子打分 Phase 1:数据摄入与预处理(决定天花板,占60%工作量) 现代顺序(2025-2026主流做法): 文档清洗与质量分级(最被低估的一步) 运行一个轻量文档质量打分模型(或规则+小型LLM) 分三类:Clean / Decent / Garbage Garbage类直接人工干预或低权重处理 结构化解析(别直接喂Unstructured) PDF:用Marker / PyMuPDF + table detection(Marker 2025年后很强) Word/Excel:python-docx / pandas 保留层级:标题 → 段落 → 表格 → 图片说明 → 元数据 高级Chunk策略(2026年最核心差异化点) 策略 Chunk大小 适用场景 召回提升 Fixed-size 512 token 快速验证 baseline Semantic 200-800 主流生产 +15-25% Hierarchical 父子chunk 长文档、合同、手册 +20-35% Proposition-based 小粒度命题 法律/医疗/技术文档 +30%+ 推荐起步组合:Semantic + 父子索引 + 100-200 token重叠 Phase 2:Embedding 与 向量存储(2026主流选型) Embedding模型推荐(2026.2月时点性价比排序): bge-m3 / Snowflake Arctic Embed(开源王者) voyage-3-large / Cohere embed-v4(闭源但效果顶尖) text-embedding-3-large(稳定但已被超越) 向量数据库主流选择: 场景 首选数据库 次选 备注 < 100万向量 Chroma / Qdrant本地 PGVector 开发快 100万-1亿 Qdrant / Milvus Weaviate Qdrant 2025-2026口碑最佳 亿级 + 高并发 Pinecone serverless Zilliz Cloud 省心但贵 极致私有化 pgvector + pgvectorscale Milvus standalone 强烈建议:hybrid search(dense + sparse / BM25)几乎成为2026标配。 Phase 3:检索与后处理(拉开差距的关键层) 现代检索流水线(2026主流): 用户问题 ↓ Query分类与改写(是否需要检索?多意图拆分?) ↓ 多路召回(vector + BM25 + 知识图谱等) ↓ 初筛 top-30~100 ↓ 重排序(Cohere Rerank3 / bge-reranker-v2 / flashrank) ↓ 上下文压缩 / 抽取(LLM summarize top-8) ↓ 最终给LLM的上下文(带清晰source引用) Phase 4:生成与防幻觉 Prompt工程模板(必须有): 强制要求:只用提供的内容回答 / 不知道就说不知道 / 标注来源 结构化输出(JSON)便于下游解析 防幻觉组合拳: Self-Check / Self-RAG Corrective RAG Groundedness check(RAGAS / TruLens) 后置事实核查(小模型或规则) Phase 5:评估、监控、迭代闭环(生产级灵魂) 必须上的指标: Retrieval:Recall@K, MRR, NDCG Generation:Faithfulness, Answer Relevancy, Context Precision/Recall End-to-End:用户打分 / A/B测试 / 业务指标(解决率、CSAT) 推荐工具组合(2026主流): 评估:RAGAS / DeepEval / TruLens / Phoenix 监控:LangSmith / Helicone / Phoenix / PromptLayer Orchestration:LangGraph / LlamaIndex Workflows / Haystack / Flowise(低代码) 三、2026年推荐最小可用生产技术栈(性价比最高) 极简但能上线(适合小团队) 解析 → Marker / LlamaParse 向量化 → bge-m3 或 voyage-3 向量库 → Qdrant (docker) 召回+重排 → Qdrant + bge-reranker-v2 框架 → LlamaIndex 或 LangGraph LLM → DeepSeek-R1 / Qwen2.5-72B-Instruct / Claude-3.5-Sonnet (根据预算) 评估 → RAGAS + 人工golden set 进阶企业级(已验证可支撑十万+文档) 加:混合检索 + 父子索引 + query分解 + 多路召回 + 上下文压缩 + corrective RAG + 在线监控 一句话总结2026年RAG哲学: “70%的效果提升来自于数据质量、切块策略和检索后处理;20%来自embedding和重排序模型;只有10%靠换个更强的LLM。” 先把前70%做好,后面自然水到渠成。 ( Grok )

2 个月前
Node.js 和 Git 是支持 AI Agent 开发、依赖管理和协作的基础工具。

2 个月前
AI Agent 的真正智能,来自于知识获取(RAG) + 协作协议(MCP) + 执行能力(SKILLS)的统一协同,而不是单一大模型孤立输出。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI