GraphRAG(Graph-based Retrieval-Augmented Generation):基于图谱的检索增强生成, 是一种结合了知识图谱和图机器学习技术的新型检索增强生成模型。
其技术核心包括:
GraphRAG 具有以下功能特点与优势:
GraphRAG 在多个领域具有广泛的应用潜力,例如:
微软于2024年7月2日将 GraphRAG 开源,旨在显著提升大型语言模型在处理私有数据时的理解和推理能力。它的出现为解决大型语言模型的一些局限性提供了新的思路和方法。

3 天前
在2026年开发AI产品时,搭建一个生产级(production-grade)RAG系统已经不再是“简单接个向量数据库就行”,而是需要系统性工程化思维。以下是从0到1再到生产可用的完整路径,按实际优先级和踩坑顺序组织。 一、生产级RAG ≠ Demo级RAG 的本质区别(2025-2026共识) 维度 Demo级(常见教程) 生产级(真正能上线赚钱) 为什么重要 文档量 几MB ~ 几百页 几万 ~ 几百万文档 / 多模态 / 每天增量更新 决定了分块、索引、召回策略完全不同 召回准确率 60-75% 目标88-95%+(视场景) 差10%召回率,用户体验天差地别 延迟 2-8秒随便 <1.5秒(p95),理想<800ms 用户流失率与延迟呈指数关系 幻觉控制 看运气 需要多重机制把幻觉率压到<5% 企业客户最怕胡说八道 可维护性 脚本跑一遍就行 需要数据质量pipeline、版本控制、监控告警 半年后没人敢碰代码 成本 不care embedding + LLM + vectorDB 每月几千到几十万刀 直接影响商业模式能否跑通 二、2026年主流生产级RAG搭建完整路径(推荐路线) Phase 0:先别写代码,先做这两件事(很多人跳过直接失败) 明确业务成功标准(最重要一步) 准确率目标:≥88%(RAGAS faithfulness & answer relevancy) 幻觉率:<5% 响应时间:p95 < 2秒(或按产品定位) 支持的文档类型:PDF/Word/Excel/网页/Markdown/扫描件/表格/图片? 更新频率:实时 / 每天 / 每周? 用户问题类型:单轮 / 多轮 / 带表格 / 需要推理? 准备评估集(金标准) 至少200-500条 真实用户问题 + 人工标注的完美答案 后续所有优化都拿这个集子打分 Phase 1:数据摄入与预处理(决定天花板,占60%工作量) 现代顺序(2025-2026主流做法): 文档清洗与质量分级(最被低估的一步) 运行一个轻量文档质量打分模型(或规则+小型LLM) 分三类:Clean / Decent / Garbage Garbage类直接人工干预或低权重处理 结构化解析(别直接喂Unstructured) PDF:用Marker / PyMuPDF + table detection(Marker 2025年后很强) Word/Excel:python-docx / pandas 保留层级:标题 → 段落 → 表格 → 图片说明 → 元数据 高级Chunk策略(2026年最核心差异化点) 策略 Chunk大小 适用场景 召回提升 Fixed-size 512 token 快速验证 baseline Semantic 200-800 主流生产 +15-25% Hierarchical 父子chunk 长文档、合同、手册 +20-35% Proposition-based 小粒度命题 法律/医疗/技术文档 +30%+ 推荐起步组合:Semantic + 父子索引 + 100-200 token重叠 Phase 2:Embedding 与 向量存储(2026主流选型) Embedding模型推荐(2026.2月时点性价比排序): bge-m3 / Snowflake Arctic Embed(开源王者) voyage-3-large / Cohere embed-v4(闭源但效果顶尖) text-embedding-3-large(稳定但已被超越) 向量数据库主流选择: 场景 首选数据库 次选 备注 < 100万向量 Chroma / Qdrant本地 PGVector 开发快 100万-1亿 Qdrant / Milvus Weaviate Qdrant 2025-2026口碑最佳 亿级 + 高并发 Pinecone serverless Zilliz Cloud 省心但贵 极致私有化 pgvector + pgvectorscale Milvus standalone 强烈建议:hybrid search(dense + sparse / BM25)几乎成为2026标配。 Phase 3:检索与后处理(拉开差距的关键层) 现代检索流水线(2026主流): 用户问题 ↓ Query分类与改写(是否需要检索?多意图拆分?) ↓ 多路召回(vector + BM25 + 知识图谱等) ↓ 初筛 top-30~100 ↓ 重排序(Cohere Rerank3 / bge-reranker-v2 / flashrank) ↓ 上下文压缩 / 抽取(LLM summarize top-8) ↓ 最终给LLM的上下文(带清晰source引用) Phase 4:生成与防幻觉 Prompt工程模板(必须有): 强制要求:只用提供的内容回答 / 不知道就说不知道 / 标注来源 结构化输出(JSON)便于下游解析 防幻觉组合拳: Self-Check / Self-RAG Corrective RAG Groundedness check(RAGAS / TruLens) 后置事实核查(小模型或规则) Phase 5:评估、监控、迭代闭环(生产级灵魂) 必须上的指标: Retrieval:Recall@K, MRR, NDCG Generation:Faithfulness, Answer Relevancy, Context Precision/Recall End-to-End:用户打分 / A/B测试 / 业务指标(解决率、CSAT) 推荐工具组合(2026主流): 评估:RAGAS / DeepEval / TruLens / Phoenix 监控:LangSmith / Helicone / Phoenix / PromptLayer Orchestration:LangGraph / LlamaIndex Workflows / Haystack / Flowise(低代码) 三、2026年推荐最小可用生产技术栈(性价比最高) 极简但能上线(适合小团队) 解析 → Marker / LlamaParse 向量化 → bge-m3 或 voyage-3 向量库 → Qdrant (docker) 召回+重排 → Qdrant + bge-reranker-v2 框架 → LlamaIndex 或 LangGraph LLM → DeepSeek-R1 / Qwen2.5-72B-Instruct / Claude-3.5-Sonnet (根据预算) 评估 → RAGAS + 人工golden set 进阶企业级(已验证可支撑十万+文档) 加:混合检索 + 父子索引 + query分解 + 多路召回 + 上下文压缩 + corrective RAG + 在线监控 一句话总结2026年RAG哲学: “70%的效果提升来自于数据质量、切块策略和检索后处理;20%来自embedding和重排序模型;只有10%靠换个更强的LLM。” 先把前70%做好,后面自然水到渠成。 ( Grok )

16 天前
AI Agent 的真正智能,来自于知识获取(RAG) + 协作协议(MCP) + 执行能力(SKILLS)的统一协同,而不是单一大模型孤立输出。

11 个月前
数据标签业务(Data Annotation / Data Labeling)是人工智能(AI)产业链中的重要环节,主要为机器学习模型提供高质量的训练数据。随着人工智能技术的广泛应用,中国的数据标注行业迎来了巨大的商业机遇,同时也面临一系列挑战。本文将从市场需求、政策环境、技术发展、产业竞争等多个维度进行分析。 一、数据标签业务的商业机遇 1. AI产业高速发展带动数据需求增长 中国人工智能产业正在快速发展,自动驾驶、智能客服、智能安防、医疗AI等领域对高质量数据标注的需求不断增长。例如: 自动驾驶:需要海量的图像、视频数据进行道路标注,如车道线、行人、交通标志等。 智能医疗:需要专业医学影像数据标注,如CT、MRI图像的病变区域标注。 电商与内容推荐:需要大量的文本、语音、图像数据进行分类、情感分析等标注。 数据质量直接决定了AI模型的性能,因此高质量的数据标注服务成为AI企业的刚需。 2. 中国具备全球领先的“数据优势” 中国的互联网和移动应用市场庞大,数据量丰富,包括社交、购物、金融、交通、医疗等多个领域的数据资源。相比欧美国家对数据隐私的严格监管,中国本土市场的数据可获取性更强,为数据标注业务提供了丰富的原材料。 3. 人力成本相对较低,适合规模化发展 尽管中国的劳动力成本逐年上升,但相比欧美仍然较低,特别是在三、四线城市和农村地区。大量低技术工人可以通过简单培训参与数据标注工作,形成规模化的数据加工产业链。 4. 政策支持及人工智能发展战略 中国政府高度重视人工智能发展,出台多项支持政策,如《新一代人工智能发展规划》,鼓励企业布局AI数据相关业务。此外,地方政府也在推动“AI+产业”落地,为数据标注公司提供政策支持、产业园区资源等。 5. 行业逐步向标准化、自动化升级 随着AI技术的发展,数据标注行业正在向更高效的方向演进: 半自动化标注:利用预训练AI模型辅助人工标注,提高效率。 智能质量控制:采用机器学习算法对标注数据进行自动审核,减少人工错误。 行业标准化:政府与企业推动建立统一的标注标准,提高数据质量。 这些趋势有助于降低成本、提高效率,使数据标注企业更具竞争力。 二、数据标签业务的商业挑战 1. 低端市场竞争激烈,价格战严重 数据标注行业进入门槛较低,导致大量小公司涌入市场,尤其是低端手工标注业务竞争激烈,利润率较低。许多企业通过压低价格争夺订单,导致行业整体盈利能力下降。行业集中度低,超500家中小标注企业竞争,图像标注单价从0.5元/张降至0.2元/张(2020-2023年),毛利率普遍低于15%。 2. 数据隐私与安全监管趋严 随着《数据安全法》《个人信息保护法》等法规的实施,数据使用的合规性要求提高,许多企业在数据收集和处理过程中需要满足严格的合规要求。这对数据标注企业提出更高的合规成本,如: 数据脱敏处理:需要去除敏感信息,增加处理成本。 数据存储合规性:要求数据存储在国内,并满足安全要求。 3. 业务同质化,缺乏技术壁垒 目前市场上的数据标注公司大多依赖人力,缺乏自主技术创新,难以形成核心竞争力。随着AI自动化标注技术的进步,传统的纯人工标注模式可能被取代,低端数据标注公司面临淘汰风险。 4. AI自动化标注技术的冲击 AI本身的发展正在威胁传统人工数据标注市场。例如: 计算机视觉:自动图像识别和标注技术正在进步,减少人工标注需求。 自然语言处理(NLP):自动文本分析工具可以降低文本标注的人工需求。 虽然完全替代人工标注还需时间,但对于低难度标注任务,AI已经可以大幅减少人工参与。 5. 客户集中度高,议价能力低 目前中国数据标注市场的大客户主要是科技巨头(如BAT、华为、字节跳动等),这些企业的议价能力极强,小型标注公司难以获取高利润订单。此外,大型科技公司正在自建数据标注团队,减少对外部供应商的依赖,使数据标注企业的市场空间进一步压缩。 三、未来发展方向与建议 1. 向高价值标注业务转型 企业应避免陷入低端市场的价格战,转向更专业化、高价值的标注领域,如: 医疗AI标注(高精度医学影像、基因数据) 自动驾驶高精度3D点云标注 金融数据标注(信用风险评估、反欺诈分析) 这些领域要求专业知识,竞争相对较小,利润率更高。 2. 发展智能标注平台,提高自动化水平 企业应开发自有标注平台,结合AI自动化工具,提升标注效率。例如: 采用预标注+人工审核模式,提高效率。 发展众包平台,让自由职业者参与标注任务,降低成本。 引入区块链溯源技术,提高数据可信度。 3. 加强数据安全与合规管理 数据合规是未来发展的关键,建议: 采用数据脱敏技术,确保用户隐私安全。 获得ISO 27001信息安全认证,增强市场信任度。 避免使用敏感数据,规避法律风险。 4. 拓展海外市场 相比中国市场竞争激烈,欧美市场的数据标注需求仍然较大,且愿意支付更高的价格。可以通过合作或跨境平台提供数据标注服务,拓展海外业务。 5. 与AI企业深度合作,提供定制化服务 与AI企业建立深度合作,提供更符合客户需求的标注服务,如: 嵌入式标注服务(在AI开发平台上直接提供标注服务) 数据增强+标注(同时提供数据扩增和标注服务) SaaS模式标注平台(提供在线标注工具,企业自行标注) 四、结论 中国的数据标签行业正处于快速发展阶段,市场潜力巨大,但也面临激烈竞争和技术变革带来的挑战。未来,企业应摆脱低端市场竞争,向高价值、智能化、合规化方向发展,才能在行业中占据更有利的位置。同时,通过国际化布局和技术创新,也能进一步拓展市场空间,实现长期增长。 (图片来源:levity.ai)

1 年前
比GraphRAG更懂“思考”,微软又开源PIKE-RAG:主打复杂私域知识理解和推理 继GraphRAG之后,微软又发布PIKE-RAG,主打在复杂企业场景中私域知识提取、推理和应用能力,PIKE-RAG 已在工业制造、采矿、制药等领域进行了测试,显著提升了问答准确率。报告、代码、demo均已开源。
1 年前
Covision Lab专注于计算机视觉和机器学习的公司,致力于将最先进的技术应用于工业领域的挑战,包括制造业、电子商务、印刷、农业和移动性等行业。

1 年前
AI视频生成模型的主要技术原理包括多种深度学习和机器学习技术,尤其是生成对抗网络(GANs)、变分自编码器(VAEs)和自然语言处理(NLP)。

1 年前
以下是一些关于 RAG(Retrieval-Augmented Generation,检索增强生成)企业落地的成功案例: Salesforce Einstein Salesforce 利用 RAG 技术打造了 Einstein 智能助手。 功能与应用:Einstein 可以从大量的客户数据、销售记录、市场趋势等信息中进行检索,并结合生成式回答来为销售团队提供个性化的建议和洞察。例如,当销售代表与客户沟通时,Einstein 能够快速检索相关客户信息和历史交易记录,同时生成针对当前情况的最佳销售策略建议,如推荐合适的产品、提供优惠方案等。 成果与效益:通过使用 Einstein,Salesforce 的客户企业显著提高了销售效率和客户满意度。销售团队能够更快速地响应客户需求,准确把握销售机会,从而增加了销售额和市场份额。同时,客户也受益于更加个性化和高效的服务体验。 Cisco with RAG for Customer Support Cisco 在客户支持领域应用了 RAG 技术。 功能与应用:当客户遇到技术问题时,Cisco 的支持系统可以从庞大的知识库中检索相关的解决方案和技术文档,并利用生成式模型为客户提供清晰、易懂的解答。例如,如果客户报告网络故障,系统会检索类似问题的历史解决方案,并根据当前情况生成具体的故障排除步骤和建议。此外,支持团队也可以利用该系统快速获取相关知识,提高解决问题的速度和准确性。 成果与效益:这大大缩短了客户等待解决问题的时间,提高了客户满意度。同时,Cisco 也降低了支持成本,因为系统可以自动处理许多常见问题,减少了人工干预的需求。 金融行业中的应用案例 某大型金融机构利用 RAG 技术提升风险管理和投资决策。 功能与应用:该机构将大量的金融市场数据、经济指标、行业研究报告等信息整合到 RAG 系统中。在进行风险管理时,系统可以检索历史市场波动数据和风险事件,并结合生成式分析提供当前市场风险的评估和预警。在投资决策方面,系统能够根据用户的投资目标和风险偏好,从海量数据中检索合适的投资组合建议,并生成详细的投资分析报告。 成果与效益:帮助金融机构更准确地评估风险,做出更明智的投资决策。提高了决策的效率和准确性,降低了投资风险,为机构带来了显著的经济效益。 这些成功案例展示了 RAG 技术在不同行业的广泛应用和巨大潜力,为其他企业考虑落地 RAG 提供了宝贵的参考经验。

1 年前
当将 RAG 企业落地时,以下是一些需要注意的事项: 数据质量与管理: 确保数据的准确性、完整性和一致性。对用于检索的知识库进行严格筛选和清理,去除错误、过时或不相关的信息,以免影响生成结果的质量。 建立有效的数据更新机制,以保证知识库中的信息能够及时反映最新的知识和业务动态。例如,定期更新文档、数据库记录等。 对数据进行分类和标记,便于在检索时能够准确地定位到相关内容。这可能涉及到制定合适的分类体系和标签规则。 查询处理与优化: 针对不规范的查询和短查询,采用合适的处理方法。例如,通过意图分析确定用户意图,缩小召回范围;进行关键词提取,以便根据关键词进行检索;或者主动向用户提问以获取更多信息,从而使查询更加明确。 优化查询的性能和效率,避免出现响应时间过长等问题。可以通过选择合适的索引技术、优化检索算法等方式来提高查询速度。 集成结构化数据:如果企业中存在结构化数据(如关系数据库、Excel 文件等),需要考虑如何将其有效地整合到 RAG 流程中。这可能需要开发相应的数据接口或转换工具,以确保结构化数据能够与非结构化数据一起被检索和利用,为生成更全面和准确的回答提供支持。 模型选择与调优: 根据企业的具体需求和应用场景,选择合适的 RAG 模型架构和相关技术。不同的开源框架或商业解决方案在功能、性能、可扩展性等方面可能存在差异,需要进行充分的评估和比较。 对所选的模型进行调优,包括调整参数、优化训练过程等,以提高模型在企业数据上的表现。例如,可以使用特定领域的数据集进行进一步的微调,使模型更好地适应企业的业务知识和语言特点。 结果评估与反馈: 建立评估指标体系,对 RAG 生成的结果进行客观的评估。这可以包括准确性、相关性、可读性等方面的指标,通过与人工标注的结果进行对比或进行用户满意度调查等方式来衡量生成结果的质量。 根据评估结果,及时收集反馈信息,以便对模型和系统进行进一步的改进和优化。例如,如果发现某些类型的问题经常出现错误回答,可以针对性地调整数据或模型。 安全与隐私保护: 确保企业数据的安全,采取措施防止数据泄露、未经授权的访问等问题。这可能涉及到数据加密、访问控制、安全审计等方面的技术和管理措施。 如果处理的是包含个人隐私信息的数据,必须严格遵守相关的隐私法规和政策,对用户隐私进行保护。例如,在数据收集、存储和使用过程中,明确告知用户并获得其同意,对敏感信息进行脱敏处理等。 可扩展性与兼容性: 考虑企业未来的发展和业务扩展需求,选择具有良好可扩展性的 RAG 解决方案。这包括能够支持更大规模的数据量、更多的用户访问以及更复杂的应用场景等。 确保 RAG 系统与企业现有的技术架构和软件系统具有良好的兼容性,能够方便地进行集成和对接。例如,与企业的业务系统、数据库、应用程序等进行无缝连接,以实现数据的共享和交互。 用户体验与界面设计: 设计友好、直观的用户界面,使用户能够方便地输入查询并理解生成的回答。提供清晰的操作指引和反馈信息,降低用户的使用门槛和学习成本。 优化生成结果的呈现方式,使其易于阅读和理解。例如,对长篇幅的回答进行分段、突出关键信息、提供相关的参考资料或链接等。 成本控制与效益分析: 评估 RAG 项目的成本,包括技术采购、数据处理、模型训练、系统维护等方面的费用,确保在企业的预算范围内。 分析 RAG 系统为企业带来的效益,如提高工作效率、改善客户服务、创造新的业务机会等,以证明项目的投资价值。通过持续的效益分析,不断优化 RAG 系统的应用策略,以实现最大的收益。 法律合规性:了解并遵守相关的法律法规,特别是在涉及知识产权、内容创作、数据使用等方面。确保 RAG 生成的内容不侵犯他人的版权、商标权等合法权益,避免可能的法律风险。 总之,RAG 企业落地需要综合考虑技术、数据、业务、用户等多个方面的因素,通过精心的规划、实施和不断的优化,才能实现其在企业中的有效应用和价值最大化。在实施过程中,建议与专业的技术团队、法律顾问等进行合作,以确保各项工作的顺利进行。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI