三种检索增强生成的区分：NaiveRAG, AdvancedRAG, AgenticRAG

9 个月前机器学习 433

RAG 是 retrieval-augmented generation 的缩写，即检索增强生成，它是一种结合了检索和生成技术的深度学习模型，常用于自然语言处理任务，如文本生成、问答系统等。RAG 模型的核心思想是通过检索模块从外部知识库或大规模语料库中获取相关信息，然后将这些信息提供给生成模块，以生成更加准确和有用的回答或文本。

在人工智能构建知识库领域，RAG可以分成这三种 Naive RAG、Advanced RAG 和 Agentic RAG ，其特点分别如下：

Naive RAG（朴素检索增强生成）

数据获取方式：
- 通常采用较为简单直接的方式从数据源中获取信息，可能没有经过复杂的筛选和预处理。例如，直接从大量的文本文件、网页等来源抓取数据，不进行深入的主题分类或质量评估。
- 对数据的来源和类型可能没有严格的限制，导致数据的多样性和质量参差不齐。
知识表示与存储：
- 知识的表示可能较为简单，可能只是以原始文本的形式存储，没有进行深度的语义分析和结构化处理。
- 存储方式可能较为基础，例如使用传统的数据库或文件系统，缺乏高效的索引和检索机制。
检索与生成过程：
- 在检索阶段，可能使用基本的关键词匹配或简单的文本相似度计算方法，难以准确地找到与用户问题最相关的知识。
- 在生成阶段，可能只是简单地拼接检索到的文本片段，缺乏对生成内容的深度理解和优化，生成的回答可能较为生硬和不准确。

Advanced RAG（高级检索增强生成）

数据获取方式：
- 采用更加智能化的方法进行数据采集，例如通过定向爬虫从特定领域的权威网站获取高质量的数据。
- 对数据进行预处理，包括去除噪声、提取关键信息、进行主题分类等，提高数据的质量和可用性。
知识表示与存储：
- 运用先进的知识表示技术，如知识图谱、向量表示等，将知识进行结构化和语义化存储。
- 建立高效的索引和检索机制，能够快速准确地找到与用户问题相关的知识。
检索与生成过程：
- 检索阶段采用更复杂的算法，如语义搜索、深度学习模型等，能够深入理解用户问题的语义，准确找到最相关的知识。
- 在生成阶段，利用深度学习模型进行语言生成，能够根据检索到的知识生成更加自然、准确和有逻辑的回答。同时，还可以进行多轮对话和上下文理解，提高交互的质量和效果。

Agentic RAG（自主检索增强生成）

数据获取方式：
- 具有自主学习和数据采集的能力，能够根据用户的需求和反馈自动调整数据采集策略，获取更加相关和有用的数据。
- 可以与外部数据源进行交互，实时获取最新的知识和信息。
知识表示与存储：
- 采用动态的知识表示和存储方式，能够根据新的数据和知识不断更新和优化知识库。
- 具备自我管理和优化的能力，能够自动调整知识的存储结构和索引，提高检索效率。
检索与生成过程：
- 具有高度的自主性和智能性，能够根据用户问题自动选择最合适的检索策略和生成方法。
- 可以进行自我评估和改进，通过分析用户的反馈和评价不断提高生成回答的质量和准确性。同时，还可以与用户进行更加智能的交互，理解用户的意图和需求，提供更加个性化的服务。

RAG 检索增强生成 AI百科

相关网站

MaxKB

基于大模型和RAG的本地知识库问答系统

DB-GPT

蚂蚁集团AI原生数据应用开发框架

MiniRAG

港大轻量级RAG系统

ima.copilot

构建知识库

RAGflow

用本地知识库搭建智能助手

Kotaemon

与自己的文档对话

Quivr

创建个人第二个大脑

Command R

专为商业构建的可扩展 LLM

相关资讯