GraphRAG:解锁叙述性私有数据的 LLM 发现

9 个月前 机器学习 136

GraphRAG 是一种结构化的分层检索增强生成 (RAG) 方法,而不是朴素的语义搜索 使用纯文本片段的方法。GraphRAG 过程涉及从原始文本中提取知识图谱,构建社区层次结构,为这些社区生成摘要,然后在执行基于 RAG 的任务时利用这些结构。

也许LLM最大的挑战和机遇是扩展他们强大的能力,以解决他们所训练的数据之外的问题,并使用LLM从未见过的数据获得可比的结果。这为数据调查开辟了新的可能性,例如根据上下文和数据集来识别主题和语义概念。在这篇文章中,我们介绍了由Microsoft研究院创建的GraphRAG,作为增强LLM能力的重大进步。

GraphRAG 与基线 RAG ?

检索增强生成 (RAG) 是一种基于用户查询搜索信息并将结果作为要生成的 AI 答案的参考的技术。这种技术是大多数基于 LLM 的工具的重要组成部分,大多数 RAG 方法都使用向量相似性作为搜索技术。GraphRAG 使用 LLM 生成的知识图谱,在对复杂信息进行文档分析时,大幅提高问答性能。这建立在我们最近的研究基础上,该研究指出了在私有数据集上执行发现时提示增强的力量。在这里,我们将私有数据集定义为 LLM 未接受过训练且以前从未见过的数据,例如企业的专有研究、业务文档或通信。基线 RAG的创建是为了帮助解决这个问题,但我们观察到基线 RAG 表现非常差的情况。例如:

  • 基线 RAG 努力将这些点连接起来。当回答问题需要通过其共享属性遍历不同的信息片段以提供新的综合见解时,就会发生这种情况。
  • 当被要求从整体上理解大型数据集合甚至单个大型文档的摘要语义概念时,基线 RAG 表现不佳。

为了解决这个问题,技术社区正在努力开发扩展和增强 RAG 的方法(例如,骆驼指数).Microsoft Research的新方法GraphRAG使用LLM创建基于私有数据集的知识图谱。然后,此图形与图形机器学习一起使用,以在查询时执行提示增强。GraphRAG 在回答上述两类问题方面表现出实质性的改进,展示了比以前应用于私有数据集的其他方法更出色的智力或掌握能力。

为了解决这个问题,技术社区正在努力开发扩展和增强RAG的方法。Microsoft Research的新方法GraphRAG使用LLM创建基于输入语料库的知识图谱。此图以及社区摘要和图形机器学习输出用于在查询时增强提示。GraphRAG 在回答上述两类问题方面表现出实质性的改进,展示了比以前应用于私有数据集的其他方法更出色的智力或掌握能力。

通过结合 LLM 生成的知识图谱和图形机器学习,GraphRAG 使我们能够回答仅使用基线 RAG 无法尝试的重要问题类别。在将这项技术应用于各种场景后,我们看到了有希望的结果,包括社交媒体和新闻文章。展望未来,我们计划在各种新领域与客户密切合作,同时继续应用这项技术,同时致力于指标和稳健的评估。


资讯来源:Microsoft Research Blog

相关资讯