Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • 什么是 GraphRAG?深入 Graph 赋能 RAG 的实践

什么是 GraphRAG?深入 Graph 赋能 RAG 的实践

更新于 2025年9月18日

7 分钟


什么是 GraphRAG?深入 Graph 赋能 RAG 的实践

是否曾经向聊天机器人提出一个复杂的、需要多跳推理的问题,却得到了一个自信但肤浅的答案?这是传统检索增强生成 (RAG) 的一个典型局限。GraphRAG 应运而生:一种图增强方法,将语料库中的实体和关系映射到知识图谱中,然后利用该结构为大型语言模型 (LLM) 检索更丰富、更互联的上下文。结果:更好的推理,更少的幻觉,以及反映信息实际连接方式的响应。
本文将采用一种注重实践和面向解决方案的视角:我们将定义 GraphRAG,展示它的工作原理、优势、劣势,以及如何使用当今的生态系统来实现它。在此过程中,您将看到真实的示例、架构技巧和构建指南。

  • GraphRAG 使用知识图谱增强 RAG,使 LLM 能够检索和推理实体、关系和社区——而不仅仅是孤立的文本块。
  • 它非常适合多跳问题、全局摘要、复杂的合规性查询和调查。
  • 您将从文本中提取图谱,组织它(通常是组织成社区),进行本地和全局摘要,然后将查询路由到正确的上下文。
  • 期望获得更强大的答案和可追溯的引用——但要为图谱提取成本、本体漂移和更新管道做好准备。

什么是 GraphRAG?

GraphRAG 是一种检索策略,它构建并利用知识图谱来支持 LLM 的回答。GraphRAG 不是通过嵌入相似性检索 top-k 个文本块,而是检索图谱邻域、社区摘要和以关系为中心的证据。这为模型提供了结构化的上下文——“谁在何时与谁做了什么,以及为什么”——而不是一堆语义上相似的片段。
为什么这很重要:许多现实世界的问题需要连接不同的事实(多跳推理)、评估整个网络中的影响力或总结整个主题。图谱就是为此而生的。

GraphRAG 的工作原理(分步说明)

在构建您的管道时,请使用此思维模型。
  1. 摄取和预处理
  • 清理和规范化文本(文档、电子邮件、工单、PDF、网页)。
  • 在逻辑边界(章节、段落)处进行分块,同时保留出处。
  1. 提取实体和关系
  • 使用 LLM 或 NER+RE 模型来检测实体(人、组织、产品、地点、事件)和关系(works_for、acquired、mentions、caused_by、depends_on、cited_by 等)。
  • 使用置信度分数和元数据(时间戳、来源)创建节点和边。
  1. 构建知识图谱
  • 存储在图数据库或图库中。
  • 删除重复数据并规范化实体(解决同义词和别名)。
  • 对图谱进行版本控制并跟踪沿袭。
  1. 构建社区层次结构和摘要
  • 运行社区检测(例如,Louvain/Leiden)以对相关节点进行分组。
  • 为节点/边生成本地摘要,为社区生成更高级别的摘要。这些将成为广泛查询的“全局”检索目标。
  1. 混合检索策略
  • 本地邻域:从与查询相关的种子实体扩展(k 跳子图)。
  • 社区级别:检索检测到的与查询意图相关的社区的摘要。
  • 文本回退:使用嵌入或 BM25 来拾取相关的但孤立的段落。
  • 证据打包:将子图和引用的文本片段编译为 LLM 的上下文。
  1. 生成带有出处的答案
  • 使用结构化证据(图谱片段 + 摘要 + 引用)提示 LLM。
  • 鼓励链式思考简短形式(或 toolformer 风格的生成)并要求引用。
  1. 持续更新
  • 当新文档到达时,增量提取实体/关系。
  • 重新计算摘要和受影响的社区。
  • 监控漂移和置信度阈值。

GraphRAG 与标准 RAG 的区别?

  • 表示:GraphRAG 编码实体和关系;标准 RAG 编码块嵌入。
  • 检索:GraphRAG 拉取邻域和社区摘要;RAG 拉取最近的块。
  • 推理:图结构支持多跳推理和影响分析;RAG 通常难以连接遥远的事实。
  • 可解释性:图谱和引用创建透明的证据链;RAG 可能会让人感觉像一个黑匣子。

何时使用 GraphRAG(以及何时不使用)

非常适合:
  • 多跳和跨文档问题:“哪些供应商间接使我们的产品面临地缘政治风险?”
  • 全局摘要:“本季度我们在各个地区的客户情绪发生了怎样的变化?”
  • 根本原因和依赖性分析:“哪些上游 API 更改导致了下游事件?”
  • 合规性和调查:“哪些电子邮件将 X 个人与 Z 日期左右的 Y 主题联系起来?”
  • 科学和竞争情报:“有哪些研究集群以及谁连接了它们?”
在以下情况下,使用标准 RAG 或混合方法:
  • 查询范围狭窄且本地化(单个文档答案)。
  • 您缺乏足够的数量或质量来证明图谱提取开销的合理性。
  • 您需要超低延迟和最少的预处理。

具体示例:事件响应知识图谱

  • 摄取:事后分析、Jira 工单、Slack 线程、随叫随到笔记。
  • 实体:服务、所有者、事件、runbook、提交、依赖项。
  • 关系:service_depends_on_service、incident_affects_service、owner_of、commit_references_incident。
  • 查询:“哪些上游服务最常与我们的 P1 事件相关联?”
  • 检索:“付款”集群的社区摘要 + “Checkout API”周围的 2 跳邻域 + 顶部事件摘录。
  • 答案:具有出处的排名解释和建议的缓解 runbook。

架构蓝图

  • 存储:图数据库(例如,标记属性图)。将原始文本保留在带有 ID 的对象存储中。
  • 索引:实体名称、类型、别名;边类型;时间属性。
  • 管道:带有重试和审计日志的异步提取-转换-加载 (ETL)。
  • 摘要:使用更改检测定期重新生成;缓存结果。
  • 检索路由器:意图分类以选择本地与全局与混合。
  • 防护措施:源接地、引用要求、阈值置信度以及在证据不足时回退到保守响应。

有效的提示模式

  • 本地邻域提示:“使用附加的 k 跳子图和引用,综合 X 与 Y 的关系。以内联方式列出来源。”
  • 全局摘要提示:“使用社区摘要 A/B/C,解释主题 T 的历史背景和当前状态。包括前 5 个支持性引用。”
  • 分歧检测:“识别提供的证据中的冲突声明。展示双方及其置信度。”

衡量成功

  • 质量:忠实度(有根据的主张)、覆盖率(我们是否检索到正确的子图?)和完整性(多跳正确性)。
  • 用户体验:首个令牌的时间、感知连贯性、引用清晰度。
  • 运营:提取准确率(精确率/召回率)、图谱增长率、每次更新的成本、缓存命中率。

常见陷阱(和修复)

  • 本体漂移:实体类型和关系模式不断发展。维护一个模式注册表和迁移计划。
  • 过度提取:嘈杂或重复的节点。使用置信度阈值和规范化工作流程。
  • 陈旧的摘要:在更改时重新生成并保持新鲜度 SLA。
  • 查询路由错误:添加意图分类和轻量级规划器代理。
  • 成本暴涨:批量提取、压缩摘要并设置具有自适应修剪的 k 跳限制。

安全性和治理

  • PII 和秘密:在存储前进行编辑;对敏感属性进行字段级加密。
  • 访问控制:基于属性的访问;在查询时过滤节点/边。
  • 可审计性:存储显示给 LLM 的证据包;记录带有哈希的提示和响应。

实施路线图(90 天)

  • 第 1-2 周:定义本体;选择一个图存储;设置摄取。
  • 第 3-4 周:构建实体/关系提取;从 3-5 个核心关系类型开始。
  • 第 5-6 周:社区检测和摘要生成;设计评估工具。
  • 第 7-8 周:检索路由器和答案提示;添加引用和出处 UI。
  • 第 9-10 周:迭代精确率/召回率;调整阈值;添加后备方案。
  • 第 11-12 周:安全加固;仪表板;利益相关者试点。

工具和生态系统

  • 图数据库和分析:标记属性图、社区检测 (Louvain/Leiden)、最短路径、影响指标。
  • LLM 运营:提取提示、速率限制、成本跟踪和忠实度评估工具。
  • 连接器:用于 PDF、电子邮件存储、工单系统、数据湖的文档加载器。
值得注意的是:如果您已经依赖于 AI 侧边栏或工作流程中的副驾驶风格助手,那么像 Sider.AI 这样的工具可以帮助您协调检索流程、附加引用并在浏览器中迭代提示,而无需深入的 MLOps 开销,在浏览器中速度对洞察力很重要。它对于试点 RAG 并在浏览器中探索图增强检索的团队特别有用。

未来展望

GraphRAG 是更广泛趋势的一部分:LLM 可以对结构化上下文进行推理。期望向量搜索、图存储和表存储之间有更紧密的集成;更好的开源提取器;以及动态切换本地邻域和全局社区视图的规划器。随着成本下降和提取准确率上升,GraphRAG 将不再像一种高级模式,而更像是复杂推理的默认设置。

主要收获

  • GraphRAG 从您的语料库构建知识图谱,并检索 LLM 的邻域和社区摘要。
  • 它擅长具有可追溯引用的多跳、全局和调查性问题。
  • 规划本体管理、成本控制和增量更新。
  • 从小处着手:几种实体类型、少量关系和重点用例。

常见问题解答

Q1: 简单来说,什么是 GraphRAG? GraphRAG 是带有知识图谱的 RAG。它不仅检索相似的文本块,还检索连接的实体和关系,以便 LLM 可以通过更好的基础跨多个跳进行推理。
Q2: GraphRAG 如何改进标准 RAG? 通过使用图结构,GraphRAG 检索捕获事实如何连接的邻域和社区摘要。这增强了多跳推理,减少了幻觉,并通过引用提高了可解释性。
Q3: 我应该何时使用 GraphRAG? 将其用于跨文档的复杂问题——调查、合规性检查、全局摘要以及依赖性或根本原因分析。对于简单的本地查找,标准 RAG 可以更快更便宜。
Q4: GraphRAG 系统的主要组成部分是什么? 关键部分包括实体/关系提取、图数据库、社区检测、本地和全局摘要、检索路由器以及需要证据和引用的 LLM 提示。
Q5: 如何评估 GraphRAG 管道? 衡量忠实度(基础)、正确子图的覆盖率、多跳正确性以及用户体验因素(如引用的清晰度)。跟踪提取精确率/召回率和每次更新的成本以管理运营。

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能