掌握檢索增強生成(Retrieval-Augmented Generation)的 10 個最佳 RAGFlow 教學
如果您曾經嘗試讓大型語言模型回答特定領域的問題,卻發現它自信地胡說八道,那麼您就能體會到 RAGFlow 解決的痛點。檢索增強生成 (RAG) 將搜尋層與生成結合,讓您的模型引用來自您自己資料的事實。RAGFlow 是一種開放、視覺化且由管線驅動的方式來建構端到端的系統——從文件導入到分塊(chunking)、嵌入(embedding)、向量搜尋和有根據的回應。
在本指南中,我們匯總了您可以立即遵循的最佳 RAGFlow 教學、如何為您的堆疊選擇合適的教學,以及從「Hello World」到實際應用的實用路線圖。我們將保持務實,提供範例、陷阱以及您在基本演練中找不到的一些技巧。
我們採用實用且以解決方案為導向的方法:簡短的解釋、清晰的步驟和可複製貼上的程式碼片段。讓我們幫助您發布一個真正能正確回答問題的 RAGFlow 應用程式。
什麼是「最佳 RAGFlow 教學」?
並非所有教學都是相同的。最佳 RAGFlow 教學具有以下幾個特點:
- 端到端流程:導入 → 分塊 → 嵌入 → 索引 → 檢索 → 生成,全部在一個路徑中。
- 真實的文件:PDF、HTML、簡報或混亂的日誌——而不僅僅是玩具般的 Markdown。
- 內建評估:它們教導如何衡量根據性(groundedness)、延遲和答案品質。
- 可擴展性:展示在哪裡可以替換模型、分塊策略或向量儲存。
在選擇學習路徑時,請記住這些標準。
目前 10 個最佳 RAGFlow 教學
以下是一個精選列表,涵蓋從初學者到高級的內容。每個條目都包含它的用途、您將建構的內容以及適合的對象。
1) RAGFlow 快速入門:您的第一個端到端管線
- 它的優點:了解各個活動部件的最快方法——非常適合解除封鎖。
- 您將建構:一個最小的管線:上傳 PDF、自動分塊、嵌入、索引和查詢,並帶有引用。
- 插入一個分塊器(例如,遞迴 + 標題)和一個嵌入模型節點。
- 連接到向量儲存,然後新增檢索和 LLM 生成節點。
- 適合對象:絕對初學者;驗證 RAGFlow 基本流程的團隊。
2) RAGFlow + 多個資料來源:PDF、網頁和 Notion
- 它的優點:大多數真實專案都結合了混亂的來源;本教學展示了如何做到。
- 您將建構:一個管線,可以導入 PDF、抓取 URL 並按計劃同步 Notion 頁面。
3) 分塊大師班:從簡單分割到語義窗口
- 它的優點:分塊是贏得或失去大多數 RAG 品質的地方。
- 提示:保持分塊足夠小以確保相關性,但足夠大以確保上下文(通常為 300–700 個 token,重疊 10–20%)。
4) 大規模嵌入:替換模型和向量儲存
- 您將建構:一個管線變體,可以替換嵌入(例如,
text-embedding-3-large、BGE、E5)和向量儲存(FAISS、Milvus、PGVector)。
5) RAGFlow 中的防護措施和幻覺緩解
- 您將建構:一個檢索增強管線,具有答案約束、拒絕策略和引用檢查。
- 新增一個答案驗證器節點,以確保每個答案引用至少 N 個來源。
- 使用一個指令模板,禁止猜測,並在缺少證據時要求說「我不知道」。
6) 用於結構化資料的 RAGFlow:SQL + 文字混合檢索
- 您將建構:一個雙檢索器管線:用於文件的語義檢索和用於 SQL 的工具呼叫。
- 將 SQL 結果表作為上下文人工因素包含到 LLM 中。
7) 使用黃金集和人工審查評估 RAG 品質
- 您將建構:一個評估工具,用於衡量根據性、引用覆蓋率和有用性。
8) 生產中的 RAGFlow:快取、逾時和可觀察性
- 您將建構:一個穩健的管線,具有請求快取、重試和追蹤儀表板。
- 發出跨度/指標,用於檢索延遲和 token 使用量。
9) 領域特定劇本:法律、醫療保健和支援
- 您將建構:模板,用於遵守每個領域的合規性、詞彙和推理模式。
- 支援:整合票證歷史記錄;給予最近的文件更高的權重。
10) RAGFlow + 函數呼叫:行動,而不僅僅是答案
- 它的優點:最強大的 RAG 系統可以讀取、推理和行動。
- 您將建構:一個管線,其中 LLM 檢索文件,然後呼叫工具——發送電子郵件、打開票證或安排工作。
- 新增一個決策路由器,以區分「回答」與「行動」查詢。
實用路線圖:在 30 天內從教學到生產
在此 4 階段計劃中使用上述教學。將其視為您的「RAGFlow 新兵訓練營」。
第 1 週:基礎知識和首次勝利
- 完成教學 1(快速入門)和教學 3(分塊大師班)。
- 發布一個概念驗證,回答來自您的文件的 20–30 個測試問題。
第 2 週:資料深度和可靠性
- 替換嵌入和向量儲存(教學 4);選擇成本/品質的勝利者。
第 3 週:評估、防護措施和領域適應性
第 4 週:混合檢索和可操作性
- 連接 SQL/工具呼叫(教學 6)以進行混合查詢。
- 新增函數呼叫和批准(教學 10),以便您的 RAGFlow 應用程式可以採取行動。
您必須知道的 RAGFlow 概念
即使是最好的 RAGFlow 教學也假設了一些核心概念。以下是一個快速複習。
- 檢索增強生成 (RAG):使用從您的知識庫檢索到的分塊來擴充 LLM 的上下文,以便答案以證據為基礎。
- 分塊:將文件分割成可檢索的單元。重疊保留上下文;標題建立邊界;語義方法使用嵌入來尋找自然斷點。
- 嵌入:分塊和查詢的向量表示。更好的嵌入可以提高檢索相關性並減少幻覺。
- 向量儲存:用於向量的資料庫,具有相似性搜尋。選擇會影響速度、召回率和規模。
- 重新排名:可選的第二階段評分器,用於按相關性重新排序檢索到的分塊。
- 提示工程:清晰的指令,要求引用、禁止猜測和格式化輸出。
- 評估:使用黃金集、人工審查和自動指標進行系統衡量。
複製貼上入門:基準 RAG 提示模板
在您的生成節點中使用此模板以減少幻覺並強制執行引用。
您是一位仔細的助理,只使用在檢索到的上下文中找到的資訊回答問題。
規則:
- 在每個聲明後用 [source_name:page_or_section] 引用證據。
- 如果答案不在上下文中,請說「根據提供的來源,我不知道。」
- 首選直接引用來定義;總結程序。
上下文:
{{retrieved_context}}
問題:
{{user_query}}
答案:
範例:替換嵌入並衡量影響
# 偽代碼,說明您將在高級教程中看到的實驗邏輯
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)
解讀速查表:
- 如果在模型交換後根據性躍升,請保留它——即使 token 成本略高。
- 如果延遲飆升,請新增快取或將最大檢索分塊從 8 → 5 減少。
- 如果引用覆蓋率下降,請調整分塊大小或新增重新排名。
這些教學可幫助您避免的常見陷阱
- 過度分塊:太小的分塊會導致遺漏上下文和嘈雜的答案。
- 分塊不足:巨大的分塊會用不相關的文字污染上下文窗口。
- 一刀切的嵌入:領域語言(法律、臨床)可能需要領域調整模型。
- 沒有評估:在沒有基準的情況下更改任何內容會產生虛幻的回歸。
為您的用例選擇正確的教學
順便說一句:使用 Sider.AI 更快地建立原型
- 在將變更納入 RAGFlow 之前,執行快速假設測試。
在您遵循 RAGFlow 教學時,將其用作您的草稿本;然後在您的管線中編纂勝利者。
疑難排解指南:問題發生時的快速修復
- 修復:增加分塊重疊、切換到更好的嵌入模型或新增重新排名。
- 修復:快取向量結果、限制檢索到的分塊,並使用串流 token。
- 修復:正規化元資料、重複資料刪除近似相同的分塊、權衡更新的文件。
主要收穫
- 最佳 RAGFlow 教學教導具有真實資料和評估的端到端系統。
- 使用領域劇本和函數呼叫,超越問答,進入實際工作流程。
下一步做什麼
- 選擇兩個符合您迫切需要的教學(例如,快速入門 + 分塊大師班)。
- 從您自己的文件中組裝一個黃金問答集(從 50 個問題開始)。
- 當您的評估穩定時,使用快取和防護措施移至生產模板。
- 一旦您的基準可靠,就可以分層使用函數呼叫和領域策略。
常見問題
Q1: 絕對初學者最好的 RAGFlow 教學是什麼?
從 RAGFlow 快速入門教學開始,該教學涵蓋導入 PDF、分塊、嵌入、索引、檢索和生成帶引用的內容。 它可以讓您快速獲得端到端的感覺,並為您設置更深入的 RAGFlow 教學。
Q2: 除了基本教學之外,我如何提高 RAGFlow 的準確性?
專注於分塊策略、嵌入質量和重新排名。 高級 RAGFlow 教學還展示瞭如何添加防護措施和評估工具來減少幻覺並量化根據性。
Q3: 哪些嵌入最適合 RAGFlow 的企業文檔?
嘗試像 text-embedding-3-large、E5 或 BGE 這樣的強大的通用模型,然後測量您數據的檢索指標。 最佳 RAGFlow 教學建議跨模型和向量儲存進行 A/B 測試,以選擇獲勝者。
Q4: RAGFlow 可以處理像 SQL 這樣的結構化數據以及文檔嗎?
是的。 用於 RAGFlow 的混合檢索教學展示瞭如何通過函數調用將定量查詢路由到 SQL,同時仍然使用語義檢索來處理非結構化文檔,然後在生成時合併結果。
Q5: 在上線之前,我該如何評估 RAGFlow 管道?
遵循以評估為重點的 RAGFlow 教學:創建一個帶有來源的黃金問答集,在更改後運行自動化測試,並跟踪根據性、引用覆蓋率、延遲和有用性。 僅在指標穩定時才部署。