What is the best RAGFlow tutorial for absolute beginners?

Start with a RAGFlow quickstart tutorial that covers ingesting a PDF, chunking, embedding, indexing, retrieving, and generating with citations. It gives you an end-to-end feel fast and sets you up for deeper RAGFlow tutorials.

How do I improve accuracy in RAGFlow beyond basic tutorials?

Focus on chunking strategy, embeddings quality, and reranking. Advanced RAGFlow tutorials also show how to add guardrails and evaluation harnesses to reduce hallucinations and quantify groundedness.

Which embeddings work best with RAGFlow for enterprise docs?

Try strong general models like text-embedding-3-large, E5, or BGE, then measure retrieval metrics on your data. The best RAGFlow tutorials recommend A/B tests across models and vector stores to pick the winner.

Can RAGFlow handle structured data like SQL along with documents?

Yes. Hybrid retrieval tutorials for RAGFlow show how to route quantitative queries to SQL via function calling while still using semantic retrieval for unstructured docs, then merge results at generation time.

How do I evaluate a RAGFlow pipeline before going live?

Follow evaluation-focused RAGFlow tutorials: create a golden Q&A set with sources, run automated tests after changes, and track groundedness, citation coverage, latency, and helpfulness. Only deploy when metrics stabilize.

掌握檢索增強生成（Retrieval-Augmented Generation）的 10 個最佳 RAGFlow 教學

如果您曾經嘗試讓大型語言模型回答特定領域的問題，卻發現它自信地胡說八道，那麼您就能體會到 RAGFlow 解決的痛點。檢索增強生成 (RAG) 將搜尋層與生成結合，讓您的模型引用來自您自己資料的事實。RAGFlow 是一種開放、視覺化且由管線驅動的方式來建構端到端的系統——從文件導入到分塊（chunking）、嵌入（embedding）、向量搜尋和有根據的回應。

在本指南中，我們匯總了您可以立即遵循的最佳 RAGFlow 教學、如何為您的堆疊選擇合適的教學，以及從「Hello World」到實際應用的實用路線圖。我們將保持務實，提供範例、陷阱以及您在基本演練中找不到的一些技巧。

我們採用實用且以解決方案為導向的方法：簡短的解釋、清晰的步驟和可複製貼上的程式碼片段。讓我們幫助您發布一個真正能正確回答問題的 RAGFlow 應用程式。

什麼是「最佳 RAGFlow 教學」？

並非所有教學都是相同的。最佳 RAGFlow 教學具有以下幾個特點：

端到端流程：導入 → 分塊 → 嵌入 → 索引 → 檢索 → 生成，全部在一個路徑中。

真實的文件：PDF、HTML、簡報或混亂的日誌——而不僅僅是玩具般的 Markdown。

內建評估：它們教導如何衡量根據性（groundedness）、延遲和答案品質。

生產考量：快取、重試、可觀察性和防護措施。

可擴展性：展示在哪裡可以替換模型、分塊策略或向量儲存。

在選擇學習路徑時，請記住這些標準。

目前 10 個最佳 RAGFlow 教學

以下是一個精選列表，涵蓋從初學者到高級的內容。每個條目都包含它的用途、您將建構的內容以及適合的對象。

1) RAGFlow 快速入門：您的第一個端到端管線

它的優點：了解各個活動部件的最快方法——非常適合解除封鎖。

您將建構：一個最小的管線：上傳 PDF、自動分塊、嵌入、索引和查詢，並帶有引用。

主要步驟：

啟動 RAGFlow 並打開管線建構器。

新增一個檔案導入節點並指向一個 PDF。

插入一個分塊器（例如，遞迴 + 標題）和一個嵌入模型節點。

連接到向量儲存，然後新增檢索和 LLM 生成節點。

使用幾個查詢進行測試並檢查來源。

適合對象：絕對初學者；驗證 RAGFlow 基本流程的團隊。

2) RAGFlow + 多個資料來源：PDF、網頁和 Notion

它的優點：大多數真實專案都結合了混亂的來源；本教學展示了如何做到。

您將建構：一個管線，可以導入 PDF、抓取 URL 並按計劃同步 Notion 頁面。

主要步驟：

每個來源使用單獨的導入節點。

正規化元資料（標題、URL、作者、章節）。

按來源標記分塊，以便在檢索時更好地篩選。

適合對象：知識庫、Wiki 和內部入口網站。

3) 分塊大師班：從簡單分割到語義窗口

它的優點：分塊是贏得或失去大多數 RAG 品質的地方。

您將建構：使用根據性指標對分塊策略進行並排評估。

主要步驟：

比較固定大小、遞迴標題和語義分塊。

對表格和程式碼區塊使用重疊窗口。

評估檢索到的分塊的精確度/召回率。

提示：保持分塊足夠小以確保相關性，但足夠大以確保上下文（通常為 300–700 個 token，重疊 10–20%）。

4) 大規模嵌入：替換模型和向量儲存

它的優點：模型選擇默默地決定了您的檢索上限。

您將建構：一個管線變體，可以替換嵌入（例如，text-embedding-3-large、BGE、E5）和向量儲存（FAISS、Milvus、PGVector）。

主要步驟：

使用一致的查詢執行 A/B 檢索測試。

追蹤命中率和平均倒數排名。

根據模型指南選擇餘弦與點積相似度。

適合對象：為成長或成本效益調整做準備的團隊。

5) RAGFlow 中的防護措施和幻覺緩解

它的優點：安全在生產中不是可選項。

您將建構：一個檢索增強管線，具有答案約束、拒絕策略和引用檢查。

主要步驟：

新增一個答案驗證器節點，以確保每個答案引用至少 N 個來源。

使用一個指令模板，禁止猜測，並在缺少證據時要求說「我不知道」。

新增一個針對檢索到的分塊的生成後事實檢查。

6) 用於結構化資料的 RAGFlow：SQL + 文字混合檢索

它的優點：許多問題混合了文件和資料庫。

您將建構：一個雙檢索器管線：用於文件的語義檢索和用於 SQL 的工具呼叫。

主要步驟：

透過函數呼叫將定量問題路由到 SQL。

將 SQL 結果表作為上下文人工因素包含到 LLM 中。

與文件片段合併以進行敘述性解釋。

7) 使用黃金集和人工審查評估 RAG 品質

它的優點：沒有評估，您就是在盲目飛行。

您將建構：一個評估工具，用於衡量根據性、引用覆蓋率和有用性。

主要步驟：

準備 50–200 個帶有來源的黃金問答對。

在每次管線變更後設定自動執行。

使用模型答案和黃金參考之間的協議評分。

8) 生產中的 RAGFlow：快取、逾時和可觀察性

它的優點：生產引入了延遲、速率限制和成本約束。

您將建構：一個穩健的管線，具有請求快取、重試和追蹤儀表板。

主要步驟：

新增由正規化查詢鍵控的向量和生成快取。

為供應商故障實施退避。

發出跨度/指標，用於檢索延遲和 token 使用量。

9) 領域特定劇本：法律、醫療保健和支援

它的優點：領域約束改變了一切。

您將建構：模板，用於遵守每個領域的合規性、詞彙和推理模式。

主要步驟：

法律：優先考慮章節，引用段落 ID。

醫療保健：取消識別 PHI，將建議限制在指南中。

支援：整合票證歷史記錄；給予最近的文件更高的權重。

10) RAGFlow + 函數呼叫：行動，而不僅僅是答案

它的優點：最強大的 RAG 系統可以讀取、推理和行動。

您將建構：一個管線，其中 LLM 檢索文件，然後呼叫工具——發送電子郵件、打開票證或安排工作。

主要步驟：

為工具定義 JSON 模式。

新增一個決策路由器，以區分「回答」與「行動」查詢。

記錄每次工具呼叫，並帶有防護措施和批准。

實用路線圖：在 30 天內從教學到生產

在此 4 階段計劃中使用上述教學。將其視為您的「RAGFlow 新兵訓練營」。

第 1 週：基礎知識和首次勝利

完成教學 1（快速入門）和教學 3（分塊大師班）。

發布一個概念驗證，回答來自您的文件的 20–30 個測試問題。

新增基本答案模板以強制引用和拒絕。

第 2 週：資料深度和可靠性

新增多來源導入（教學 2）並安排重新索引。

替換嵌入和向量儲存（教學 4）；選擇成本/品質的勝利者。

引入快取和逾時（教學 8）以保持延遲一致。

第 3 週：評估、防護措施和領域適應性

建構一個黃金集和自動評估（教學 7）。

新增生成後事實檢查和拒絕策略（教學 5）。

應用一個帶有自訂提示的領域劇本（教學 9）。

第 4 週：混合檢索和可操作性

連接 SQL/工具呼叫（教學 6）以進行混合查詢。

新增函數呼叫和批准（教學 10），以便您的 RAGFlow 應用程式可以採取行動。

檢測可觀察性儀表板；設定準確性和延遲的 SLO。

您必須知道的 RAGFlow 概念

即使是最好的 RAGFlow 教學也假設了一些核心概念。以下是一個快速複習。

檢索增強生成 (RAG)：使用從您的知識庫檢索到的分塊來擴充 LLM 的上下文，以便答案以證據為基礎。

分塊：將文件分割成可檢索的單元。重疊保留上下文；標題建立邊界；語義方法使用嵌入來尋找自然斷點。

嵌入：分塊和查詢的向量表示。更好的嵌入可以提高檢索相關性並減少幻覺。

向量儲存：用於向量的資料庫，具有相似性搜尋。選擇會影響速度、召回率和規模。

重新排名：可選的第二階段評分器，用於按相關性重新排序檢索到的分塊。

提示工程：清晰的指令，要求引用、禁止猜測和格式化輸出。

評估：使用黃金集、人工審查和自動指標進行系統衡量。

複製貼上入門：基準 RAG 提示模板

在您的生成節點中使用此模板以減少幻覺並強制執行引用。

您是一位仔細的助理，只使用在檢索到的上下文中找到的資訊回答問題。
規則：
- 在每個聲明後用 [source_name:page_or_section] 引用證據。
- 如果答案不在上下文中，請說「根據提供的來源，我不知道。」
- 首選直接引用來定義；總結程序。
上下文：
{{retrieved_context}}
問題：
{{user_query}}
答案：

範例：替換嵌入並衡量影響

# 偽代碼，說明您將在高級教程中看到的實驗邏輯
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)

解讀速查表：

如果在模型交換後根據性躍升，請保留它——即使 token 成本略高。

如果延遲飆升，請新增快取或將最大檢索分塊從 8 → 5 減少。

如果引用覆蓋率下降，請調整分塊大小或新增重新排名。

這些教學可幫助您避免的常見陷阱

過度分塊：太小的分塊會導致遺漏上下文和嘈雜的答案。

分塊不足：巨大的分塊會用不相關的文字污染上下文窗口。

一刀切的嵌入：領域語言（法律、臨床）可能需要領域調整模型。

沒有評估：在沒有基準的情況下更改任何內容會產生虛幻的回歸。

忽略新鮮度：過時的索引會導致正確但過時的答案。

跳過防護措施：沒有拒絕規則，您的模型會猜測。

為您的用例選擇正確的教學

新創支援機器人：教學 1、2、5、8、9。

內部研究助理：教學 1、3、4、7。

資料分析副駕駛：教學 6、10。

受監管行業：首先是教學 5 和 9，然後是 7。

順便說一句：使用 Sider.AI 更快地建立原型

當您在 RAG 提示上迭代、測試查詢和比較回應時，上下文切換的成本很高。值得注意的是：Sider.AI (https://sider.ai/) 讓您可以並排與多個模型聊天、釘選提示並保持一個正在運行的知識工作區。它適用於：

比較來自不同檢索設定和提示的答案。

在將變更納入 RAGFlow 之前，執行快速假設測試。

為您的評估工具組織程式碼片段、引用和黃金問答。

在您遵循 RAGFlow 教學時，將其用作您的草稿本；然後在您的管線中編纂勝利者。

疑難排解指南：問題發生時的快速修復

症狀：答案是通用的並且缺乏引用。

修復：在提示中強制執行引用要求並新增驗證器節點。

症狀：檢索到不相關的分塊。

修復：增加分塊重疊、切換到更好的嵌入模型或新增重新排名。

症狀：延遲 > 3 秒。

修復：快取向量結果、限制檢索到的分塊，並使用串流 token。

症狀：跨查詢的矛盾答案。

修復：正規化元資料、重複資料刪除近似相同的分塊、權衡更新的文件。

症狀：模型太頻繁地拒絕並顯示「我不知道」。

修復：放寬拒絕閾值、擴大檢索深度或細化分塊邊界。

主要收穫

最佳 RAGFlow 教學教導具有真實資料和評估的端到端系統。

分塊和嵌入對答案品質的影響最大。

生產成功需要快取、可觀察性、防護措施和黃金集。

使用領域劇本和函數呼叫，超越問答，進入實際工作流程。

在實驗期間利用像 Sider.AI 這樣的工具來快速比較提示和結果。

下一步做什麼

選擇兩個符合您迫切需要的教學（例如，快速入門 + 分塊大師班）。

從您自己的文件中組裝一個黃金問答集（從 50 個問題開始）。

一次執行一項變更；在每次變更後測量根據性和延遲。

當您的評估穩定時，使用快取和防護措施移至生產模板。

一旦您的基準可靠，就可以分層使用函數呼叫和領域策略。

常見問題

Q1: 絕對初學者最好的 RAGFlow 教學是什麼？從 RAGFlow 快速入門教學開始，該教學涵蓋導入 PDF、分塊、嵌入、索引、檢索和生成帶引用的內容。它可以讓您快速獲得端到端的感覺，並為您設置更深入的 RAGFlow 教學。

Q2: 除了基本教學之外，我如何提高 RAGFlow 的準確性？專注於分塊策略、嵌入質量和重新排名。高級 RAGFlow 教學還展示瞭如何添加防護措施和評估工具來減少幻覺並量化根據性。

Q3: 哪些嵌入最適合 RAGFlow 的企業文檔？嘗試像 text-embedding-3-large、E5 或 BGE 這樣的強大的通用模型，然後測量您數據的檢索指標。最佳 RAGFlow 教學建議跨模型和向量儲存進行 A/B 測試，以選擇獲勝者。

Q4: RAGFlow 可以處理像 SQL 這樣的結構化數據以及文檔嗎？是的。用於 RAGFlow 的混合檢索教學展示瞭如何通過函數調用將定量查詢路由到 SQL，同時仍然使用語義檢索來處理非結構化文檔，然後在生成時合併結果。

Q5: 在上線之前，我該如何評估 RAGFlow 管道？遵循以評估為重點的 RAGFlow 教學：創建一個帶有來源的黃金問答集，在更改後運行自動化測試，並跟踪根據性、引用覆蓋率、延遲和有用性。僅在指標穩定時才部署。

掌握檢索增強生成 (Retrieval-Augmented Generation) 的 10 個最佳 RAGFlow 教學