What is the best RAGFlow tutorial for absolute beginners?

Start with a RAGFlow quickstart tutorial that covers ingesting a PDF, chunking, embedding, indexing, retrieving, and generating with citations. It gives you an end-to-end feel fast and sets you up for deeper RAGFlow tutorials.

How do I improve accuracy in RAGFlow beyond basic tutorials?

Focus on chunking strategy, embeddings quality, and reranking. Advanced RAGFlow tutorials also show how to add guardrails and evaluation harnesses to reduce hallucinations and quantify groundedness.

Which embeddings work best with RAGFlow for enterprise docs?

Try strong general models like text-embedding-3-large, E5, or BGE, then measure retrieval metrics on your data. The best RAGFlow tutorials recommend A/B tests across models and vector stores to pick the winner.

Can RAGFlow handle structured data like SQL along with documents?

Yes. Hybrid retrieval tutorials for RAGFlow show how to route quantitative queries to SQL via function calling while still using semantic retrieval for unstructured docs, then merge results at generation time.

How do I evaluate a RAGFlow pipeline before going live?

Follow evaluation-focused RAGFlow tutorials: create a golden Q&A set with sources, run automated tests after changes, and track groundedness, citation coverage, latency, and helpfulness. Only deploy when metrics stabilize.

रीट्रिवल-ऑगमेंटेड जनरेशन में महारत हासिल करने के लिए 10 सर्वश्रेष्ठ RAGFlow ट्यूटोरियल

यदि आपने कभी किसी बड़े भाषा मॉडल से डोमेन-विशिष्ट प्रश्नों के उत्तर प्राप्त करने की कोशिश की है और इसे आत्मविश्वास के साथ कल्पना करते हुए देखा है, तो आपने उस दर्द को महसूस किया है जिसे RAGFlow हल करता है। रीट्रिवल-ऑगमेंटेड जनरेशन (RAG) आपके अपने डेटा से तथ्यों का हवाला देते हुए आपकी मॉडल के लिए एक खोज परत को जनरेशन के साथ जोड़ता है। RAGFlow एक खुला, दृश्य और पाइपलाइन-चालित तरीका है जिससे दस्तावेज़ अंतर्ग्रहण से लेकर चंकिंग, एम्बेडिंग, वेक्टर खोज और ग्राउंडेड प्रतिक्रियाओं तक, उस सिस्टम का अंत से अंत तक निर्माण किया जा सकता है।

इस गाइड में, हम आज अनुसरण करने योग्य सर्वश्रेष्ठ RAGFlow ट्यूटोरियल, आपके स्टैक के लिए सही ट्यूटोरियल चुनने का तरीका और "हेलो वर्ल्ड" से उत्पादन तक जाने के लिए एक व्यावहारिक रोडमैप पेश करते हैं। हम इसे व्यावहारिक रखेंगे, उदाहरणों, कमियों और कुछ पावर टिप्स के साथ जो आपको बुनियादी वॉकथ्रू में नहीं मिलेंगे।

हम एक व्यावहारिक और समाधान-उन्मुख दृष्टिकोण अपना रहे हैं: संक्षिप्त स्पष्टीकरण, स्पष्ट चरण और कॉपी-पेस्ट करने योग्य स्निपेट। आइए आपको एक ऐसा RAGFlow ऐप भेजने दें जो वास्तव में सही उत्तर दे।

एक "सर्वश्रेष्ठ RAGFlow ट्यूटोरियल" क्या बनाता है?

सभी ट्यूटोरियल समान नहीं होते हैं। सर्वश्रेष्ठ RAGFlow ट्यूटोरियल में कुछ लक्षण होते हैं:

एंड-टू-एंड फ्लो: अंतर्ग्रहण → चंक → एम्बेड → इंडेक्स → रीट्रिव → जेनरेट, सभी एक ही पथ में।

यथार्थवादी दस्तावेज़: PDF, HTML, स्लाइड डेक या अव्यवस्थित लॉग—केवल खिलौना मार्कडाउन नहीं।

मूल्यांकन अंतर्निहित: वे ग्राउंडेडनेस, विलंबता और उत्तर गुणवत्ता को मापने का तरीका सिखाते हैं।

उत्पादन संबंधी चिंताएँ: कैशिंग, पुन: प्रयास, अवलोकन क्षमता और गार्डरेल।

विस्तार योग्य: दिखाएँ कि मॉडल, चंकिंग रणनीतियों या वेक्टर स्टोर को कहाँ बदलना है।

अपनी सीखने की राह चुनते समय इन मानदंडों को ध्यान में रखें।

अभी 10 सर्वश्रेष्ठ RAGFlow ट्यूटोरियल

नीचे शुरुआती से उन्नत तक की एक क्यूरेटेड सूची दी गई है। प्रत्येक प्रविष्टि में यह शामिल है कि यह क्यों उपयोगी है, आप क्या बनाएंगे और यह किसके लिए है।

1) RAGFlow क्विकस्टार्ट: आपकी पहली एंड-टू-एंड पाइपलाइन

यह क्यों बढ़िया है: गतिमान भागों को समझने का सबसे तेज़ तरीका—अवरुद्ध होने से बचने के लिए एकदम सही।

आप बनाएंगे: एक न्यूनतम पाइपलाइन: एक PDF अपलोड करें, ऑटो-चंक करें, एम्बेड करें, इंडेक्स करें और उद्धरणों के साथ क्वेरी करें।

मुख्य चरण:

RAGFlow शुरू करें और पाइपलाइन बिल्डर खोलें।

एक फ़ाइल अंतर्ग्रहण नोड जोड़ें और एक PDF की ओर इंगित करें।

एक चंकर (उदाहरण के लिए, रिकर्सिव + हेडिंग) और एक एम्बेडिंग मॉडल नोड डालें।

एक वेक्टर स्टोर से कनेक्ट करें, फिर रीट्रिवल और LLM जनरेशन नोड जोड़ें।

कुछ क्वेरी के साथ परीक्षण करें और स्रोतों का निरीक्षण करें।

इसके लिए अच्छा है: बिल्कुल शुरुआती; RAGFlow के बुनियादी प्रवाह को मान्य करने वाली टीमें।

2) RAGFlow + एकाधिक डेटा स्रोत: PDF, वेब पेज और नोशन

यह क्यों बढ़िया है: अधिकांश वास्तविक परियोजनाएँ अव्यवस्थित स्रोतों को जोड़ती हैं; यह ट्यूटोरियल दिखाता है कि कैसे।

आप बनाएंगे: एक पाइपलाइन जो PDF का अंतर्ग्रहण करती है, URL क्रॉल करती है और समय-समय पर नोशन पृष्ठों को सिंक्रनाइज़ करती है।

मुख्य चरण:

प्रति स्रोत अलग-अलग अंतर्ग्रहण नोड का उपयोग करें।

मेटाडेटा को सामान्य करें (शीर्षक, URL, लेखक, अनुभाग)।

पुनर्प्राप्ति के समय बेहतर फ़िल्टरिंग के लिए स्रोत द्वारा चंक्स को टैग करें।

इसके लिए अच्छा है: ज्ञान आधार, विकी और आंतरिक पोर्टल।

3) चंकिंग मास्टरक्लास: नाईव स्प्लिट से लेकर सिमेंटिक विंडोज तक

यह क्यों बढ़िया है: चंकिंग वह जगह है जहाँ अधिकांश RAG गुणवत्ता जीती या हारी जाती है।

आप बनाएंगे: ग्राउंडिंग मेट्रिक्स के साथ चंकिंग रणनीतियों का साइड-बाय-साइड मूल्यांकन।

मुख्य चरण:

निश्चित आकार, रिकर्सिव-हेडिंग और सिमेंटिक-चंकिंग की तुलना करें।

टेबल और कोड ब्लॉक के लिए ओवरलैप विंडो का उपयोग करें।

पुनर्प्राप्त चंक्स की परिशुद्धता/रिकॉल का मूल्यांकन करें।

टिप: चंक्स को प्रासंगिकता के लिए काफी छोटा रखें, लेकिन संदर्भ के लिए काफी बड़ा रखें (अक्सर 10-20% ओवरलैप के साथ 300-700 टोकन)।

4) पैमाने पर एम्बेडिंग: मॉडल और वेक्टर स्टोर बदलना

यह क्यों बढ़िया है: मॉडल विकल्प चुपचाप आपकी पुनर्प्राप्ति सीमा तय करता है।

आप बनाएंगे: एक पाइपलाइन संस्करण जो एम्बेडिंग (जैसे, text-embedding-3-large, BGE, E5) और वेक्टर स्टोर (FAISS, Milvus, PGVector) को बदलता है।

मुख्य चरण:

संगत क्वेरी के साथ A/B पुनर्प्राप्ति परीक्षण चलाएँ।

हिट दरों और माध्य व्युत्क्रम रैंक को ट्रैक करें।

मॉडल मार्गदर्शन के अनुसार कोसाइन बनाम डॉट-प्रोडक्ट समानता चुनें।

इसके लिए अच्छा है: विकास या लागत-प्रदर्शन ट्यूनिंग की तैयारी करने वाली टीमें।

5) RAGFlow में गार्डरेल और मतिभ्रम शमन

यह क्यों बढ़िया है: उत्पादन में सुरक्षा वैकल्पिक नहीं है।

आप बनाएंगे: उत्तर बाधाओं, इनकार नीतियों और उद्धरण जाँचों के साथ एक पुनर्प्राप्ति-संवर्धित पाइपलाइन।

मुख्य चरण:

यह सुनिश्चित करने के लिए एक उत्तर वैलिडेटर नोड जोड़ें कि प्रत्येक उत्तर कम से कम N स्रोतों का हवाला देता है।

एक निर्देश टेम्पलेट का उपयोग करें जो अनुमान लगाने से मना करता है और साक्ष्य गायब होने पर "मुझे प्रदान किए गए स्रोतों के आधार पर पता नहीं है" की आवश्यकता होती है।

पुनर्प्राप्त चंक्स के विरुद्ध पोस्ट-जनरेशन तथ्य-जाँच जोड़ें।

6) संरचित डेटा के लिए RAGFlow: SQL + टेक्स्ट हाइब्रिड पुनर्प्राप्ति

यह क्यों बढ़िया है: कई प्रश्न दस्तावेज़ों और डेटाबेस को मिलाते हैं।

आप बनाएंगे: एक दोहरी-पुनर्प्राप्ति पाइपलाइन: दस्तावेज़ों के लिए सिमेंटिक पुनर्प्राप्ति और SQL के लिए टूल-कॉलिंग।

मुख्य चरण:

फ़ंक्शन कॉलिंग के माध्यम से SQL को मात्रात्मक प्रश्न रूट करें।

SQL परिणाम तालिका को LLM के लिए एक संदर्भ कलाकृति के रूप में शामिल करें।

नैरेटिव स्पष्टीकरण के लिए दस्तावेज़ स्निपेट के साथ मर्ज करें।

7) गोल्डन सेट और मानव समीक्षा के साथ RAG गुणवत्ता का मूल्यांकन

यह क्यों बढ़िया है: इवल्स के बिना, आप आँख बंद करके उड़ान भर रहे हैं।

आप बनाएंगे: एक मूल्यांकन हार्नेस जो ग्राउंडेडनेस, उद्धरण कवरेज और सहायकता को मापता है।

मुख्य चरण:

स्रोतों के साथ 50-200 स्वर्ण Q&A जोड़े तैयार करें।

प्रत्येक पाइपलाइन परिवर्तन के बाद स्वचालित रन सेट करें।

मॉडल उत्तरों और स्वर्ण संदर्भों के बीच समझौते स्कोरिंग का उपयोग करें।

8) उत्पादन में RAGFlow: कैशिंग, टाइमआउट और अवलोकन क्षमता

यह क्यों बढ़िया है: उत्पादन विलंबता, दर सीमा और लागत बाधाएँ पेश करता है।

आप बनाएंगे: अनुरोध कैशिंग, पुन: प्रयास और ट्रेस डैशबोर्ड के साथ एक मजबूत पाइपलाइन।

मुख्य चरण:

सामान्यीकृत क्वेरी द्वारा कुंजीबद्ध वेक्टर और जनरेशन कैश जोड़ें।

प्रदाता हिचकी के लिए बैकऑफ़ लागू करें।

पुनर्प्राप्ति विलंबता और टोकन उपयोग के लिए स्पैन/मेट्रिक्स उत्सर्जित करें।

9) डोमेन-विशिष्ट प्लेबुक: कानूनी, स्वास्थ्य सेवा और समर्थन

यह क्यों बढ़िया है: डोमेन बाधाएँ सब कुछ बदल देती हैं।

आप बनाएंगे: टेम्पलेट जो डोमेन के अनुसार अनुपालन, शब्दावली और तर्क पैटर्न का सम्मान करते हैं।

मुख्य चरण:

कानूनी: पैराग्राफ ID के साथ अनुभागों, उद्धरणों को प्राथमिकता दें।

स्वास्थ्य सेवा: PHI को डी-आइडेंटिफाई करें, सलाह को दिशानिर्देशों तक सीमित करें।

समर्थन: टिकट इतिहास को एकीकृत करें; हाल के दस्तावेज़ों को अधिक महत्व दें।

10) RAGFlow + फ़ंक्शन कॉलिंग: क्रियाएँ, केवल उत्तर नहीं

यह क्यों बढ़िया है: सबसे शक्तिशाली RAG सिस्टम पढ़ सकते हैं, तर्क कर सकते हैं और कार्य कर सकते हैं।

आप बनाएंगे: एक पाइपलाइन जहाँ LLM दस्तावेज़ों को पुनर्प्राप्त करता है, फिर टूल को कॉल करता है—ईमेल भेजना, टिकट खोलना या नौकरियों को शेड्यूल करना।

मुख्य चरण:

टूल के लिए JSON स्कीमा परिभाषित करें।

"उत्तर" बनाम "कार्य" प्रश्नों को अलग करने के लिए एक निर्णय राउटर जोड़ें।

गार्डरेल और अनुमोदन के साथ प्रत्येक टूल कॉल को लॉग करें।

एक व्यावहारिक रोडमैप: 30 दिनों में ट्यूटोरियल से उत्पादन तक

इस 4-चरणीय योजना में उपरोक्त ट्यूटोरियल का उपयोग करें। इसे अपना "RAGFlow बूटकैंप" मानें।

सप्ताह 1: नींव और पहली जीत

ट्यूटोरियल 1 (क्विकस्टार्ट) और ट्यूटोरियल 3 (चंकिंग मास्टरक्लास) पूरा करें।

अपने दस्तावेज़ों से 20-30 परीक्षण प्रश्नों का उत्तर देते हुए एक प्रूफ ऑफ कॉन्सेप्ट भेजें।

उद्धरणों और इनकार को लागू करने के लिए बुनियादी उत्तर टेम्पलेट जोड़ें।

सप्ताह 2: डेटा गहराई और विश्वसनीयता

बहु-स्रोत अंतर्ग्रहण (ट्यूटोरियल 2) जोड़ें और पुनः अनुक्रमण को शेड्यूल करें।

एम्बेडिंग और वेक्टर स्टोर (ट्यूटोरियल 4) बदलें; लागत/गुणवत्ता विजेता चुनें।

विलंबता को सुसंगत रखने के लिए कैशिंग और टाइमआउट (ट्यूटोरियल 8) का परिचय दें।

सप्ताह 3: इवल्स, गार्डरेल और डोमेन फिट

एक स्वर्ण सेट और स्वचालित इवल्स (ट्यूटोरियल 7) बनाएँ।

पोस्ट-जनरेशन तथ्य-जाँच और इनकार नीति (ट्यूटोरियल 5) जोड़ें।

कस्टम प्रॉम्प्ट के साथ एक डोमेन प्लेबुक (ट्यूटोरियल 9) लागू करें।

सप्ताह 4: हाइब्रिड पुनर्प्राप्ति और कार्यक्षमता

मिश्रित क्वेरी के लिए SQL/टूल कॉलिंग (ट्यूटोरियल 6) को वायर अप करें।

फ़ंक्शन कॉलिंग और अनुमोदन (ट्यूटोरियल 10) जोड़ें ताकि आपका RAGFlow ऐप कार्य कर सके।

अवलोकन क्षमता डैशबोर्ड को इंस्ट्रूमेंट करें; सटीकता और विलंबता के लिए SLO सेट करें।

RAGFlow अवधारणाएँ जिन्हें आपको जानना आवश्यक है

यहां तक कि सर्वश्रेष्ठ RAGFlow ट्यूटोरियल भी कुछ मुख्य विचारों को मानते हैं। यहां एक त्वरित पुनश्चर्या दी गई है।

रीट्रिवल ऑगमेंटेड जनरेशन (RAG): LLM के संदर्भ को अपने ज्ञान आधार से पुनर्प्राप्त चंक्स के साथ बढ़ाएँ ताकि उत्तर साक्ष्य पर आधारित हों।

चंकिंग: दस्तावेज़ों को पुनर्प्राप्ति योग्य इकाइयों में विभाजित करना। ओवरलैप संदर्भ को संरक्षित करते हैं; हेडिंग सीमाएँ बनाते हैं; सिमेंटिक विधियाँ प्राकृतिक ब्रेकपॉइंट खोजने के लिए एम्बेडिंग का उपयोग करती हैं।

एम्बेडिंग: चंक्स और क्वेरी का वेक्टर प्रतिनिधित्व। बेहतर एम्बेडिंग पुनर्प्राप्ति प्रासंगिकता में सुधार करते हैं और मतिभ्रम को कम करते हैं।

वेक्टर स्टोर: समानता खोज के साथ वैक्टर के लिए डेटाबेस। विकल्प गति, रिकॉल और स्केल को प्रभावित करते हैं।

रेरांकिंग: प्रासंगिकता के अनुसार पुनर्प्राप्त चंक्स को पुन: व्यवस्थित करने के लिए वैकल्पिक दूसरे चरण का स्कोरर।

प्रॉम्प्ट इंजीनियरिंग: उद्धरणों की आवश्यकता के लिए स्पष्ट निर्देश, अनुमान लगाने से मना करें और आउटपुट को फॉर्मेट करें।

इवल्स: स्वर्ण सेट, मानव समीक्षा और स्वचालित मेट्रिक्स का उपयोग करके व्यवस्थित माप।

कॉपी-पेस्ट स्टार्टर: बेसलाइन RAG प्रॉम्प्ट टेम्पलेट

मतिभ्रम को कम करने और उद्धरणों को लागू करने के लिए अपने जनरेशन नोड में इस टेम्पलेट का उपयोग करें।

आप एक सावधान सहायक हैं जो केवल पुनर्प्राप्त संदर्भ में पाई गई जानकारी के साथ उत्तर देते हैं।
नियम:
- प्रत्येक दावे के बाद [source_name:page_or_section] के साथ साक्ष्य का हवाला दें।
- यदि उत्तर संदर्भ में नहीं है, तो कहें "मुझे प्रदान किए गए स्रोतों के आधार पर पता नहीं है।"
- परिभाषाओं के लिए सीधे उद्धरणों को प्राथमिकता दें; प्रक्रियाओं के लिए संक्षेप में बताएं।
संदर्भ:
{{retrieved_context}}
प्रश्न:
{{user_query}}
उत्तर:

उदाहरण: एम्बेडिंग बदलना और प्रभाव मापना

# स्यूडोकोड उस प्रयोग तर्क को दर्शाता है जिसे आप उन्नत ट्यूटोरियल में देखेंगे
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)

व्याख्या चीट शीट:

यदि मॉडल स्वैप के बाद ग्राउंडेडनेस बढ़ता है, तो इसे रखें—भले ही टोकन की लागत थोड़ी अधिक हो।

यदि विलंबता बढ़ती है, तो कैशिंग जोड़ें या अधिकतम पुनर्प्राप्त चंक्स को 8 → 5 से कम करें।

यदि उद्धरण कवरेज घटता है, तो चंक आकार को ट्विक करें या रेरांकिंग जोड़ें।

सामान्य कमियाँ जिनसे ये ट्यूटोरियल आपको बचने में मदद करते हैं

ओवर-चंकिंग: बहुत छोटे चंक्स से संदर्भ गायब हो जाता है और शोर वाले उत्तर आते हैं।

अंडर-चंकिंग: विशाल चंक्स अप्रासंगिक पाठ के साथ संदर्भ विंडो को प्रदूषित करते हैं।

एक-आकार-सभी के लिए एम्बेडिंग: डोमेन-भाषा (कानूनी, नैदानिक) के लिए डोमेन-ट्यून किए गए मॉडल की आवश्यकता हो सकती है।

कोई इवल्स नहीं: बेसलाइन के बिना कुछ भी बदलने से फैंटम रिग्रेशन बनता है।

ताजगी को अनदेखा करना: पुरानी अनुक्रमणिकाएँ सही लेकिन अप्रचलित उत्तरों की ओर ले जाती हैं।

गार्डरेल को छोड़ना: इनकार नियमों के बिना, आपका मॉडल अनुमान लगाता है।

अपने उपयोग के मामले के लिए सही ट्यूटोरियल का चयन करना

स्टार्टअप समर्थन बॉट: ट्यूटोरियल 1, 2, 5, 8, 9।

आंतरिक शोध सहायक: ट्यूटोरियल 1, 3, 4, 7।

डेटा एनालिटिक्स कोपायलट: ट्यूटोरियल 6, 10।

विनियमित उद्योग: पहले ट्यूटोरियल 5 और 9, फिर 7।

वैसे: Sider.AI के साथ तेज़ी से प्रोटोटाइप बनाएँ

जब आप RAG प्रॉम्प्ट पर पुनरावृति कर रहे हों, क्वेरी का परीक्षण कर रहे हों और प्रतिक्रियाओं की तुलना कर रहे हों, तो संदर्भ बदलना महंगा होता है। ध्यान देने योग्य बात: Sider.AI (https://sider.ai/) आपको एक साथ कई मॉडलों के साथ चैट करने, प्रॉम्प्ट पिन करने और एक रनिंग नॉलेज कार्यक्षेत्र रखने की सुविधा देता है। यह इसके लिए आसान है:

विभिन्न पुनर्प्राप्ति सेटिंग्स और प्रॉम्प्ट से उत्तरों की तुलना करना।

RAGFlow में परिवर्तन करने से पहले त्वरित व्हाट-इफ परीक्षण चलाना।

अपने इवल हार्नेस के लिए स्निपेट, उद्धरण और स्वर्ण Q&A को व्यवस्थित करना।

RAGFlow ट्यूटोरियल का पालन करते समय इसे अपने स्क्रैचपैड के रूप में उपयोग करें; फिर अपने पाइपलाइन में विजेता को संहिताबद्ध करें।

समस्या निवारण गाइड: जब चीजें टूट जाएं तो त्वरित सुधार

लक्षण: उत्तर सामान्य हैं और उनमें उद्धरणों की कमी है।

ठीक करें: प्रॉम्प्ट में उद्धरण आवश्यकता को लागू करें और एक वैलिडेटर नोड जोड़ें।

लक्षण: अप्रासंगिक चंक्स पुनर्प्राप्त किए गए।

ठीक करें: चंक ओवरलैप बढ़ाएँ, एक बेहतर एम्बेडिंग मॉडल पर स्विच करें या रेरांकिंग जोड़ें।

लक्षण: विलंबता > 3 सेकंड।

ठीक करें: वेक्टर परिणामों को कैश करें, पुनर्प्राप्त चंक्स को कैप करें और स्ट्रीमिंग टोकन का उपयोग करें।

लक्षण: क्वेरी में विरोधाभासी उत्तर।

ठीक करें: मेटाडेटा को सामान्य करें, निकट-समान चंक्स को डी-डुप्लिकेट करें, नए दस्तावेज़ों को महत्व दें।

लक्षण: मॉडल अक्सर "मुझे पता नहीं है" के साथ बहुत बार इनकार करता है।

ठीक करें: इनकार सीमा को ढीला करें, पुनर्प्राप्ति गहराई का विस्तार करें या चंक सीमाओं को परिष्कृत करें।

मुख्य निष्कर्ष

सर्वश्रेष्ठ RAGFlow ट्यूटोरियल यथार्थवादी डेटा और इवल्स के साथ एंड-टू-एंड सिस्टम सिखाते हैं।

उत्तर गुणवत्ता पर चंकिंग और एम्बेडिंग का सबसे बड़ा प्रभाव पड़ता है।

उत्पादन सफलता के लिए कैशिंग, अवलोकन क्षमता, गार्डरेल और एक स्वर्ण सेट की आवश्यकता होती है।

वास्तविक वर्कफ़्लो में Q&A से परे जाने के लिए डोमेन प्लेबुक और फ़ंक्शन कॉलिंग का उपयोग करें।

प्रॉम्प्ट और परिणामों की तेज़ी से तुलना करने के लिए प्रयोग के दौरान Sider.AI जैसे टूल का लाभ उठाएँ।

आगे क्या करें

अपनी तत्काल आवश्यकता से मेल खाने वाले दो ट्यूटोरियल चुनें (उदाहरण के लिए, क्विकस्टार्ट + चंकिंग मास्टरक्लास)।

अपने स्वयं के दस्तावेज़ों से एक स्वर्ण Q&A सेट इकट्ठा करें (50 प्रश्नों से शुरुआत करें)।

एक समय में एक परिवर्तन चलाएँ; प्रत्येक के बाद ग्राउंडेडनेस और विलंबता को मापें।

कैशिंग और गार्डरेल के साथ उत्पादन टेम्पलेट पर तब जाएँ जब आपके इवल्स स्थिर हो जाएँ।

एक बार जब आपकी बेसलाइन विश्वसनीय हो जाए, तो फ़ंक्शन कॉलिंग और डोमेन नीतियाँ जोड़ें।

अक्सर पूछे जाने वाले प्रश्न

Q1: पूर्ण शुरुआती लोगों के लिए सबसे अच्छा RAGFlow ट्यूटोरियल कौन सा है? RAGFlow क्विकस्टार्ट ट्यूटोरियल से शुरुआत करें जिसमें PDF को अंतर्ग्रहण करना, चंकिंग, एम्बेडिंग, इंडेक्सिंग, पुनर्प्राप्त करना और उद्धरणों के साथ जेनरेट करना शामिल है। यह आपको तेज़ी से एंड-टू-एंड अनुभव देता है और आपको गहरे RAGFlow ट्यूटोरियल के लिए तैयार करता है।

Q2: बुनियादी ट्यूटोरियल से परे RAGFlow में सटीकता कैसे सुधारें? चंकिंग रणनीति, एम्बेडिंग गुणवत्ता और रेरांकिंग पर ध्यान दें। उन्नत RAGFlow ट्यूटोरियल यह भी दिखाते हैं कि मतिभ्रम को कम करने और ग्राउंडेडनेस को मापने के लिए गार्डरेल और मूल्यांकन हार्नेस कैसे जोड़े जाते हैं।

Q3: एंटरप्राइज़ दस्तावेज़ों के लिए RAGFlow के साथ कौन सी एम्बेडिंग सबसे अच्छी तरह से काम करती हैं? text-embedding-3-large, E5 या BGE जैसे मजबूत सामान्य मॉडल आज़माएँ, फिर अपने डेटा पर पुनर्प्राप्ति मेट्रिक्स मापें। सर्वश्रेष्ठ RAGFlow ट्यूटोरियल विजेता चुनने के लिए मॉडल और वेक्टर स्टोर में A/B परीक्षण की अनुशंसा करते हैं।

Q4: क्या RAGFlow SQL जैसे संरचित डेटा को दस्तावेज़ों के साथ संभाल सकता है? हाँ। RAGFlow के लिए हाइब्रिड पुनर्प्राप्ति ट्यूटोरियल दिखाते हैं कि असंरचित दस्तावेज़ों के लिए सिमेंटिक पुनर्प्राप्ति का उपयोग करते हुए फ़ंक्शन कॉलिंग के माध्यम से SQL को मात्रात्मक क्वेरी कैसे रूट की जाती है, फिर जनरेशन के समय परिणामों को मर्ज किया जाता है।

Q5: लाइव होने से पहले मैं RAGFlow पाइपलाइन का मूल्यांकन कैसे करूँ? मूल्यांकन-केंद्रित RAGFlow ट्यूटोरियल का पालन करें: स्रोतों के साथ एक स्वर्ण Q&A सेट बनाएँ, परिवर्तनों के बाद स्वचालित परीक्षण चलाएँ और ग्राउंडेडनेस, उद्धरण कवरेज, विलंबता और सहायकता को ट्रैक करें। मेट्रिक्स स्थिर होने पर ही तैनात करें।