10 بهترین آموزش RAGFlow برای تسلط بر تولید افزوده بازیابی (Retrieval-Augmented Generation)
اگر تا به حال سعی کردهاید یک مدل زبانی بزرگ را وادار کنید به سؤالات خاص دامنه پاسخ دهد و با اطمینان شاهد توهمپردازی آن بودهاید، دردی را که RAGFlow حل میکند، احساس کردهاید. تولید افزوده بازیابی (RAG) یک لایه جستجو را با تولید جفت میکند تا مدل شما به حقایق موجود در دادههای خود استناد کند. RAGFlow یک روش باز، بصری و مبتنی بر خط لوله برای ساخت آن سیستم به صورت سرتاسری است—از دریافت سند گرفته تا تکهتکه کردن، جاسازی، جستجوی برداری و پاسخهای مبتنی بر واقعیت.
در این راهنما، بهترین آموزشهای RAGFlow را که میتوانید امروز دنبال کنید، نحوه انتخاب مناسب برای پشته (stack) خود و یک نقشه راه عملی برای رفتن از "hello world" به مرحله تولید را جمعآوری کردهایم. ما آن را کاربردی نگه میداریم، با مثالها، مشکلات و چند نکته قدرتمند که در آموزشهای اولیه پیدا نخواهید کرد.
ما یک رویکرد عملی و راهحلمحور در پیش میگیریم: توضیحات کوتاه، مراحل واضح و قطعهکدهای قابل کپی و پیست. بیایید یک برنامه RAGFlow را به شما تحویل دهیم که در واقع به درستی پاسخ میدهد.
چه چیزی یک "بهترین آموزش RAGFlow" را میسازد؟
همه آموزشها برابر نیستند. بهترین آموزشهای RAGFlow چند ویژگی مشترک دارند:
- جریان سرتاسری: دریافت ← تکهتکه کردن ← جاسازی ← فهرستبندی ← بازیابی ← تولید، همه در یک مسیر.
- اسناد واقعی: PDFها، HTML، اسلایدهای ارائه یا گزارشهای نامرتب—نه فقط اسباببازیهای نشانهگذاری شده.
- ارزیابی داخلی: آنها نحوه اندازهگیری زمینهمندی، تأخیر و کیفیت پاسخ را آموزش میدهند.
- نگرانیهای تولید: ذخیرهسازی در حافظه پنهان، تلاشهای مجدد، قابلیت مشاهده و محافظها.
- قابلیت توسعه: نشان دهید کجا مدلها، استراتژیهای تکهتکه کردن یا ذخیرهسازیهای برداری را تعویض کنید.
این معیارها را هنگام انتخاب مسیر یادگیری خود در نظر داشته باشید.
10 بهترین آموزش RAGFlow در حال حاضر
در زیر لیستی از آموزشها از مبتدی تا پیشرفته ارائه شده است. هر ورودی شامل این است که چرا مفید است، چه چیزی خواهید ساخت و برای چه کسی مناسب است.
1) شروع سریع RAGFlow: اولین خط لوله سرتاسری شما
- چرا عالی است: سریعترین راه برای درک قسمتهای متحرک—عالی برای رفع انسداد.
- شما خواهید ساخت: یک خط لوله حداقلی: یک PDF را بارگذاری کنید، به طور خودکار تکهتکه کنید، جاسازی کنید، فهرستبندی کنید و با استنادها جستجو کنید.
- RAGFlow را راهاندازی کنید و سازنده خط لوله را باز کنید.
- یک گره دریافت فایل اضافه کنید و به یک PDF اشاره کنید.
- یک تکهتکه کننده (به عنوان مثال، بازگشتی + سرفصلها) و یک گره مدل جاسازی اضافه کنید.
- به یک فروشگاه برداری متصل شوید، سپس گرههای بازیابی و تولید LLM را اضافه کنید.
- با چند پرس و جو آزمایش کنید و منابع را بررسی کنید.
- مناسب برای: مبتدیان مطلق؛ تیمهایی که جریان اصلی RAGFlow را تأیید میکنند.
2) RAGFlow + منابع داده متعدد: PDFها، صفحات وب و Notion
- چرا عالی است: بیشتر پروژههای واقعی منابع نامرتب را ترکیب میکنند؛ این آموزش نشان میدهد چگونه.
- شما خواهید ساخت: یک خط لوله که PDFها را دریافت میکند، URLها را خزیده و صفحات Notion را طبق برنامه همگامسازی میکند.
- از گرههای دریافت جداگانه برای هر منبع استفاده کنید.
- فراداده را عادی کنید (عنوان، URL، نویسنده، بخش).
- تکهها را بر اساس منبع برچسبگذاری کنید تا در زمان بازیابی فیلتر بهتری داشته باشید.
- مناسب برای: پایگاههای دانش، ویکیها و پورتالهای داخلی.
3) کلاس استاد تکهتکه کردن: از تقسیمهای سادهلوحانه تا پنجرههای معنایی
- چرا عالی است: تکهتکه کردن جایی است که بیشتر کیفیت RAG به دست میآید یا از دست میرود.
- شما خواهید ساخت: یک ارزیابی جانبی از استراتژیهای تکهتکه کردن با معیارهای زمینهمندی.
- اندازه ثابت، سرفصل بازگشتی و تکهتکه کردن معنایی را مقایسه کنید.
- از پنجرههای همپوشانی برای جداول و بلوکهای کد استفاده کنید.
- دقت/بازخوانی تکههای بازیابی شده را ارزیابی کنید.
- نکته: تکهها را به اندازه کافی کوچک نگه دارید تا مرتبط باشند، اما به اندازه کافی بزرگ باشند تا زمینه را درک کنند (اغلب 300-700 نشانه با 10-20٪ همپوشانی).
4) جاسازی در مقیاس: تعویض مدلها و فروشگاههای برداری
- چرا عالی است: انتخاب مدل به طور پنهانی سقف بازیابی شما را تعیین میکند.
- شما خواهید ساخت: یک نوع خط لوله که جاسازیها را تعویض میکند (به عنوان مثال،
text-embedding-3-large، BGE، E5) و فروشگاههای برداری (FAISS، Milvus، PGVector).
- تستهای بازیابی A/B را با پرس و جوهای سازگار اجرا کنید.
- نرخهای ضربه و میانگین رتبه متقابل را پیگیری کنید.
- شباهت کسینوسی در مقابل ضرب داخلی را طبق راهنمایی مدل انتخاب کنید.
- مناسب برای: تیمهایی که برای رشد یا تنظیم عملکرد هزینه آماده میشوند.
5) محافظها و کاهش توهم در RAGFlow
- چرا عالی است: ایمنی در تولید اختیاری نیست.
- شما خواهید ساخت: یک خط لوله تقویتشده با بازیابی با محدودیتهای پاسخ، سیاستهای رد و بررسی استناد.
- یک گره اعتبارسنجی پاسخ اضافه کنید تا اطمینان حاصل شود که هر پاسخ حداقل به N منبع استناد میکند.
- از یک الگوی دستورالعمل استفاده کنید که حدس زدن را ممنوع میکند و در صورت عدم وجود شواهد، "من نمیدانم" را الزامی میکند.
- یک بررسی واقعی پس از تولید در برابر تکههای بازیابی شده اضافه کنید.
6) RAGFlow برای دادههای ساختیافته: بازیابی ترکیبی SQL + متن
- چرا عالی است: بسیاری از سؤالات اسناد و پایگاههای داده را با هم ترکیب میکنند.
- شما خواهید ساخت: یک خط لوله بازیابی دوگانه: بازیابی معنایی برای اسناد و فراخوانی ابزار برای SQL.
- سؤالات کمی را از طریق فراخوانی تابع به SQL هدایت کنید.
- جدول نتایج SQL را به عنوان یک مصنوع زمینه به LLM وارد کنید.
- برای توضیحات روایی با قطعههای سند ادغام کنید.
7) ارزیابی کیفیت RAG با مجموعههای طلایی و بررسی انسانی
- چرا عالی است: بدون ارزیابی، شما کورکورانه پرواز میکنید.
- شما خواهید ساخت: یک مهار ارزیابی که زمینهمندی، پوشش استناد و مفید بودن را اندازهگیری میکند.
- 50-200 جفت پرسش و پاسخ طلایی را با منابع آماده کنید.
- اجراهای خودکار را پس از هر تغییر خط لوله تنظیم کنید.
- از امتیازدهی توافق بین پاسخهای مدل و مراجع طلایی استفاده کنید.
8) RAGFlow در تولید: ذخیرهسازی در حافظه پنهان، تایم اوتها و قابلیت مشاهده
- چرا عالی است: تولید تأخیر، محدودیت نرخ و محدودیتهای هزینه را معرفی میکند.
- شما خواهید ساخت: یک خط لوله قوی با ذخیرهسازی درخواست، تلاشهای مجدد و داشبوردهای ردیابی.
- حافظههای پنهان برداری و تولید را با کلیدهای پرس و جوهای عادی شده اضافه کنید.
- برای مشکلات ارائهدهنده، پسانداز را پیادهسازی کنید.
- محدوده/متریک برای تأخیر بازیابی و میزان استفاده از نشانه را منتشر کنید.
9) کتابهای بازی خاص دامنه: حقوقی، مراقبتهای بهداشتی و پشتیبانی
- چرا عالی است: محدودیتهای دامنه همه چیز را تغییر میدهد.
- شما خواهید ساخت: الگوهایی که از انطباق، واژگان و الگوهای استدلال در هر دامنه پیروی میکنند.
- حقوقی: بخشها، استنادها را با شناسههای پاراگراف اولویتبندی کنید.
- مراقبتهای بهداشتی: PHI را شناسایی کنید، مشاوره را به دستورالعملها محدود کنید.
- پشتیبانی: تاریخچه بلیط را ادغام کنید؛ اسناد اخیر را بیشتر وزن دهید.
10) RAGFlow + فراخوانی تابع: اقدامات، نه فقط پاسخها
- چرا عالی است: قدرتمندترین سیستمهای RAG میتوانند بخوانند، استدلال کنند و عمل کنند.
- شما خواهید ساخت: یک خط لوله که در آن LLM اسناد را بازیابی میکند، سپس ابزارها را فراخوانی میکند—ارسال ایمیل، باز کردن بلیط یا زمانبندی مشاغل.
- طرحوارههای JSON را برای ابزارها تعریف کنید.
- یک روتر تصمیمگیری اضافه کنید تا پرس و جوهای "پاسخ" در مقابل "عمل" را جدا کنید.
- هر فراخوانی ابزار را با محافظها و تأییدیهها ثبت کنید.
یک نقشه راه عملی: از آموزش تا تولید در 30 روز
از آموزشهای بالا در این برنامه 4 مرحلهای استفاده کنید. این را به عنوان "اردوگاه RAGFlow" خود در نظر بگیرید.
هفته 1: مبانی و اولین پیروزیها
- آموزش 1 (شروع سریع) و آموزش 3 (کلاس استاد تکهتکه کردن) را تکمیل کنید.
- یک اثبات مفهوم ارائه دهید که به 20-30 سؤال آزمایشی از اسناد شما پاسخ میدهد.
- الگوهای پاسخ اساسی را برای اعمال استنادها و ردها اضافه کنید.
هفته 2: عمق داده و قابلیت اطمینان
- دریافت چند منبعی (آموزش 2) را اضافه کنید و بازخوانی فهرستبندی را برنامهریزی کنید.
- جاسازیها و فروشگاه برداری را تعویض کنید (آموزش 4)؛ برنده هزینه/کیفیت را انتخاب کنید.
- ذخیرهسازی و تایم اوتها را معرفی کنید (آموزش 8) تا تأخیر ثابت بماند.
هفته 3: ارزیابیها، محافظها و تناسب دامنه
- یک مجموعه طلایی و ارزیابیهای خودکار ایجاد کنید (آموزش 7).
- بررسیهای واقعی پس از تولید و سیاست رد را اضافه کنید (آموزش 5).
- یک کتاب بازی دامنه را با اعلانهای سفارشی اعمال کنید (آموزش 9).
هفته 4: بازیابی ترکیبی و قابلیت اقدام
- فراخوانی SQL/ابزار را (آموزش 6) برای پرس و جوهای مختلط متصل کنید.
- فراخوانی تابع و تأییدیهها را اضافه کنید (آموزش 10) تا برنامه RAGFlow شما بتواند اقداماتی انجام دهد.
- داشبوردهای قابلیت مشاهده ابزار را ایجاد کنید؛ SLOها را برای دقت و تأخیر تنظیم کنید.
مفاهیم RAGFlow که باید بدانید
حتی بهترین آموزشهای RAGFlow نیز چند ایده اصلی را فرض میکنند. در اینجا یک تجدید سریع وجود دارد.
- تولید افزوده بازیابی (RAG): زمینه LLM را با تکههای بازیابی شده از پایگاه دانش خود افزایش دهید تا پاسخها بر اساس شواهد استوار باشند.
- تکهتکه کردن: تقسیم اسناد به واحدهای قابل بازیابی. همپوشانیها زمینه را حفظ میکنند؛ سرفصلها مرزهایی ایجاد میکنند؛ روشهای معنایی از جاسازیها برای یافتن نقاط شکست طبیعی استفاده میکنند.
- جاسازیها: نمایش برداری از تکهها و پرس و جوها. جاسازیهای بهتر ارتباط بازیابی را بهبود میبخشند و توهمات را کاهش میدهند.
- فروشگاه برداری: پایگاه داده برای بردارها با جستجوی شباهت. انتخابها بر سرعت، بازخوانی و مقیاس تأثیر میگذارند.
- رتبهبندی مجدد: مرحله دوم اختیاری برای مرتبسازی مجدد تکههای بازیابی شده بر اساس ارتباط.
- مهندسی اعلان: دستورالعملهای واضح برای نیاز به استنادها، ممنوعیت حدس زدن و قالببندی خروجی.
- ارزیابیها: اندازهگیری سیستماتیک با استفاده از مجموعههای طلایی، بررسی انسانی و متریکهای خودکار.
استارت کپی-پیست: الگوی اعلان RAG پایه
از این الگو در گره تولید خود برای کاهش توهمات و اعمال استنادها استفاده کنید.
شما یک دستیار دقیق هستید که فقط با اطلاعات موجود در زمینه بازیابی شده پاسخ میدهد.
قوانین:
- پس از هر ادعا، با [source_name:page_or_section] به شواهد استناد کنید.
- اگر پاسخ در زمینه نیست، بگویید "من بر اساس منابع ارائه شده نمیدانم."
- نقل قولهای مستقیم را برای تعاریف ترجیح دهید؛ برای رویهها خلاصه کنید.
زمینه:
{{retrieved_context}}
پرسش:
{{user_query}}
پاسخ:
مثال: تعویض جاسازیها و اندازهگیری تأثیر
# شبهکد نشاندهنده منطق آزمایشی که در آموزشهای پیشرفته خواهید دید
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)
برگه تقلب تفسیر:
- اگر زمینهمندی پس از تعویض مدل افزایش یافت، آن را نگه دارید—حتی اگر هزینههای نشانه کمی بیشتر باشد.
- اگر تأخیر افزایش یافت، ذخیرهسازی را اضافه کنید یا حداکثر تکههای بازیابی شده را از 8 → 5 کاهش دهید.
- اگر پوشش استناد کاهش یافت، اندازه تکه را تغییر دهید یا رتبهبندی مجدد را اضافه کنید.
مشکلات رایجی که این آموزشها به شما کمک میکنند از آنها اجتناب کنید
- تکهتکه کردن بیش از حد: تکههای خیلی کوچک منجر به از دست دادن زمینه و پاسخهای پر سر و صدا میشوند.
- تکهتکه کردن کمتر از حد: تکههای بزرگ پنجرههای زمینه را با متن نامربوط آلوده میکنند.
- جاسازیهای مناسب برای همه: زبان دامنه (حقوقی، بالینی) ممکن است به مدلهای تنظیم شده دامنه نیاز داشته باشد.
- بدون ارزیابی: تغییر هر چیزی بدون یک پایه، پسرفتهای شبحوار ایجاد میکند.
- نادیده گرفتن تازگی: فهرستهای قدیمی منجر به پاسخهای صحیح اما منسوخ میشوند.
- نادیده گرفتن محافظها: بدون قوانین رد، مدل شما حدس میزند.
انتخاب آموزش مناسب برای مورد استفاده شما
- بات پشتیبانی استارتآپ: آموزشهای 1، 2، 5، 8، 9.
- دستیار تحقیق داخلی: آموزشهای 1، 3، 4، 7.
- خلبان مشترک تجزیه و تحلیل دادهها: آموزشهای 6، 10.
- صنایع تنظیم شده: آموزش 5 و 9 ابتدا، سپس 7.
به هر حال: نمونه اولیه سریعتر با Sider.AI
هنگامی که روی اعلانهای RAG تکرار میکنید، پرس و جوها را آزمایش میکنید و پاسخها را مقایسه میکنید، جابجایی زمینه پرهزینه است. شایان ذکر است: Sider.AI (https://sider.ai/) به شما امکان میدهد با چندین مدل در کنار هم چت کنید، اعلانها را پین کنید و یک فضای کاری دانش در حال اجرا داشته باشید. برای موارد زیر مفید است: - مقایسه پاسخها از تنظیمات و اعلانهای بازیابی مختلف.
- اجرای تستهای سریع "چه میشود اگر" قبل از اینکه تغییرات را در RAGFlow اعمال کنید.
- سازماندهی قطعهها، استنادها و پرسش و پاسخ طلایی برای مهار ارزیابی خود.
از آن به عنوان دفترچه یادداشت خود در حالی که آموزشهای RAGFlow را دنبال میکنید استفاده کنید؛ سپس برنده را در خط لوله خود تدوین کنید.
راهنمای عیبیابی: رفع سریع هنگام خراب شدن چیزها
- علائم: پاسخها کلی هستند و فاقد استناد هستند.
- رفع: الزام استناد را در اعلان اعمال کنید و یک گره اعتبارسنجی اضافه کنید.
- علائم: تکههای نامربوط بازیابی شدهاند.
- رفع: همپوشانی تکه را افزایش دهید، به یک مدل جاسازی بهتر تغییر دهید یا رتبهبندی مجدد را اضافه کنید.
- رفع: نتایج برداری را ذخیره کنید، تکههای بازیابی شده را محدود کنید و از نشانههای پخش جریانی استفاده کنید.
- علائم: پاسخهای متناقض در بین پرس و جوها.
- رفع: فراداده را عادی کنید، تکههای تقریباً یکسان را حذف کنید، اسناد جدیدتر را وزن دهید.
- علائم: مدل خیلی اوقات با "من نمیدانم" رد میکند.
- رفع: آستانه رد را کاهش دهید، عمق بازیابی را گسترش دهید یا مرزهای تکه را اصلاح کنید.
نکات کلیدی
- بهترین آموزشهای RAGFlow سیستمهای سرتاسری را با دادههای واقعی و ارزیابیها آموزش میدهند.
- تکهتکه کردن و جاسازی بیشترین تأثیر را بر کیفیت پاسخ دارند.
- موفقیت تولید مستلزم ذخیرهسازی، قابلیت مشاهده، محافظها و یک مجموعه طلایی است.
- از کتابهای بازی دامنه و فراخوانی تابع برای فراتر رفتن از پرسش و پاسخ به گردش کار واقعی استفاده کنید.
- از ابزارهایی مانند Sider.AI در طول آزمایش استفاده کنید تا اعلانها و نتایج را به سرعت مقایسه کنید.
اقدام بعدی چیست
- دو آموزشی را انتخاب کنید که با نیاز فوری شما مطابقت دارند (به عنوان مثال، شروع سریع + کلاس استاد تکهتکه کردن).
- یک مجموعه پرسش و پاسخ طلایی از اسناد خود جمعآوری کنید (با 50 سؤال شروع کنید).
- یک تغییر را در یک زمان اجرا کنید؛ زمینهمندی و تأخیر را پس از هر کدام اندازهگیری کنید.
- هنگامی که ارزیابیهای شما تثبیت شد، به الگوهای تولید با ذخیرهسازی و محافظها بروید.
- هنگامی که پایه شما قابل اعتماد شد، فراخوانی تابع و سیاستهای دامنه را لایه بندی کنید.
سوالات متداول
س1: بهترین آموزش RAGFlow برای مبتدیان مطلق چیست؟
با یک آموزش شروع سریع RAGFlow شروع کنید که دریافت یک PDF، تکهتکه کردن، جاسازی، فهرستبندی، بازیابی و تولید با استنادها را پوشش میدهد. این به شما یک احساس سرتاسری سریع میدهد و شما را برای آموزشهای عمیقتر RAGFlow آماده میکند.
س2: چگونه میتوانم دقت را در RAGFlow فراتر از آموزشهای اولیه بهبود بخشم؟
بر استراتژی تکهتکه کردن، کیفیت جاسازی و رتبهبندی مجدد تمرکز کنید. آموزشهای پیشرفته RAGFlow همچنین نشان میدهند که چگونه محافظها و مهارهای ارزیابی را برای کاهش توهمات و کمی کردن زمینهمندی اضافه کنید.
س3: کدام جاسازیها بهترین عملکرد را با RAGFlow برای اسناد سازمانی دارند؟
مدلهای عمومی قوی مانند text-embedding-3-large، E5 یا BGE را امتحان کنید، سپس متریکهای بازیابی را روی دادههای خود اندازهگیری کنید. بهترین آموزشهای RAGFlow تستهای A/B را در بین مدلها و فروشگاههای برداری برای انتخاب برنده توصیه میکنند.
س4: آیا RAGFlow میتواند دادههای ساختیافته مانند SQL را به همراه اسناد مدیریت کند؟
بله. آموزشهای بازیابی ترکیبی برای RAGFlow نشان میدهند که چگونه پرس و جوهای کمی را از طریق فراخوانی تابع به SQL هدایت کنید در حالی که هنوز از بازیابی معنایی برای اسناد بدون ساختار استفاده میکنید، سپس نتایج را در زمان تولید ادغام کنید.
س5: چگونه یک خط لوله RAGFlow را قبل از رفتن به مرحله انتشار ارزیابی کنم؟
آموزشهای RAGFlow متمرکز بر ارزیابی را دنبال کنید: یک مجموعه پرسش و پاسخ طلایی با منابع ایجاد کنید، تستهای خودکار را پس از تغییرات اجرا کنید و زمینهمندی، پوشش استناد، تأخیر و مفید بودن را پیگیری کنید. فقط زمانی که متریکها تثبیت شدند، مستقر کنید.