Retrieval-Augmented Generation-ஐ (RAG) மாஸ்டர் செய்ய 10 சிறந்த RAGFlow பயிற்சி வகுப்புகள்
ஒரு பெரிய மொழி மாதிரி, குறிப்பிட்ட டொமைன் சார்ந்த கேள்விகளுக்குப் பதிலளிக்க முயற்சி செய்து, அது நம்பிக்கையுடன் பிதற்றும் காட்சியைப் பார்த்திருந்தால், RAGFlow தீர்க்கும் வலியின் தீவிரத்தை உணர்ந்திருப்பீர்கள். Retrieval-Augmented Generation (RAG), உங்கள் சொந்தத் தரவுகளிலிருந்து மாதிரி உண்மைகளை மேற்கோள் காட்டுவதற்கு ஒரு தேடல் லேயரை ஜெனரேஷனுடன் இணைக்கிறது. ஆவணம் உள்ளெடுப்பு முதல் துண்டாக்குதல், உட்பொதித்தல், திசையன் தேடல் மற்றும் தரையிறக்கப்பட்ட பதில்கள் வரை ஒரு அமைப்பை உருவாக்க RAGFlow ஒரு திறந்த, காட்சி மற்றும் பைப்லைன் சார்ந்த வழியாகும்.
இன்றைய தினம் நீங்கள் பின்பற்றக்கூடிய சிறந்த RAGFlow பயிற்சி வகுப்புகள், உங்கள் ஸ்டேக்கிற்கு ஏற்ற ஒன்றைத் தேர்ந்தெடுப்பது எப்படி, "ஹலோ வேர்ல்டு" என்பதிலிருந்து தயாரிப்புக்குச் செல்வதற்கான நடைமுறை வழிகாட்டி ஆகியவற்றை இந்த வழிகாட்டியில் பார்க்கலாம். எடுத்துக்காட்டுகள், குறைபாடுகள் மற்றும் அடிப்படை நடைமுறைகளில் நீங்கள் காணாத சில சக்திவாய்ந்த உதவிக்குறிப்புகளுடன், அதை நடைமுறைக்கு ஏற்றதாக வைத்திருப்போம்.
நாங்கள் ஒரு நடைமுறை மற்றும் தீர்வு சார்ந்த அணுகுமுறையை எடுக்கிறோம்: சுருக்கமான விளக்கங்கள், தெளிவான வழிமுறைகள் மற்றும் நகலெடுத்து ஒட்டக்கூடிய துணுக்குகள். சரியான பதில்களை அளிக்கும் RAGFlow செயலியை உங்களுக்கு வழங்கலாம்.
"சிறந்த RAGFlow பயிற்சி வகுப்பு" என்றால் என்ன?
எல்லா பயிற்சி வகுப்புகளும் சமமானவை அல்ல. சிறந்த RAGFlow பயிற்சி வகுப்புகளில் சில பொதுவான பண்புகள் உள்ளன:
- ஆரம்பம் முதல் இறுதி வரையிலான ஓட்டம்: உள்ளெடு → துண்டாக்கு → உட்பொதி → அட்டவணை → மீட்டெடு → உருவாக்கு, இவை அனைத்தும் ஒரே பாதையில்.
- உண்மையான ஆவணங்கள்: PDFகள், HTML, ஸ்லைடு டெக்குகள் அல்லது ஒழுங்கற்ற பதிவுகள்—சாதாரணமான மார்க்டவுன் மட்டுமல்ல.
- உள்ளமைக்கப்பட்ட மதிப்பீடு: அவை தரையிறக்கம், தாமதம் மற்றும் பதில் தரம் ஆகியவற்றை அளவிடுவது எப்படி என்று கற்பிக்கின்றன.
- தயாரிப்பு கவலைகள்: கேச்சிங், மறுமுயற்சிகள், கண்காணிப்பு மற்றும் பாதுகாப்புக் கவசங்கள்.
- விரிவாக்கக்கூடியது: மாதிரிகள், துண்டாக்கும் உத்திகள் அல்லது திசையன் ஸ்டோர்களை எங்கு மாற்றுவது என்பதைக் காட்டவும்.
உங்கள் கற்றல் பாதையைத் தேர்ந்தெடுக்கும்போது இந்தக் அளவுகோல்களை மனதில் கொள்ளுங்கள்.
இப்போதைக்கு சிறந்த 10 RAGFlow பயிற்சி வகுப்புகள்
தொடக்கநிலையிலிருந்து மேம்பட்ட நிலை வரை உள்ள ஒரு தொகுக்கப்பட்ட பட்டியல் கீழே உள்ளது. ஒவ்வொரு உள்ளீட்டிலும் அது ஏன் பயனுள்ளதாக இருக்கிறது, நீங்கள் என்ன உருவாக்குவீர்கள், அது யாருக்கானது ஆகியவை அடங்கும்.
1) RAGFlow விரைவுத் தொடக்கம்: உங்கள் முதல் எண்ட்-டு-எண்ட் பைப்லைன்
- இது ஏன் சிறந்தது: நகரும் பகுதிகளைப் புரிந்துகொள்வதற்கான விரைவான வழி—தடை நீக்குவதற்கு ஏற்றது.
- நீங்கள் உருவாக்குவது: ஒரு சிறிய பைப்லைன்: ஒரு PDFஐ பதிவேற்றவும், தானாக துண்டாக்க, உட்பொதிக்க, அட்டவணைப்படுத்த மற்றும் மேற்கோள்களுடன் வினவவும்.
- RAGFlow-ஐ இயக்கி, பைப்லைன் பில்டரைத் திறக்கவும்.
- ஒரு கோப்பு உள்ளெடுக்கும் நோடைச் சேர்த்து, ஒரு PDFஐ சுட்டிக்காட்டவும்.
- ஒரு துண்டாக்கியைச் (எ.கா., ரி கர்ஸிவ் + தலைப்புகள்) மற்றும் உட்பொதிக்கும் மாதிரி நோடைச் செருகவும்.
- ஒரு திசையன் ஸ்டோருடன் இணைத்து, மீட்டெடுக்கும் மற்றும் LLM உருவாக்கும் நோட்களைச் சேர்க்கவும்.
- ஒரு சில கேள்விகளுடன் சோதித்து, ஆதாரங்களை ஆய்வு செய்யவும்.
- யாருக்கு ஏற்றது: முழுமையான ஆரம்பநிலையாளர்கள்; RAGFlowவின் அடிப்படை ஓட்டத்தை உறுதிப்படுத்தும் குழுக்கள்.
2) RAGFlow + பல தரவு ஆதாரங்கள்: PDFகள், வலைப் பக்கங்கள் மற்றும் நோஷன்
- இது ஏன் சிறந்தது: பெரும்பாலான உண்மையான திட்டங்கள் ஒழுங்கற்ற ஆதாரங்களை இணைக்கின்றன; இந்த பயிற்சி அதை எப்படி செய்வது என்று காட்டுகிறது.
- நீங்கள் உருவாக்குவது: PDFகளை உள்ளெடுக்கும், URLகளை கிரால் செய்யும், மற்றும் நோஷன் பக்கங்களை அட்டவணையில் ஒத்திசைக்கும் ஒரு பைப்லைன்.
- ஒவ்வொரு ஆதாரத்திற்கும் தனி உள்ளெடுக்கும் நோட்களைப் பயன்படுத்தவும்.
- மெட்டாடேட்டாவை இயல்பாக்கு (தலைப்பு, URL, ஆசிரியர், பிரிவு).
- மீட்டெடுக்கும் நேரத்தில் சிறந்த வடிகட்டுதலுக்காக மூலத்தின் மூலம் துண்டுகளை குறிக்கவும்.
- யாருக்கு ஏற்றது: அறிவுத் தளங்கள், விக்கிகள் மற்றும் உள் போர்டல்கள்.
3) துண்டாக்குதல் மாஸ்டர் வகுப்பு: அப்பாவிப் பிரிவுகளிலிருந்து செமாண்டிக் விண்டோக்கள் வரை
- இது ஏன் சிறந்தது: பெரும்பாலான RAG தரம் துண்டாக்குதலில் தான் பெறப்படுகிறது அல்லது இழக்கப்படுகிறது.
- நீங்கள் உருவாக்குவது: தரையிறக்கும் அளவீடுகளுடன் துண்டாக்கும் உத்திகளின் பக்கவாட்டு மதிப்பீடு.
- நிலையான அளவு, ரி கர்ஸிவ்-தலைப்பு மற்றும் செமாண்டிக் துண்டாக்குதலை ஒப்பிடவும்.
- டேபிள்கள் மற்றும் கோட் தொகுதிகளுக்கு ஓவர்லேப் விண்டோக்களைப் பயன்படுத்தவும்.
- மீட்டெடுக்கப்பட்ட துண்டுகளின் துல்லியம்/நினைவகத்தை மதிப்பிடவும்.
- உதவிக்குறிப்பு: பொருத்தத்திற்கு போதுமான சிறியதாக துண்டுகளை வைத்திருங்கள், ஆனால் சூழலுக்கு போதுமான பெரியதாக இருக்க வேண்டும் (பெரும்பாலும் 300-700 டோக்கன்கள் 10-20% ஓவர்லேப் உடன்).
4) அளவிலான உட்பொதிப்புகள்: மாதிரிகள் மற்றும் திசையன் ஸ்டோர்களை மாற்றுதல்
- இது ஏன் சிறந்தது: மாதிரி தேர்வு உங்கள் மீட்டெடுக்கும் உச்சவரம்பை அமைதியாக தீர்மானிக்கிறது.
- நீங்கள் உருவாக்குவது: உட்பொதிப்புகளை மாற்றும் ஒரு பைப்லைன் மாறுபாடு (எ.கா.,
text-embedding-3-large, BGE, E5) மற்றும் திசையன் ஸ்டோர்கள் (FAISS, Milvus, PGVector).
- நிலையான கேள்விகளுடன் A/B மீட்டெடுக்கும் சோதனைகளை இயக்கவும்.
- ஹிட் ரேட்கள் மற்றும் சராசரி ரெசிப்ரோக்கல் ரேங்கை கண்காணிக்கவும்.
- மாதிரி வழிகாட்டுதலின்படி கோசைன் எதிர் டாட்-ப்ராடக்ட் ஒற்றுமையைத் தேர்ந்தெடுக்கவும்.
- யாருக்கு ஏற்றது: வளர்ச்சி அல்லது விலை-செயல்திறன் சரிசெய்தலுக்கு தயாராகும் குழுக்கள்.
5) RAGFlowவில் பாதுகாப்புக் கவசங்கள் மற்றும் மாயத்தோற்றத் தணிப்பு
- இது ஏன் சிறந்தது: உற்பத்தியில் பாதுகாப்பு விருப்பத்திற்குரியது அல்ல.
- நீங்கள் உருவாக்குவது: பதில் கட்டுப்பாடுகள், மறுப்புக் கொள்கைகள் மற்றும் மேற்கோள் சோதனைகளுடன் மீட்டெடுக்கும்-அதிகரிக்கப்பட்ட பைப்லைன்.
- ஒவ்வொரு பதிலும் குறைந்தபட்சம் N ஆதாரங்களை மேற்கோள் காட்டுகிறதா என்பதை உறுதிப்படுத்த ஒரு பதில் சரிபார்ப்பு நோடைச் சேர்க்கவும்.
- யூகம் செய்வதைத் தடுக்கும் மற்றும் ஆதாரம் காணாமல் போனால் "எனக்குத் தெரியாது" என்று தேவைப்படும் ஒரு அறிவுறுத்தல் டெம்ப்ளேட்டைப் பயன்படுத்தவும்.
- மீட்டெடுக்கப்பட்ட துண்டுகளுக்கு எதிராக ஒரு பிந்தைய ஜெனரேஷன் உண்மைச் சரிபார்ப்பைச் சேர்க்கவும்.
6) கட்டமைக்கப்பட்ட தரவுகளுக்கான RAGFlow: SQL + உரை கலப்பின மீட்டெடுப்பு
- இது ஏன் சிறந்தது: பல கேள்விகள் ஆவணங்கள் மற்றும் தரவுத்தளங்களை கலக்கின்றன.
- நீங்கள் உருவாக்குவது: ஒரு இரட்டை மீட்டெடுக்கும் பைப்லைன்: ஆவணங்களுக்கான செமாண்டிக் மீட்டெடுப்பு மற்றும் SQLக்கான கருவி அழைப்பு.
- செயல்பாடு அழைப்பின் மூலம் அளவு கேள்விகளை SQLக்கு ரூட் செய்யவும்.
- SQL முடிவு அட்டவணையை LLMக்கு ஒரு சூழல் கலைப்பொருளாக சேர்க்கவும்.
- விளக்க விளக்கங்களுக்காக ஆவண துணுக்குகளுடன் இணைக்கவும்.
7) தங்கத் தொகுப்புகள் மற்றும் மனித மதிப்பாய்வு மூலம் RAG தரத்தை மதிப்பிடுதல்
- இது ஏன் சிறந்தது: மதிப்பீடுகள் இல்லாமல், நீங்கள் குருட்டுத்தனமாக பறக்கிறீர்கள்.
- நீங்கள் உருவாக்குவது: தரைத்தன்மை, மேற்கோள் கவரேஜ் மற்றும் உதவி ஆகியவற்றை அளவிடும் மதிப்பீட்டு சாதனம்.
- ஆதாரங்களுடன் 50-200 தங்க Q&A ஜோடிகளைத் தயார் செய்யவும்.
- ஒவ்வொரு பைப்லைன் மாற்றத்திற்கும் பிறகு தானியங்கி ரன்களை அமைக்கவும்.
- மாதிரி பதில்கள் மற்றும் தங்கக் குறிப்புகளுக்கு இடையே உடன்பாடு மதிப்பெண் பயன்படுத்தவும்.
8) உற்பத்தியில் RAGFlow: கேச்சிங், காலக்கெடு மற்றும் கண்காணிப்பு
- இது ஏன் சிறந்தது: உற்பத்தி தாமதம், விகித வரம்புகள் மற்றும் விலை கட்டுப்பாடுகளை அறிமுகப்படுத்துகிறது.
- நீங்கள் உருவாக்குவது: கோரிக்கை கேச்சிங், மறுமுயற்சிகள் மற்றும் ட்ரேஸ் டேஷ்போர்டுகளுடன் கூடிய வலுவான பைப்லைன்.
- இயல்பாக்கப்பட்ட கேள்விகளால் முக்கியத்துவம் பெற்ற திசையன் மற்றும் ஜெனரேஷன் கேஷ்களைச் சேர்க்கவும்.
- வழங்குநர் தடுமாற்றங்களுக்கு பேக்ஆஃப் செயல்படுத்தவும்.
- மீட்டெடுக்கும் தாமதம் மற்றும் டோக்கன் பயன்பாட்டிற்கான ஸ்பான்கள்/அளவீடுகளை வெளியிடவும்.
9) டொமைன்-குறிப்பிட்ட பிளேபுக்குகள்: சட்ட, சுகாதார மற்றும் ஆதரவு
- இது ஏன் சிறந்தது: டொமைன் கட்டுப்பாடுகள் எல்லாவற்றையும் மாற்றுகின்றன.
- நீங்கள் உருவாக்குவது: டொமைன் ஒன்றுக்கு இணக்கம், சொற்களஞ்சியம் மற்றும் பகுத்தறிவு முறைகளை மதிக்கின்ற டெம்ப்ளேட்கள்.
- சட்ட: பிரிவுகளுக்கு முன்னுரிமை, பத்தி ஐடிகளுடன் மேற்கோள்கள்.
- சுகாதாரம்: PHI ஐ அடையாளம் நீக்கு, அறிவுரைகளை வழிகாட்டுதல்களுக்கு கட்டுப்படுத்து.
- ஆதரவு: டிக்கெட் வரலாற்றை ஒருங்கிணைக்கவும்; சமீபத்திய ஆவணங்களுக்கு அதிக முக்கியத்துவம் கொடுக்கவும்.
10) RAGFlow + செயல்பாடு அழைப்பு: செயல்கள், வெறும் பதில்கள் அல்ல
- இது ஏன் சிறந்தது: மிகவும் சக்திவாய்ந்த RAG அமைப்புகள் படிக்கலாம், பகுத்தறியலாம் மற்றும் செயல்படலாம்.
- நீங்கள் உருவாக்குவது: LLM ஆவணங்களை மீட்டெடுக்கும் ஒரு பைப்லைன், பின்னர் கருவிகளை அழைக்கிறது—மின்னஞ்சல்களை அனுப்புதல், டிக்கெட்டுகளைத் திறத்தல் அல்லது வேலைகளை திட்டமிடுதல்.
- கருவிகளுக்கான JSON திட்டங்களை வரையறுக்கவும்.
- "பதில்" எதிர் "செயல்" கேள்விகளைப் பிரிக்க ஒரு முடிவு ரூட்டரைச் சேர்க்கவும்.
- பாதுகாப்புக் கவசங்கள் மற்றும் ஒப்புதல்களுடன் ஒவ்வொரு கருவி அழைப்பையும் பதிவு செய்யவும்.
நடைமுறை சாலை வரைபடம்: 30 நாட்களில் பயிற்சி வகுப்பிலிருந்து உற்பத்தி வரை
மேலே உள்ள பயிற்சி வகுப்புகளை இந்த 4-நிலை திட்டத்தில் பயன்படுத்தவும். இதை உங்கள் "RAGFlow பயிற்சி" ஆக கருதுங்கள்.
வாரம் 1: அடித்தளங்கள் மற்றும் முதல் வெற்றிகள்
- பயிற்சி 1 (விரைவுத் தொடக்கம்) மற்றும் பயிற்சி 3 (துண்டாக்குதல் மாஸ்டர் வகுப்பு) ஆகியவற்றை முடிக்கவும்.
- உங்கள் ஆவணங்களிலிருந்து 20-30 சோதனை கேள்விகளுக்குப் பதிலளிக்கும் கருத்தாக்கத்தின் ஆதாரத்தை அனுப்பவும்.
- மேற்கோள்கள் மற்றும் மறுப்புகளை செயல்படுத்த அடிப்படை பதில் டெம்ப்ளேட்களைச் சேர்க்கவும்.
வாரம் 2: தரவு ஆழம் மற்றும் நம்பகத்தன்மை
- பல-ஆதார உள்ளெடுப்பைச் (பயிற்சி 2) சேர்த்து, மறு அட்டவணையிடுதலைத் திட்டமிடுங்கள்.
- உட்பொதிப்புகள் மற்றும் திசையன் ஸ்டோரை மாற்றவும் (பயிற்சி 4); விலை/தரம் வெற்றியாளரைத் தேர்ந்தெடுக்கவும்.
- தாமதத்தை சீராக வைத்திருக்க கேச்சிங் மற்றும் காலக்கெடுவை (பயிற்சி 8) அறிமுகப்படுத்தவும்.
வாரம் 3: மதிப்பீடுகள், பாதுகாப்புக் கவசங்கள் மற்றும் டொமைன் பொருத்தம்
- தங்கத் தொகுப்பு மற்றும் தானியங்கி மதிப்பீடுகளை உருவாக்கவும் (பயிற்சி 7).
- பிந்தைய ஜெனரேஷன் உண்மைச் சரிபார்ப்புகள் மற்றும் மறுப்புக் கொள்கையைச் சேர்க்கவும் (பயிற்சி 5).
- தனிப்பயன் தூண்டுதல்களுடன் டொமைன் பிளேபுக்கைப் பயன்படுத்தவும் (பயிற்சி 9).
வாரம் 4: கலப்பின மீட்டெடுப்பு மற்றும் செயலாக்கக்கூடிய தன்மை
- கலப்பு கேள்விகளுக்காக SQL/கருவி அழைப்பை (பயிற்சி 6) வயர் செய்யவும்.
- செயல்பாடு அழைப்பு மற்றும் ஒப்புதல்களைச் சேர்க்கவும் (பயிற்சி 10) இதனால் உங்கள் RAGFlow செயலி செயல்களை எடுக்க முடியும்.
- கண்காணிப்பு டாஷ்போர்டுகளை உபகரணமாக்கு; துல்லியம் மற்றும் தாமதத்திற்கான SLOகளை அமைக்கவும்.
நீங்கள் தெரிந்து கொள்ள வேண்டிய RAGFlow கருத்துகள்
சிறந்த RAGFlow பயிற்சி வகுப்புகள் கூட சில முக்கிய யோசனைகளை கருத்தில் கொள்கின்றன. இங்கே ஒரு விரைவான புதுப்பிப்பு உள்ளது.
- Retrieval Augmented Generation (RAG): LLMன் சூழலை உங்கள் அறிவுத் தளத்திலிருந்து மீட்டெடுக்கப்பட்ட துண்டுகளுடன் அதிகரிக்கவும், இதனால் பதில்கள் ஆதாரத்தில் உறுதியாக இருக்கும்.
- துண்டாக்குதல்: ஆவணங்களை மீட்டெடுக்கக்கூடிய அலகுகளாகப் பிரித்தல். ஓவர்லேப்புகள் சூழலைப் பாதுகாக்கின்றன; தலைப்புகள் எல்லைகளை உருவாக்குகின்றன; செமாண்டிக் முறைகள் இயற்கையான பிரேக் பாயிண்ட்டுகளைக் கண்டுபிடிக்க உட்பொதிப்புகளைப் பயன்படுத்துகின்றன.
- உட்பொதிப்புகள்: துண்டுகள் மற்றும் கேள்விகளின் திசையன் பிரதிநிதித்துவங்கள். சிறந்த உட்பொதிப்புகள் மீட்டெடுக்கும் பொருத்தத்தை மேம்படுத்துகின்றன மற்றும் மாயத்தோற்றங்களைக் குறைக்கின்றன.
- திசையன் ஸ்டோர்: ஒற்றுமை தேடலுடன் திசையன்களுக்கான தரவுத்தளம். தேர்வுகள் வேகம், நினைவு மற்றும் அளவை பாதிக்கின்றன.
- மறு தரவரிசைப்படுத்தல்: பொருத்தத்தின் மூலம் மீட்டெடுக்கப்பட்ட துண்டுகளை மறுவரிசைப்படுத்த விருப்பமான இரண்டாவது நிலை ஸ்கோரர்.
- ப்ராம்ப்ட் இன்ஜினியரிங்: மேற்கோள்களைக் கோரவும், யூகங்களைத் தடுக்கவும் மற்றும் வெளியீட்டை வடிவமைக்கவும் தெளிவான அறிவுறுத்தல்கள்.
- மதிப்பீடுகள்: தங்கத் தொகுப்புகள், மனித மதிப்பாய்வு மற்றும் தானியங்கி அளவீடுகளைப் பயன்படுத்தி முறையான அளவீடு.
நகலெடுத்து ஒட்டும் ஸ்டார்டர்: அடிப்படை RAG ப்ராம்ப்ட் டெம்ப்ளேட்
மாயத்தோற்றங்களைக் குறைக்கவும் மற்றும் மேற்கோள்களை செயல்படுத்தவும் உங்கள் ஜெனரேஷன் நோடில் இந்த டெம்ப்ளேட்டைப் பயன்படுத்தவும்.
நீங்கள் ஒரு கவனமான உதவியாளர், மீட்டெடுக்கப்பட்ட சூழலில் காணப்படும் தகவல்களை மட்டுமே வைத்து பதிலளிப்பவர்.
விதிகள்:
- ஒவ்வொரு கூற்றுக்குப் பிறகும் [source_name:page_or_section] உடன் ஆதாரத்தைக் குறிப்பிடவும்.
- பதில் சூழலில் இல்லாவிட்டால், "வழங்கப்பட்ட ஆதாரங்களின் அடிப்படையில் எனக்குத் தெரியாது." என்று சொல்லவும்.
- வரையறைகளுக்கு நேரடி மேற்கோள்களை விரும்பவும்; நடைமுறைகளுக்கு சுருக்கவும்.
சூழல்:
{{retrieved_context}}
கேள்வி:
{{user_query}}
பதில்:
உதாரணம்: உட்பொதிப்புகளை மாற்றுதல் மற்றும் தாக்கத்தை அளவிடுதல்
# மேம்பட்ட பயிற்சி வகுப்புகளில் நீங்கள் காணும் சோதனை தர்க்கத்தை விளக்கும் போலிக்குறிமுறை
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)
விளக்கச் சீட்:
- மாதிரி மாற்றத்திற்குப் பிறகு தரைத்தன்மை அதிகரித்தால், அதை வைத்துக்கொள்ளுங்கள்—டோக்கன்களுக்கு சற்று அதிக விலை இருந்தாலும் கூட.
- தாமதம் அதிகரித்தால், கேச்சிங்கைச் சேர்க்கவும் அல்லது அதிகபட்சமாக மீட்டெடுக்கப்பட்ட துண்டுகளை 8 → 5 ஆகக் குறைக்கவும்.
- மேற்கோள் கவரேஜ் குறைந்தால், துண்டு அளவை மாற்றவும் அல்லது மறு தரவரிசைப்படுத்தலைச் சேர்க்கவும்.
இந்த பயிற்சி வகுப்புகள் நீங்கள் தவிர்க்க உதவும் பொதுவான குறைபாடுகள்
- அதிகப்படியான துண்டாக்குதல்: மிகச் சிறிய துண்டுகள் காணாமல் போன சூழலுக்கும் சத்தமில்லாத பதில்களுக்கும் வழிவகுக்கும்.
- குறைவான துண்டாக்குதல்: பெரிய துண்டுகள் பொருத்தமற்ற உரையுடன் சூழல் விண்டோக்களை மாசுபடுத்தும்.
- அனைவருக்கும் பொருந்தும் உட்பொதிப்புகள்: டொமைன் மொழிக்கு (சட்ட, மருத்துவ) டொமைன்-சரிசெய்யப்பட்ட மாதிரிகள் தேவைப்படலாம்.
- மதிப்பீடுகள் இல்லை: அடிப்படை இல்லாமல் எதையும் மாற்றுவது பேண்டம் பின்வாங்கல்களை உருவாக்கும்.
- புத்துணர்ச்சியைப் புறக்கணித்தல்: காலாவதியான அட்டவணைகள் சரியான ஆனால் பழமையான பதில்களுக்கு வழிவகுக்கும்.
- பாதுகாப்புக் கவசங்களைத் தவிர்த்தல்: மறுப்பு விதிகள் இல்லாமல், உங்கள் மாதிரி யூகிக்கும்.
உங்கள் பயன்பாட்டிற்கான சரியான பயிற்சி வகுப்பைத் தேர்ந்தெடுப்பது
- தொடக்க ஆதரவு போட்: பயிற்சி வகுப்புகள் 1, 2, 5, 8, 9.
- உள் ஆராய்ச்சி உதவியாளர்: பயிற்சி வகுப்புகள் 1, 3, 4, 7.
- தரவு பகுப்பாய்வு கோபைலட்: பயிற்சி வகுப்புகள் 6, 10.
- ஒழுங்குபடுத்தப்பட்ட தொழில்கள்: பயிற்சி வகுப்பு 5 மற்றும் 9 முதலில், பின்னர் 7.
மூலம்: Sider.AI மூலம் வேகமான முன்மாதிரி
நீங்கள் RAG தூண்டுதல்களை மீண்டும் மீண்டும் செய்து, கேள்விகளை சோதித்து, பதில்களை ஒப்பிடும்போது, சூழலை மாற்றுவது விலை உயர்ந்தது. குறிப்பிடத் தகுந்தது: Sider.AI (https://sider.ai/) பல மாதிரிகளுடன் பக்கவாட்டில் அரட்டை அடிக்கவும், தூண்டுதல்களைப் பின் செய்யவும் மற்றும் இயங்கும் அறிவு பணியிடத்தை வைத்திருக்கவும் உங்களை அனுமதிக்கிறது. இது இதற்குப் பயனுள்ளதாக இருக்கிறது: - வெவ்வேறு மீட்டெடுக்கும் அமைப்புகள் மற்றும் தூண்டுதல்களிலிருந்து பதில்களை ஒப்பிடுதல்.
- RAGFlowவில் மாற்றங்களைச் செய்வதற்கு முன்பு விரைவான என்ன-என்றால் சோதனைகளை இயக்குதல்.
- உங்கள் மதிப்பீட்டு சாதனத்திற்கான துணுக்குகள், மேற்கோள்கள் மற்றும் தங்க Q&A ஐ ஒழுங்கமைத்தல்.
RAGFlow பயிற்சி வகுப்புகளைப் பின்பற்றும் போது இதை உங்கள் ஸ்கிராட்ச்பேடாகப் பயன்படுத்தவும்; பின்னர் உங்கள் பைப்லைனில் வெற்றியாளரை குறியிடவும்.
சரிசெய்தல் வழிகாட்டி: விஷயங்கள் உடையும் போது விரைவான திருத்தங்கள்
- அறிகுறி: பதில்கள் பொதுவானவை மற்றும் மேற்கோள்கள் இல்லை.
- சரி: தூண்டுதலில் மேற்கோள் தேவையைச் செயல்படுத்தி, ஒரு சரிபார்ப்பு நோடைச் சேர்க்கவும்.
- அறிகுறி: பொருத்தமற்ற துண்டுகள் மீட்டெடுக்கப்பட்டன.
- சரி: துண்டு ஓவர்லேப்பை அதிகரிக்கவும், சிறந்த உட்பொதிக்கும் மாதிரியை மாற்றவும் அல்லது மறு தரவரிசைப்படுத்தலைச் சேர்க்கவும்.
- அறிகுறி: தாமதம் > 3 வினாடிகள்.
- சரி: திசையன் முடிவுகளைக் கேச் செய்யவும், மீட்டெடுக்கப்பட்ட துண்டுகளை வரையறுக்கவும் மற்றும் ஸ்ட்ரீமிங் டோக்கன்களைப் பயன்படுத்தவும்.
- அறிகுறி: கேள்விகள் முழுவதும் முரண்பாடான பதில்கள்.
- சரி: மெட்டாடேட்டாவை இயல்பாக்கு, கிட்டத்தட்ட ஒரே மாதிரியான துண்டுகளை நீக்கவும், புதிய ஆவணங்களுக்கு முக்கியத்துவம் கொடுக்கவும்.
- அறிகுறி: மாதிரி அடிக்கடி "எனக்குத் தெரியாது." என்று சொல்லி மறுக்கிறது.
- சரி: மறுப்பு வரம்பை தளர்த்தவும், மீட்டெடுக்கும் ஆழத்தை விரிவாக்கவும் அல்லது துண்டு எல்லைகளைச் செம்மைப்படுத்தவும்.
முக்கிய குறிப்புகள்
- சிறந்த RAGFlow பயிற்சி வகுப்புகள் யதார்த்தமான தரவு மற்றும் மதிப்பீடுகளுடன் எண்ட்-டு-எண்ட் அமைப்புகளைக் கற்பிக்கின்றன.
- பதில் தரத்தில் துண்டாக்குதல் மற்றும் உட்பொதிப்புகள் மிகப்பெரிய தாக்கத்தை ஏற்படுத்துகின்றன.
- உற்பத்தி வெற்றிக்கு கேச்சிங், கண்காணிப்பு, பாதுகாப்புக் கவசங்கள் மற்றும் தங்கத் தொகுப்பு தேவை.
- உண்மையான பணிப்பாய்வுகளுக்குள் Q&A இலிருந்து செல்ல டொமைன் பிளேபுக்குகள் மற்றும் செயல்பாடு அழைப்பைப் பயன்படுத்தவும்.
- விரைவாக தூண்டுதல்கள் மற்றும் முடிவுகளை ஒப்பிட சோதனை செய்யும் போது Sider.AI போன்ற கருவிகளைப் பயன்படுத்தவும்.
அடுத்து என்ன செய்ய வேண்டும்
- உங்கள் உடனடி தேவைக்கு ஏற்ற இரண்டு பயிற்சி வகுப்புகளைத் தேர்ந்தெடுக்கவும் (எ.கா., விரைவுத் தொடக்கம் + துண்டாக்குதல் மாஸ்டர் வகுப்பு).
- உங்கள் சொந்த ஆவணங்களிலிருந்து ஒரு தங்க Q&A தொகுப்பைச் சேகரிக்கவும் (50 கேள்விகளுடன் தொடங்கவும்).
- ஒவ்வொரு மாற்றத்திற்கும் பிறகு ஒரு நேரத்தில் ஒரு மாற்றத்தை இயக்கவும்; தரைத்தன்மை மற்றும் தாமதத்தை அளவிடவும்.
- உங்கள் மதிப்பீடுகள் நிலைபெறும் போது கேச்சிங் மற்றும் பாதுகாப்புக் கவசங்களுடன் உற்பத்தி டெம்ப்ளேட்டுகளுக்குச் செல்லவும்.
- உங்கள் அடிப்படை நம்பகமானதாக மாறியவுடன் செயல்பாடு அழைப்பு மற்றும் டொமைன் கொள்கைகளை அடுக்கவும்.
FAQ
Q1:முழுமையான ஆரம்பநிலையாளர்களுக்கு சிறந்த RAGFlow பயிற்சி வகுப்பு எது?
PDF, துண்டாக்குதல், உட்பொதித்தல், அட்டவணைப்படுத்தல், மீட்டெடுப்பு மற்றும் மேற்கோள்களுடன் உருவாக்குதல் ஆகியவற்றை உள்ளடக்கிய RAGFlow விரைவுத் தொடக்கப் பயிற்சி வகுப்பிலிருந்து தொடங்கவும். இது உங்களுக்கு ஆரம்பம் முதல் இறுதி வரையிலான உணர்வை விரைவாகக் கொடுக்கும் மற்றும் ஆழமான RAGFlow பயிற்சி வகுப்புகளுக்கு உங்களைத் தயார்படுத்தும்.
Q2:அடிப்படை பயிற்சி வகுப்புகளுக்கு அப்பால் RAGFlowவில் துல்லியத்தை எவ்வாறு மேம்படுத்துவது?
துண்டாக்கும் உத்தி, உட்பொதிக்கும் தரம் மற்றும் மறு தரவரிசைப்படுத்தல் ஆகியவற்றில் கவனம் செலுத்துங்கள். மேம்பட்ட RAGFlow பயிற்சி வகுப்புகள் மாயத்தோற்றங்களைக் குறைக்கவும் மற்றும் தரைத்தன்மையை அளவிடவும் பாதுகாப்புக் கவசங்கள் மற்றும் மதிப்பீட்டு சாதனங்களைச் சேர்ப்பது எப்படி என்பதையும் காட்டுகின்றன.
Q3:நிறுவன ஆவணங்களுக்கான RAGFlow உடன் எந்த உட்பொதிப்புகள் சிறப்பாக வேலை செய்கின்றன?
text-embedding-3-large, E5 அல்லது BGE போன்ற வலுவான பொது மாதிரிகளை முயற்சி செய்து, பின்னர் உங்கள் தரவில் மீட்டெடுக்கும் அளவீடுகளை அளவிடவும். சிறந்த RAGFlow பயிற்சி வகுப்புகள் மாதிரிகள் மற்றும் திசையன் ஸ்டோர்களில் A/B சோதனைகளை பரிந்துரைக்கின்றன, இதன் மூலம் வெற்றியாளரைத் தேர்ந்தெடுக்கலாம்.
Q4:RAGFlow ஆவணங்களுடன் SQL போன்ற கட்டமைக்கப்பட்ட தரவைக் கையாள முடியுமா?
ஆம். RAGFlowவுக்கான கலப்பின மீட்டெடுப்பு பயிற்சி வகுப்புகள் கட்டமைக்கப்படாத ஆவணங்களுக்கான செமாண்டிக் மீட்டெடுப்பைப் பயன்படுத்தும் போது செயல்பாடு அழைப்பின் மூலம் அளவு கேள்விகளை SQLக்கு எவ்வாறு அனுப்புவது என்பதைக் காட்டுகின்றன, பின்னர் ஜெனரேஷன் நேரத்தில் முடிவுகளை இணைக்கவும்.
Q5:நேரலையில் செல்வதற்கு முன் RAGFlow பைப்லைனை நான் எவ்வாறு மதிப்பிடுவது?
மதிப்பீட்டில் கவனம் செலுத்தும் RAGFlow பயிற்சி வகுப்புகளைப் பின்பற்றவும்: ஆதாரங்களுடன் தங்க Q&A தொகுப்பை உருவாக்கவும், மாற்றங்களுக்குப் பிறகு தானியங்கி சோதனைகளை இயக்கவும், மேலும் தரைத்தன்மை, மேற்கோள் கவரேஜ், தாமதம் மற்றும் உதவி ஆகியவற்றை கண்காணிக்கவும். அளவீடுகள் நிலைபெறும் போது மட்டுமே பயன்படுத்தவும்.