பெரிய மொழி மாதிரியானது (large language model) கற்பனையான விஷயங்களைச் சொல்வதை நிறுத்திவிட்டு, உங்களுடைய குறிப்பிட்ட, குறைந்த சம்பளம் வாங்கும் உதவியாளரைப் போல நடந்துகொள்ளும்படி நீங்கள் எப்போதாவது முயற்சித்ததுண்டா? 2025-ல் fine-tuning செய்வது என்பது YAML உடன் கூடிய பெற்றோரைப் போலத் தோன்றும். நல்ல செய்தி என்னவென்றால்: LLaMA-Factory ஒட்டுமொத்தச் செயலையும் ஆச்சரியப்படும் விதமாக மோசமாக்காமல் ஆக்குகிறது... இன்னும் நல்ல செய்தி என்னவென்றால், சிறந்த LLaMA-Factory பயிற்சிகளைக் கண்டுபிடிக்க நான் ஒரு வாரம் முழுவதும் அடாப்டர்கள் மற்றும் டோக்கனைசர்களில் தடுமாறினேன், அதனால் நீங்கள் அப்படிச் செய்ய வேண்டியதில்லை.
இங்கே, சிறந்த ஆதாரங்களுக்கான BS இல்லாத, Joanna-வின் வழிகாட்டி உள்ளது. எதை எப்போது பயன்படுத்த வேண்டும் மற்றும் மூன்று பொதுவான விஷயங்களைத் தவிர்க்கவும் (ஸ்பாய்லர்: VRAM ஒரு ஆலோசனை அல்ல, அது ஒரு வரவு செலவுத் திட்டம்).
நீங்கள் ஏன் இங்கே இருக்கிறீர்கள் (மேலும் நீங்கள் உண்மையில் என்ன விரும்புகிறீர்கள்)
- distributed training பற்றி ஒரு ஆய்வறிக்கை எழுதாமல் Llama 2 அல்லது Llama 3 மாதிரிகளை நீங்கள் fine-tune செய்ய விரும்புகிறீர்கள்.
- LLaMA-Factory ஒரு WebUI மற்றும் CLI மற்றும் Google Colab மேஜிக் ஆகியவற்றைக் கொண்டுள்ளது என்று நீங்கள் கேள்விப்பட்டிருக்கிறீர்கள்.
- நீங்கள் ஒரு கிளவுட் GPU பண்ணையில் வாழ்கிறீர்கள் என்று நினைக்காத பயிற்சிகளை நீங்கள் விரும்புகிறீர்கள்.
இது எப்படி செய்வது என்பதற்கான நடைமுறை அறிவுரையுடன் கூடிய சிறந்த/உயர்ந்த பட்டியல். நான் பயிற்சிகளை தெளிவு, நவீனத்துவம் (Llama 3, QLoRA, 4-bit, WebUI workflow), மற்றும் அவை உங்களை பூஜ்யத்திலிருந்து "என்னுடைய மாதிரி உண்மையில் இயங்குகிறது" என்பதற்கு கொண்டு செல்கிறதா என்பதன் மூலம் தரவரிசைப்படுத்துகிறேன். போகலாம்.
குறுகிய பட்டியல்: இப்போது சிறந்த LLaMA-Factory பயிற்சிகள்
- காட்சி கற்பவர்களுக்கு யூடியூப் கிராஷ் கோர்ஸ் (crash course) (மற்றும் பொறுமை இல்லாதவர்கள்)
- யூடியூபில் “LLaMA Factory ஐப் பயன்படுத்தி யார் வேண்டுமானாலும் LLMகளை Fine Tune செய்யலாம்: End-to-End”. உங்கள் கவன நேரம் ஒரு TikTok ஆகவும், உங்கள் GPU பட்ஜெட் ஒரு காபியாகவும் இருந்தால், இது உங்களுக்கான பயிற்சி. இது LLaMA-Factory ஓட்டத்தில் அமைப்பு, தரவு தயாரிப்பு மற்றும் எண்ட்-டு-எண்ட் (end-to-end) ஓட்டம் மூலம் செல்கிறது. இது ஆரம்பநிலையாளர்களுக்கு ஏற்றது, WebUI ஐக் காட்டுகிறது மற்றும் எந்த பொத்தானை எதற்காக கிளிக் செய்வது என்பதையும் உள்ளடக்குகிறது. செயல்முறையை நேரடியாகப் பார்ப்பதற்கும், ஒரு கட்டளையை நகலெடுக்க ஒவ்வொரு 12 வினாடிகளிலும் இடைநிறுத்துவதற்கும் சிறந்தது.
இதற்குச் சிறந்தது: காட்சி கற்பவர்கள், வார இறுதி திட்டங்கள், “வேலை செய்யும் விஷயத்தை எனக்குக் காட்டுங்கள்.”
எச்சரிக்கையாக இருக்க வேண்டியவை: சரியான பதிப்புகள் மற்றும் குறிகள் மாற்றப்பட்டிருக்கலாம் - பிழை ஏற்பட்டால், ரெப்போ டீஃபால்ட்களை இருமுறை சரிபார்க்கவும்.
- முதல் முறையாக fine-tune செய்பவர்களுக்கான படிப்படியான WebUI வழிகாட்டி
- DataCamp இலிருந்து “LLaMA-Factory WebUI Beginner’s Guide: Fine-Tuning LLMs”. இது ஒரு தெளிவான, எழுதப்பட்ட walkthrough: install, load Llama 3 8B, LoRA அல்லது QLoRA ஐத் தேர்ந்தெடுக்கவும், ஒரு dataset ஐ உள்ளிடவும், பயிற்சி செய்யவும், மதிப்பீடு செய்யவும், ஏற்றுமதி செய்யவும். உங்களுக்கு ஸ்கிரீன்ஷாட்கள், configs மற்றும் சூழல் கிடைக்கும். CLI ஆல் நீங்கள் எப்போதாவது கத்தப்பட்டிருந்தால், இது இரைச்சல் ரத்து செய்யும் ஹெட்ஃபோன்கள் போல இருக்கும்.
இதற்குச் சிறந்தது: ஆரம்பநிலையாளர்கள், கட்டமைப்பு தேவைப்படுபவர்கள், docker-compose confettiக்கு ஒவ்வாமை உள்ளவர்கள்.
எச்சரிக்கையாக இருக்க வேண்டியவை: கிளவுட் அமைப்பு மற்றும் VRAM தேவைகள் அனைவருக்கும் ஒரே மாதிரியாக இருக்காது - நீங்கள் அதே வன்பொருளில் இல்லாவிட்டால் மாற்றங்களை எதிர்பார்க்கலாம்.
- Colab-நட்பு, வேகமான தொடக்க ரெசிபி
- மீடியத்தில் “Fine-Tuning Made Easy: Your Guide to LLaMA Factory”. இது Llama 3 உடன் LoRA ஐப் பயன்படுத்தும் ஒரு நடைமுறை Colab அடிப்படையிலான பயிற்சி. உள்ளூர் நிறுவல்களைத் தவிர்த்து, இலவசம்/குறைந்த GPU நேரத்துடன் டெஸ்ட்-டிரைவ் செய்ய விரும்பினால் நல்லது. நோட்புக்கை நகலெடுத்து, ஒரு dataset பாதையை மாற்றி, பூம்: உங்கள் முதல் மாதிரி குழந்தை பிறந்தது. இது ஒரு நல்ல வழியில் கருத்துள்ளதாக இருக்கிறது: LoRA, Colab மற்றும் குறைந்த fuss.
இதற்குச் சிறந்தது: Colab பயனர்கள், பட்ஜெட் GPU ஆய்வாளர்கள், “எனக்கு ஒரு மணி நேரத்தில் வேலை செய்யும் ஒன்று வேண்டும்.”
எச்சரிக்கையாக இருக்க வேண்டியவை: இலவச Colab உங்களை கட்டுப்படுத்துகிறது. பயிற்சி நேர வரம்புக்குள் முடியலாம் அல்லது throttled ஆகலாம். சீக்கிரம் checkpoints ஐ சேமிக்கவும்.
சரி, ஆனால் LLaMA-Factory உண்மையில் எனக்காக என்ன செய்கிறது?
LLaMA-Factory ஐ fine-tuning இன் IKEA என்று நினைத்துப் பாருங்கள்: இது உங்களுக்கு எல்லா பாகங்களையும் தருகிறது, அவற்றில் பெரும்பாலானவற்றைக் குறிக்கிறது, மேலும் ஒரு சிறிய ஆலன் சாவியைக் (WebUI) கொடுக்கிறது, இதன் மூலம் நீங்கள் உங்களுடைய சொந்தமாக ஒரு LLM ஐ உருவாக்கிக் கொள்ளலாம். இது பயமுறுத்தும் பிட்களை - QLoRA quantization, அடாப்டர்கள், டோக்கனைசர்கள் - முன்னமைவுகள் மற்றும் நியாயமான டீஃபால்ட்களுக்குப் பின்னால் மறைக்கிறது. நீங்கள் இன்னும் ஒரு dataset மற்றும் நல்ல பழக்கவழக்கங்களைக் கொண்ட ஒரு GPU ஐ கொண்டு வர வேண்டும், ஆனால் நீங்கள் பச்சையான மரங்களிலிருந்து சோபாவை உருவாக்க வேண்டியதில்லை.
உங்கள் பயன்பாட்டிற்கான சரியான பயிற்சியை எவ்வாறு தேர்வு செய்வது
- நான் என் வாழ்க்கையில் எதையும் fine-tune செய்ததில்லை: DataCamp WebUI வழிகாட்டியுடன் தொடங்கவும், பின்னர் யூடியூப் walkthrough ஐப் பார்க்கவும். ஒன்று எதைக் கிளிக் செய்வது என்று காட்டுகிறது, மற்றொன்று அது உண்மையில் வேலை செய்யும் போது எப்படி இருக்கும் (மற்றும் எங்கு அழகாகத் தோல்வியடைகிறது) என்பதைக் காட்டுகிறது.
- எனக்கு ஒரு பட்ஜெட்டில் விரைவான POC தேவை: Colab பயிற்சியைப் பயன்படுத்தவும். உங்கள் dataset ஐ சிறியதாக வைத்து, உங்கள் எதிர்பார்ப்புகளைக் குறைக்கவும். பின்னர் அடாப்டரை ஏற்றுமதி செய்து உங்கள் உள்ளூர் மெஷினில் அல்லது மலிவான கிளவுட்டில் டெஸ்ட் செய்யவும்.
- ஒரு பணிநிலையம் அல்லது கிளவுட் GPU இல் இதை "சரியாக" செய்ய நான் விரும்புகிறேன்: கருத்துக்களை அறிய WebUI பயிற்சியுடன் தொடங்கவும், பின்னர் CLI க்கு மாறவும், இதன் மூலம் நீங்கள் ஸ்கிரிப்ட் சோதனைகளைச் செய்து ஒரு நிபுணரைப் போல ரன்களைக் கண்காணிக்க முடியும். உங்கள் VRAM வளைந்து கொடுக்கவில்லை என்றால் 4-பிட் திறன் QLoRA இல் கலக்கவும்.
ஐந்து நிமிட கிராஷ் கோர்ஸ்: LLaMA-Factory அடிப்படைகள்
- WebUI vs. CLI: WebUI கற்றுக்கொள்வதற்கு வேகமானது, முதல் ரன்கள் மற்றும் மன அமைதி சோதனைகளுக்கு சிறந்தது. CLI என்பது உங்கள் ட்ராக்பேட் அழாமல் தொகுத்தல், தானியக்கமாக்குதல் மற்றும் பதிப்பு சோதனைகள் செய்வது எப்படி.
- LoRA vs. QLoRA: LoRA இலகுரக அடாப்டர் லேயர்களைச் சேர்க்கிறது - வேகமானது மற்றும் திறமையானது. QLoRA quantization ஐச் சேர்க்கிறது, எனவே நீங்கள் சிறிய GPU களில் பெரிய மாதிரிகளை fine-tune செய்ய முடியும். இது பயிற்சியின் IKEA பேக்-ஃப்ளாட் பதிப்பு.
- Datasets: அதை இறுக்கமாகவும் சுத்தமாகவும் வைத்திருங்கள். உங்கள் dataset உங்கள் கல்லூரி கட்டுரை வரைவுகளைப் போல் இருந்தால், உங்கள் மாதிரியும் அவ்வாறே இருக்கும்.
- Checkpoints மற்றும் மதிப்பீடு: அடிக்கடி சேமிக்கவும். ஆரம்பத்தில் மதிப்பீடு செய்யுங்கள். ஆம், உங்கள் மாதிரி "கற்றுக் கொள்கிறது", ஆனால் நீங்கள் நினைப்பதைத்தான் கற்கிறதா? மார்க்கர்களுடன் இருக்கும் குழந்தையைப் போலவே, மேற்பார்வை முக்கியமானது.
ஒரு Stern-style மினி அமைப்பு வழிகாட்டி (எந்த பயிற்சியுடனும் பயன்படுத்த)
- உங்கள் மாதிரியைத் தேர்ந்தெடுக்கவும்: Llama 3 8B ஒரு நட்புரீதியான தொடக்கம். சிறியதாக வேண்டுமா? பயிற்சி வலியை குறைக்க instruction-tuned 7–8B வேரியண்ட்டை முயற்சிக்கவும்.
- உங்கள் பட்ஜெட்டைத் தீர்மானிக்கவும்: 16GB VRAMக்கு கீழ் இருக்கிறதா? QLoRA க்கு செல்லவும். சுமார் 24GB இருக்கிறதா? LoRA வசதியாக இருக்கும். 48GB+ இருக்கிறதா? நீங்கள் விரும்பத்தக்கவர்; நீங்கள் என்ன செய்கிறீர்கள் என்று தெரிந்தால் பெரிய சூழல் விண்டோஸ் அல்லது முழு finetunes ஐ கருத்தில் கொள்ளுங்கள்.
- தரவைத் தயார் செய்யவும்: JSON அல்லது CSV ஐ தெளிவான prompt/response புலங்களுடன் பயன்படுத்தவும். அளவிடுவதற்கு முன் 2–10K உயர்தர எடுத்துக்காட்டுகளுடன் தொடங்கவும்.
- உங்கள் பாதையைத் தேர்வுசெய்க: WebUI (எளிதானது) அல்லது CLI (அளவிடுகிறது). மேலே உள்ள பயிற்சிகள் இரண்டு பாணிகளையும் காட்டுகின்றன: யூடியூப் மற்றும் DataCamp வழிகாட்டிகள் WebUI ஐ நோக்கி சாய்ந்துள்ளன; மீடியம் துண்டு நோட்புக்/CLI ஹைப்ரிட்டை நோக்கி சாய்ந்துள்ளது.
- சாமர்த்தியமாக பயிற்சி செய்யுங்கள்: சிறியதாகத் தொடங்கவும் - சில epochs, அதிக கற்றல் விகிதம், சிறிய துணைக்குழு. 10–20 நிமிடங்களில் முன்னேற்றம் இல்லையென்றால், ஏதாவது மாற்றி மீண்டும் முயற்சிக்கவும். கண்மூடித்தனமான நம்பிக்கையைவிட மறு செய்கை சிறந்தது.
- சந்தேகவாதியைப் போல மதிப்பீடு செய்யுங்கள்: உண்மையான பயன்பாட்டை பிரதிபலிக்கும் 50–100 எடுத்துக்காட்டுகளுடன் கூடிய டெஸ்ட் செட்டை உருவாக்கவும். கடினமான கேள்விகளைக் கேளுங்கள். உண்மைக்கு வெகுமதி அளியுங்கள், சொற்செறிவுக்கு அல்ல.
சிறந்த பயிற்சிகளை தரவரிசைப்படுத்துதல் (மற்றும் ஏன்)
- DataCamp இன் LLaMA-Factory WebUI வழிகாட்டி - சிறந்த ஒட்டுமொத்த எழுதப்பட்ட walkthrough
- ஏன் இது சிறந்தது: இது சமீபத்தியது, இது Llama 3 ஐப் பயன்படுத்துகிறது, மேலும் இது உங்களை கோட்பாட்டில் புதைக்காது. இது நீங்கள் உண்மையில் விரும்பும் "ஆலன் சாவியுடன் இதை அசெம்பிள் செய்யுங்கள்" பாடம்.
- யார் இதைப் பயன்படுத்த வேண்டும்: fine-tuning அல்லது WebUI க்கு புதியவர்கள். இது உண்மையான வெளியீட்டுடன் கூடிய நம்பிக்கையை அதிகரிக்கும்.
- யூடியூப் எண்ட்-டு-எண்ட் (End-to-End) வீடியோ - சிறந்த காட்சி அறிமுகம் மற்றும் வேகத்தை அதிகரித்தல்
- ஏன் இது சிறந்தது: நீங்கள் ஓட்டம், வேகம் மற்றும் பிழைகளைப் பார்க்கிறீர்கள். நீங்கள் செய்வதற்கு முன்பு திரையில் ஒரு நண்பர் கிளிக் செய்வதைப் போன்றது.
- யார் இதைப் பயன்படுத்த வேண்டும்: காட்சி கற்பவர்கள், பொறுமை இல்லாத பில்டர்கள், வார இறுதி நாட்களில் டிங்கர் செய்பவர்கள்.
- மீடியம் இன் Colab வழிகாட்டி - ஜீரோ-இன்ஸ்டால் சோதனைகளுக்கு சிறந்தது
- ஏன் இது சிறந்தது: உங்கள் லேப்டாப்பில் PyTorch வீல்ஸ் உடன் நீங்கள் போராட வேண்டியதில்லை. இயக்கவும், பார்க்கவும், ஏற்றுமதி செய்யவும்.
- யார் இதைப் பயன்படுத்த வேண்டும்: நீரின் ஆழத்தை அளவிடுபவர்கள் அல்லது உள்ளூர் CUDA நாடகத்தைத் தவிர்ப்பவர்கள்.
இந்த பயிற்சிகள் எதை தவற விடுகின்றன (மற்றும் இடைவெளிகளை எவ்வாறு நிரப்புவது)
- பதிப்பு பினிங் (version pinning): கருவி வேகமாக நகர்கிறது. உங்கள் ரன் உடைந்தால், பயிற்சியில் பயன்படுத்தப்பட்ட LLaMA-Factory பதிப்பையும் நீங்கள் நிறுவியதையும் சரிபார்க்கவும். அவற்றை பொருத்தவும், அல்லது ரெப்போ சேஞ்ச்லாக்கை ஒரு பிளாட் ட்விஸ்டைப் போல படிக்கவும்.
- டோக்கனைசர் பொருந்தவில்லை: பதில்கள் எழுத்து சூப் போல இருந்தால், டோக்கனைசர் அடிப்படை மாதிரியுடன் பொருந்துகிறதா என்பதை சரிபார்க்கவும். தவறான வசன வரிகளுடன் ஆடியோபுக்கைப் படிக்க முயற்சிப்பது போன்றது இது.
- VRAM பட்ஜெட்: பயிற்சிகள் பெரும்பாலும் “நான் அதை எப்படி செய்தேன் என்பது இங்கே" என்று காட்டுகின்றன, “அதை எப்படி அளவிடுவது என்பது இங்கே இல்லை”. உங்களுக்கு CUDA அவுட்-ஆஃப்-மெமரி பிழைகள் ஏற்பட்டால், தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கைப் பயன்படுத்தவும், 4-பிட் QLoRA வை இயக்கவும். உங்கள் GPU உங்களுக்கு நன்றி சொல்லும்.
உங்கள் முதல் fine-tune: நீங்கள் உண்மையில் திருடக்கூடிய ஒரு டெம்ப்ளேட் திட்டம்
- குறிக்கோள்: வாடிக்கையாளர் ஆதரவு பாணி சாட்பாட்டுக்காக QLoRA உடன் Llama 3 8B ஐ Fine-tune செய்யவும்.
- வன்பொருள்: 16GB GPU (ஆமாம், உண்மையில்), அல்லது ஒரு கிளவுட் T4/A10G/A100, நீங்கள் அதிகமாக வாங்க முடிந்தால்.
- தரவு: உங்கள் களத்திலிருந்து 5,000 க்யூரேட்டட் Q&A ஜோடிகள். சுத்தமான, நிலையான பாணி. நகல்கள் இல்லை. 500 ஐ வேலிடேஷனுக்காக அர்ப்பணிக்கவும்.
- சூழல் மற்றும் UI இயங்குவதற்கு DataCamp WebUI பயிற்சியைப் பின்பற்றவும்.
- பயிற்சி அமைப்புகளின் கீழ், தேர்ந்தெடுக்கவும்: அடிப்படை மாதிரி = Llama 3 8B பயிற்றுவிக்கவும்; முறை = QLoRA; 4-பிட்டில் ஏற்றவும்; தொகுதி அளவு சிறியது (1–2); பெரிய தொகுதிகளை உருவகப்படுத்த கிரேடியண்ட் திரட்சி; 1–2 epochs.
- 10% தரவு துணைக்குழுவுடன் தொடங்கவும். நஷ்டம் இறங்கி சரிபார்ப்பு அர்த்தமுள்ளதாக இருந்தால், முழு தொகுப்பிற்கும் செல்லவும்.
- அடாப்டரை ஏற்றுமதி செய்து ஒரு அனுமான ஸ்கிரிப்டில் டெஸ்ட் செய்யவும். பதில்கள் மிகவும் நீளமாக இருந்தால், சிஸ்டம் பிராம்ப்ட்களை ட்வீக் செய்து வெப்பநிலையை குறைக்கவும்.
- மீண்டும் மீண்டும் செய்யவும்: கற்றல் விகிதம், epoch எண்ணிக்கையை டயல் செய்து, குறைந்த தரம் வாய்ந்த எடுத்துக்காட்டுகளை வெட்டுங்கள்.
- வெற்றிச் சரிபார்ப்பு: உங்கள் மாதிரி டொமைன் கேள்விகளுக்கு சுருக்கமாகப் பதிலளிக்கிறது, சரியான சொற்களைக் குறிப்பிடுகிறது மற்றும் கொள்கைகளை கண்டுபிடிக்கவில்லை. இது உங்கள் கிரியேட்டிவ் ரைட்டிங் இன்டர்னாக இருந்தால், நீங்கள் ஓவர்ஃபிட் செய்துவிட்டீர்கள் அல்லது அண்டர்-கிளீன் செய்துவிட்டீர்கள்.
GPU இல் சிக்கல் இருக்கிறதா? இவற்றை முயற்சிக்கவும்
- "CUDA OOM": தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கை இயக்கவும் அல்லது 4-பிட் பயன்படுத்தவும். நீங்கள் இன்னும் சிக்கிக்கொண்டால், சிறிய மாதிரியாக மாற்றவும் அல்லது இறுதி epoch க்கு பெரிய GPU ஐ வாடகைக்கு எடுக்கவும்.
- "நஷ்டம் நகரவில்லை": மோசமான தரவு அல்லது மிகவும் சிறியது. தரவு வகையை அதிகரிக்கவும், கற்றல் விகிதத்தைக் குறைக்கவும் அல்லது உங்கள் LoRA தரவரிசைகள் மிகவும் சிறியதாக இருக்கிறதா என்று சரிபார்க்கவும்.
- "வெளியீடுகள் முரட்டுத்தனமாக/வித்தியாசமாக உள்ளன": அறிவுறுத்தல்-சரிசெய்யப்பட்ட அடிப்படை மாதிரிகள் மற்றும் உங்கள் dataset இல் நிலையான பதில் வடிவம் மூலம் பாணியை சீரமைக்கவும். மாதிரிகள் அவர்கள் பார்ப்பதை பிரதிபலிக்கின்றன - நீங்கள் நினைப்பதை பயிற்சி செய்யுங்கள்.
Deployment: ஆய்வகத்திலிருந்து லேப்டாப்பிற்கு (மற்றும் அதற்கு அப்பால்)
- தேவைப்பட்டால் LoRA அடாப்டர்களை ஏற்றுமதி செய்து இணைக்கவும். எட்ஜ் சாதனங்களுக்கு, பெயர்வுத்திறனுக்காக அடாப்டர்களை தனித்தனியாக வைக்கவும். சேவையகங்களுக்கு, எளிமை மற்றும் வேகத்திற்காக இணைக்கவும்.
- அனுமானத்திற்காக குவாண்டைஸ் செய்யவும். நீங்கள் 4-பிட்டில் பயிற்சி அளித்திருந்தால், தாமதம் மற்றும் நம்பகத்தன்மையை சமப்படுத்த 4-, 5- மற்றும் 8-பிட் அனுமானத்தை டெஸ்ட் செய்யவும்.
- கார்ட்ரெயில்களை சேர்க்கவும். எடுத்துக்காட்டுகளுடன் கூடிய ஒரு எளிய ப்ராம்ப்ட் ரேப்பர் அற்புதங்களைச் செய்கிறது. அல்லது உங்கள் பயனர்களை தாக்குவதற்கு முன் அர்த்தமற்றதை வடிகட்டும் ஒரு சிறிய ரூல்செட் செக்கர் மாதிரியைப் பயன்படுத்தவும்.
WebUI அல்லது CLI ஐ நீண்ட காலத்திற்கு எடுக்க வேண்டுமா?
- WebUI என்பது உங்களுக்கு பிடித்த காபி கடை: வசதியான, விரைவான, குறைந்த உராய்வு.
- CLI என்பது உங்கள் வீட்டு சமையலறை: அதிக குமிழ்கள், அதிக குழப்பம், அதிக கட்டுப்பாடு. நீங்கள் வாரந்தோறும் fine-tuning செய்தால், இறுதியில் உங்களுக்கு ஸ்கிரிப்ட்கள், பரிசோதனை டிராக்கர்கள் மற்றும் மீண்டும் உருவாக்கக்கூடிய configs தேவைப்படும். WebUI இல் தொடங்கி CLI க்கு செல்லவும்.
குறிப்பிடத்தக்கது: Sider.AI “இதை எனக்கு என் மூன்றாவது எஸ்பிரெசோவில் இருப்பது போல் விளக்கு” தருணங்களுக்கு உதவும். உங்கள் கான்பிக் அல்லது லாக்களை Sider.AI சாட்டில் ஒட்டினால், சரிசெய்ய வேண்டிய அளவுருக்களுக்கான விரைவான பரிந்துரைகள், நீங்கள் தவறவிட்ட பயிற்சி படி மற்றும் தவறான கற்றல் விகிதத்தில் இரண்டு மணி நேரம் செலவழிப்பதற்கு முன் ஒரு மன அமைதி சோதனையைப் பெறலாம். இது உங்களை மதிப்பிடாத ஒரு நட்பு TA வைப் போன்றது - உங்களை வேகமாக இயக்குகிறது. விரைவான ஒப்பீடு: எந்த பயிற்சி எந்த வேலைக்கு வெற்றி பெறுகிறது
- மொத்த ஆரம்பநிலையாளர்களுக்குச் சிறந்தது: DataCamp இன் WebUI வழிகாட்டி (தெளிவான படிகள், நவீன மாதிரிகள்).
- "இப்போதே எனக்கு காட்டு" என்பதற்கு சிறந்தது: யூடியூப் எண்ட்-டு-எண்ட் (End-to-End) (காட்சி ஓட்டம், கிளிக்குகளை நகலெடுக்கவும்).
- நிறுவல் இல்லாத சோதனைகளுக்கு சிறந்தது: மீடியம் இன் Colab வழிகாட்டி (வேகமாக இயக்கவும், குறைவாக செலவிடவும்).
மேம்பட்ட ஆட்-ஆன்கள் (நீங்கள் சமன் செய்ய தயாராக இருக்கும்போது)
- LoRA க்கு அப்பால் PEFT அடாப்டர்கள்: வெவ்வேறு தரவரிசைகள் மற்றும் ஆல்பாக்களை முயற்சிக்கவும். சிறிய மாற்றங்கள், பெரிய விளைவுகள்.
- பாடத்திட்ட fine-tuning: பொது அறிவுறுத்தல் தரவுகளுடன் தொடங்கி, பின்னர் குறுகிய டொமைன் தரவுக்கு செல்லவும்.
- கலவையான துல்லியம் மற்றும் மெமரி தந்திரங்கள்: bf16 ஆதரிக்கப்பட்டால்; ஃபிளாஷ் கவனம்; உங்கள் GPU ஐ சுத்தமாக்குங்கள்.
- மதிப்பீட்டு சூட்கள்: தனிப்பயன் ஈவல் செட் மற்றும் சில பொது பணிகளை உருவாக்குங்கள். உங்கள் வால் செட் மற்றும் டொமைன் செட்டுக்கு வெளியே ஒரு சிறிய இடைவெளிக்கு இடையில் வேறுபாட்டை கண்காணிப்பதன் மூலம் ஓவர்ஃபிட்டிங்கைக் கண்காணிக்கவும்.
ஒரு சிறிய சொற்களஞ்சியம், எனவே நீங்கள் தலையை ஆட்டி நடிக்க வேண்டியதில்லை
- LoRA: முழு பெரிய மாதிரியைப் பயிற்றுவிப்பதற்கு பதிலாக நீங்கள் பயிற்றுவிக்கும் இலகுரக அடாப்டர் லேயர்கள். நேரம் மற்றும் VRAM ஐ சேமிக்கிறது.
- QLoRA: LoRA வைப் போன்றது, ஆனால் அடிப்படை எடைகள் பயிற்சியின் போது சுருக்கப்படுகின்றன (குவாண்டைஸ்டு). ஹலோ, 4-பிட்.
- அடாப்டர் இணைத்தல்: எளிய Deploymentக்காக அடாப்டர் எடைகளை அடிப்படை மாதிரியுடன் இணைக்கவும்.
- டோக்கனைசர்: வாக்கியங்களை டோக்கன்களாக வெட்டுவது. தவறான டோக்கனைசர் = கலக்கப்பட்ட முட்டைகள்.
என் கருத்து: எந்த பயிற்சியுடன் தொடங்க வேண்டும்?
உங்கள் குறிக்கோள் முதல் வெற்றிக்கு வேகம் என்றால், DataCamp உடன் தொடங்கவும். அதை யூடியூப் walkthrough உடன் இணைக்கவும் - பாருங்கள், கிளிக் செய்யுங்கள், வெற்றி பெறுங்கள். பின்னர், உங்கள் இரண்டாவது ரன்னுக்கு, மற்றொரு பாதையைப் பார்க்க Colab வழிகாட்டியை சுழற்றுங்கள். ஒரு பெரிய நூலை படிப்பதன் மூலம் இரண்டு சிறிய ரன்களை செய்வதன் மூலம் நீங்கள் அதிகம் கற்றுக்கொள்வீர்கள். உங்கள் GPU HR உடன் புகார் அளிக்காது.
Stern முடிவுரை: Fine-tuning இப்போது முற்றிலும் சாத்தியமானது. LLaMA-Factory “நம்பிக்கை இழக்கும் குன்றை” கைப்பிடிகள் கொண்ட ஒரு படிக்கட்டாக மாற்றியது. ஒரு பயிற்சியைத் தேர்ந்தெடுத்து, சிறியதாகத் தொடங்கி, மீண்டும் மீண்டும் செய்யவும். உங்கள் எதிர்கால fine-tune மாதிரி உங்கள் பணத்தைத் திரும்பப்பெறும் கொள்கையைப் பற்றி கற்பனையாகக் கூறாமல் உங்களுக்கு நன்றி சொல்லும்.
நீங்கள் உண்மையில் பயன்படுத்தும் இணைப்புகள்
- யூடியூப்: எண்ட்-டு-எண்ட் LLaMA-Factory fine-tune walkthrough.
- DataCamp: LLaMA-Factory WebUI ஆரம்பநிலை வழிகாட்டி.
- மீடியம்: Colab அடிப்படையிலான LLaMA-Factory விரைவு தொடக்கம்.
90 வினாடிகளில் செயல் திட்டம்
- DataCamp வழிகாட்டியைத் தேர்ந்தெடுத்து WebUI ஐ அமைக்கவும்.
- ஒரு சிறிய தரவுத்தொகுப்பை தயார் செய்யவும் (500–1,000 ஜோடிகள்). அதை சுத்தமாக வைத்திருங்கள்.
- QLoRA, 4-பிட், சிறிய தொகுதிகளுடன் பயிற்சி அளிக்கவும்.
- 100 கையால் எடுக்கப்பட்ட கேள்விகளில் மதிப்பீடு செய்யவும்.
- இரண்டு அல்லது மூன்று முறை மீண்டும் செய்யவும். பின்னர் நீண்ட ரன்கள் மற்றும் பெரிய தரவுக்கு செல்லவும்.
இப்போது பயனுள்ள ஒன்றை fine-tune செய்யுங்கள். உங்கள் GPU கத்தினால், அது "தொகுதி அளவைக் குறை" என்று சொல்கிறது என்பதை நினைவில் கொள்ளுங்கள்.
அடிக்கடி கேட்கப்படும் கேள்விகள்
Q1:உண்மையான ஆரம்பநிலையாளர்களுக்கான சிறந்த LLaMA-Factory பயிற்சி எது?
DataCamp இலிருந்து LLaMA-Factory WebUI வழிகாட்டியுடன் தொடங்கவும் - இது தெளிவாகவும், நடப்பு நிகழ்வாகவும் உள்ளது, மேலும் Llama 3 ஐப் பயன்படுத்துகிறது. ஒரு காட்சி மன அமைதிச் சோதனைக்காக யூடியூப் எண்ட்-டு-எண்ட் walkthrough உடன் இணைக்கவும், இதன் மூலம் நீங்கள் பயிற்சி கிளிக் செய்வதற்கு முன் வெற்றி எப்படி இருக்கும் என்பதை அறிந்து கொள்வீர்கள்.
Q2:நான் Google Colab இல் LLaMA-Factory மாதிரிகளை fine-tune செய்யலாமா?
ஆம், Colab அடிப்படையிலான பயிற்சி LLaMA-Factory fine-tuning ஐ ஆச்சரியப்படும் விதமாக வலியற்றதாக ஆக்குகிறது. உங்கள் அமர்வு நேரம் மற்றும் VRAM வரம்புகளைப் பாருங்கள், அடிக்கடி checkpoints ஐ சேமிக்கவும், மேலும் உங்கள் முதல் ரன்னுக்கு தரவுத்தொகுப்புகளை சிறியதாக வைக்கவும்.
Q3:LLaMA-Factory உடன் LoRA அல்லது QLoRA ஐப் பயன்படுத்த வேண்டுமா?
நீங்கள் VRAM இல் குறைவாக இருந்தால், QLoRA தான் உங்கள் நண்பர் - 4-பிட் பயிற்சி, சிறிய மெமரி அடிச்சுவடு. உங்களிடம் அதிக GPU ஹெட்ரூம் இருந்தால், நிலையான LoRA எளிமையானது மற்றும் fine-tuning க்கு மிகவும் திறமையானது.
Q4:பயிற்சியின் போது CUDA அவுட்-ஆஃப்-மெமரி பிழைகளை நான் எவ்வாறு சரிசெய்வது?
உங்கள் தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கை இயக்கவும், 4-பிட் QLoRA வைப் பயன்படுத்தவும். அது இன்னும் தோல்வியுற்றால், சிறிய அடிப்படை மாதிரியை முயற்சிக்கவும் அல்லது கனமான படிக்கு அதிக VRAM உடன் GPU ஐ வாடகைக்கு எடுக்கவும்.
Q5:என் LLaMA-Factory fine-tune உண்மையில் வேலை செய்ததா என்று எனக்கு எப்படித் தெரியும்?
ஒரு சிறிய, யதார்த்தமான மதிப்பீட்டு செட்டை உருவாக்கவும், fine-tuning க்கு முன்னும் பின்னும் வெளியீடுகளை ஒப்பிடவும். உங்கள் மாதிரி வேகமாக பதிலளித்தால், மிகவும் துல்லியமாக, மேலும் உங்கள் நிறுவனத்தின் விடுமுறை கொள்கையைப் பற்றி கற்பனையாகக் கூறாவிட்டால், நீங்கள் சரியான பாதையில் இருக்கிறீர்கள்.