What’s the best LLaMA-Factory tutorial for true beginners?

Start with the LLaMA-Factory WebUI guide from DataCamp—it’s clear, current, and uses Llama 3. Pair it with the YouTube end-to-end walkthrough for a visual sanity check so you know what success looks like before you click train.

Can I fine-tune LLaMA-Factory models on Google Colab?

Yes, the Colab-based tutorial makes LLaMA-Factory fine-tuning surprisingly painless. Just watch your session time and VRAM limits, save checkpoints often, and keep datasets small for your first run.

Should I use LoRA or QLoRA with LLaMA-Factory?

If you’re limited on VRAM, QLoRA is your friend—4-bit training, smaller memory footprint. If you’ve got more GPU headroom, standard LoRA is simpler and still very efficient for fine-tuning.

How do I fix CUDA out-of-memory errors during training?

Lower your batch size, turn on gradient checkpointing, and use 4-bit QLoRA. If that still fails, try a smaller base model or rent a GPU with more VRAM for the heaviest step.

How do I know if my LLaMA-Factory fine-tune actually worked?

Build a small, realistic evaluation set and compare outputs before and after fine-tuning. If your model answers faster, more accurately, and doesn’t hallucinate your company’s vacation policy, you’re on the right track.

சிறந்த LLaMA-Factory பயிற்சி: நீங்கள் செய்ய வேண்டியதில்லை என்பதற்காக நான் அதைச் செம்மைப்படுத்தினேன்

பெரிய மொழி மாதிரியானது (large language model) கற்பனையான விஷயங்களைச் சொல்வதை நிறுத்திவிட்டு, உங்களுடைய குறிப்பிட்ட, குறைந்த சம்பளம் வாங்கும் உதவியாளரைப் போல நடந்துகொள்ளும்படி நீங்கள் எப்போதாவது முயற்சித்ததுண்டா? 2025-ல் fine-tuning செய்வது என்பது YAML உடன் கூடிய பெற்றோரைப் போலத் தோன்றும். நல்ல செய்தி என்னவென்றால்: LLaMA-Factory ஒட்டுமொத்தச் செயலையும் ஆச்சரியப்படும் விதமாக மோசமாக்காமல் ஆக்குகிறது... இன்னும் நல்ல செய்தி என்னவென்றால், சிறந்த LLaMA-Factory பயிற்சிகளைக் கண்டுபிடிக்க நான் ஒரு வாரம் முழுவதும் அடாப்டர்கள் மற்றும் டோக்கனைசர்களில் தடுமாறினேன், அதனால் நீங்கள் அப்படிச் செய்ய வேண்டியதில்லை.

இங்கே, சிறந்த ஆதாரங்களுக்கான BS இல்லாத, Joanna-வின் வழிகாட்டி உள்ளது. எதை எப்போது பயன்படுத்த வேண்டும் மற்றும் மூன்று பொதுவான விஷயங்களைத் தவிர்க்கவும் (ஸ்பாய்லர்: VRAM ஒரு ஆலோசனை அல்ல, அது ஒரு வரவு செலவுத் திட்டம்).

நீங்கள் ஏன் இங்கே இருக்கிறீர்கள் (மேலும் நீங்கள் உண்மையில் என்ன விரும்புகிறீர்கள்)

distributed training பற்றி ஒரு ஆய்வறிக்கை எழுதாமல் Llama 2 அல்லது Llama 3 மாதிரிகளை நீங்கள் fine-tune செய்ய விரும்புகிறீர்கள்.

LLaMA-Factory ஒரு WebUI மற்றும் CLI மற்றும் Google Colab மேஜிக் ஆகியவற்றைக் கொண்டுள்ளது என்று நீங்கள் கேள்விப்பட்டிருக்கிறீர்கள்.

நீங்கள் ஒரு கிளவுட் GPU பண்ணையில் வாழ்கிறீர்கள் என்று நினைக்காத பயிற்சிகளை நீங்கள் விரும்புகிறீர்கள்.

இது எப்படி செய்வது என்பதற்கான நடைமுறை அறிவுரையுடன் கூடிய சிறந்த/உயர்ந்த பட்டியல். நான் பயிற்சிகளை தெளிவு, நவீனத்துவம் (Llama 3, QLoRA, 4-bit, WebUI workflow), மற்றும் அவை உங்களை பூஜ்யத்திலிருந்து "என்னுடைய மாதிரி உண்மையில் இயங்குகிறது" என்பதற்கு கொண்டு செல்கிறதா என்பதன் மூலம் தரவரிசைப்படுத்துகிறேன். போகலாம்.

குறுகிய பட்டியல்: இப்போது சிறந்த LLaMA-Factory பயிற்சிகள்

காட்சி கற்பவர்களுக்கு யூடியூப் கிராஷ் கோர்ஸ் (crash course) (மற்றும் பொறுமை இல்லாதவர்கள்)

யூடியூபில் “LLaMA Factory ஐப் பயன்படுத்தி யார் வேண்டுமானாலும் LLMகளை Fine Tune செய்யலாம்: End-to-End”. உங்கள் கவன நேரம் ஒரு TikTok ஆகவும், உங்கள் GPU பட்ஜெட் ஒரு காபியாகவும் இருந்தால், இது உங்களுக்கான பயிற்சி. இது LLaMA-Factory ஓட்டத்தில் அமைப்பு, தரவு தயாரிப்பு மற்றும் எண்ட்-டு-எண்ட் (end-to-end) ஓட்டம் மூலம் செல்கிறது. இது ஆரம்பநிலையாளர்களுக்கு ஏற்றது, WebUI ஐக் காட்டுகிறது மற்றும் எந்த பொத்தானை எதற்காக கிளிக் செய்வது என்பதையும் உள்ளடக்குகிறது. செயல்முறையை நேரடியாகப் பார்ப்பதற்கும், ஒரு கட்டளையை நகலெடுக்க ஒவ்வொரு 12 வினாடிகளிலும் இடைநிறுத்துவதற்கும் சிறந்தது.

இதற்குச் சிறந்தது: காட்சி கற்பவர்கள், வார இறுதி திட்டங்கள், “வேலை செய்யும் விஷயத்தை எனக்குக் காட்டுங்கள்.” எச்சரிக்கையாக இருக்க வேண்டியவை: சரியான பதிப்புகள் மற்றும் குறிகள் மாற்றப்பட்டிருக்கலாம் - பிழை ஏற்பட்டால், ரெப்போ டீஃபால்ட்களை இருமுறை சரிபார்க்கவும்.

முதல் முறையாக fine-tune செய்பவர்களுக்கான படிப்படியான WebUI வழிகாட்டி

DataCamp இலிருந்து “LLaMA-Factory WebUI Beginner’s Guide: Fine-Tuning LLMs”. இது ஒரு தெளிவான, எழுதப்பட்ட walkthrough: install, load Llama 3 8B, LoRA அல்லது QLoRA ஐத் தேர்ந்தெடுக்கவும், ஒரு dataset ஐ உள்ளிடவும், பயிற்சி செய்யவும், மதிப்பீடு செய்யவும், ஏற்றுமதி செய்யவும். உங்களுக்கு ஸ்கிரீன்ஷாட்கள், configs மற்றும் சூழல் கிடைக்கும். CLI ஆல் நீங்கள் எப்போதாவது கத்தப்பட்டிருந்தால், இது இரைச்சல் ரத்து செய்யும் ஹெட்ஃபோன்கள் போல இருக்கும்.

இதற்குச் சிறந்தது: ஆரம்பநிலையாளர்கள், கட்டமைப்பு தேவைப்படுபவர்கள், docker-compose confettiக்கு ஒவ்வாமை உள்ளவர்கள். எச்சரிக்கையாக இருக்க வேண்டியவை: கிளவுட் அமைப்பு மற்றும் VRAM தேவைகள் அனைவருக்கும் ஒரே மாதிரியாக இருக்காது - நீங்கள் அதே வன்பொருளில் இல்லாவிட்டால் மாற்றங்களை எதிர்பார்க்கலாம்.

Colab-நட்பு, வேகமான தொடக்க ரெசிபி

மீடியத்தில் “Fine-Tuning Made Easy: Your Guide to LLaMA Factory”. இது Llama 3 உடன் LoRA ஐப் பயன்படுத்தும் ஒரு நடைமுறை Colab அடிப்படையிலான பயிற்சி. உள்ளூர் நிறுவல்களைத் தவிர்த்து, இலவசம்/குறைந்த GPU நேரத்துடன் டெஸ்ட்-டிரைவ் செய்ய விரும்பினால் நல்லது. நோட்புக்கை நகலெடுத்து, ஒரு dataset பாதையை மாற்றி, பூம்: உங்கள் முதல் மாதிரி குழந்தை பிறந்தது. இது ஒரு நல்ல வழியில் கருத்துள்ளதாக இருக்கிறது: LoRA, Colab மற்றும் குறைந்த fuss.

இதற்குச் சிறந்தது: Colab பயனர்கள், பட்ஜெட் GPU ஆய்வாளர்கள், “எனக்கு ஒரு மணி நேரத்தில் வேலை செய்யும் ஒன்று வேண்டும்.” எச்சரிக்கையாக இருக்க வேண்டியவை: இலவச Colab உங்களை கட்டுப்படுத்துகிறது. பயிற்சி நேர வரம்புக்குள் முடியலாம் அல்லது throttled ஆகலாம். சீக்கிரம் checkpoints ஐ சேமிக்கவும்.

சரி, ஆனால் LLaMA-Factory உண்மையில் எனக்காக என்ன செய்கிறது? LLaMA-Factory ஐ fine-tuning இன் IKEA என்று நினைத்துப் பாருங்கள்: இது உங்களுக்கு எல்லா பாகங்களையும் தருகிறது, அவற்றில் பெரும்பாலானவற்றைக் குறிக்கிறது, மேலும் ஒரு சிறிய ஆலன் சாவியைக் (WebUI) கொடுக்கிறது, இதன் மூலம் நீங்கள் உங்களுடைய சொந்தமாக ஒரு LLM ஐ உருவாக்கிக் கொள்ளலாம். இது பயமுறுத்தும் பிட்களை - QLoRA quantization, அடாப்டர்கள், டோக்கனைசர்கள் - முன்னமைவுகள் மற்றும் நியாயமான டீஃபால்ட்களுக்குப் பின்னால் மறைக்கிறது. நீங்கள் இன்னும் ஒரு dataset மற்றும் நல்ல பழக்கவழக்கங்களைக் கொண்ட ஒரு GPU ஐ கொண்டு வர வேண்டும், ஆனால் நீங்கள் பச்சையான மரங்களிலிருந்து சோபாவை உருவாக்க வேண்டியதில்லை.

உங்கள் பயன்பாட்டிற்கான சரியான பயிற்சியை எவ்வாறு தேர்வு செய்வது

நான் என் வாழ்க்கையில் எதையும் fine-tune செய்ததில்லை: DataCamp WebUI வழிகாட்டியுடன் தொடங்கவும், பின்னர் யூடியூப் walkthrough ஐப் பார்க்கவும். ஒன்று எதைக் கிளிக் செய்வது என்று காட்டுகிறது, மற்றொன்று அது உண்மையில் வேலை செய்யும் போது எப்படி இருக்கும் (மற்றும் எங்கு அழகாகத் தோல்வியடைகிறது) என்பதைக் காட்டுகிறது.

எனக்கு ஒரு பட்ஜெட்டில் விரைவான POC தேவை: Colab பயிற்சியைப் பயன்படுத்தவும். உங்கள் dataset ஐ சிறியதாக வைத்து, உங்கள் எதிர்பார்ப்புகளைக் குறைக்கவும். பின்னர் அடாப்டரை ஏற்றுமதி செய்து உங்கள் உள்ளூர் மெஷினில் அல்லது மலிவான கிளவுட்டில் டெஸ்ட் செய்யவும்.

ஒரு பணிநிலையம் அல்லது கிளவுட் GPU இல் இதை "சரியாக" செய்ய நான் விரும்புகிறேன்: கருத்துக்களை அறிய WebUI பயிற்சியுடன் தொடங்கவும், பின்னர் CLI க்கு மாறவும், இதன் மூலம் நீங்கள் ஸ்கிரிப்ட் சோதனைகளைச் செய்து ஒரு நிபுணரைப் போல ரன்களைக் கண்காணிக்க முடியும். உங்கள் VRAM வளைந்து கொடுக்கவில்லை என்றால் 4-பிட் திறன் QLoRA இல் கலக்கவும்.

ஐந்து நிமிட கிராஷ் கோர்ஸ்: LLaMA-Factory அடிப்படைகள்

WebUI vs. CLI: WebUI கற்றுக்கொள்வதற்கு வேகமானது, முதல் ரன்கள் மற்றும் மன அமைதி சோதனைகளுக்கு சிறந்தது. CLI என்பது உங்கள் ட்ராக்பேட் அழாமல் தொகுத்தல், தானியக்கமாக்குதல் மற்றும் பதிப்பு சோதனைகள் செய்வது எப்படி.

LoRA vs. QLoRA: LoRA இலகுரக அடாப்டர் லேயர்களைச் சேர்க்கிறது - வேகமானது மற்றும் திறமையானது. QLoRA quantization ஐச் சேர்க்கிறது, எனவே நீங்கள் சிறிய GPU களில் பெரிய மாதிரிகளை fine-tune செய்ய முடியும். இது பயிற்சியின் IKEA பேக்-ஃப்ளாட் பதிப்பு.

Datasets: அதை இறுக்கமாகவும் சுத்தமாகவும் வைத்திருங்கள். உங்கள் dataset உங்கள் கல்லூரி கட்டுரை வரைவுகளைப் போல் இருந்தால், உங்கள் மாதிரியும் அவ்வாறே இருக்கும்.

Checkpoints மற்றும் மதிப்பீடு: அடிக்கடி சேமிக்கவும். ஆரம்பத்தில் மதிப்பீடு செய்யுங்கள். ஆம், உங்கள் மாதிரி "கற்றுக் கொள்கிறது", ஆனால் நீங்கள் நினைப்பதைத்தான் கற்கிறதா? மார்க்கர்களுடன் இருக்கும் குழந்தையைப் போலவே, மேற்பார்வை முக்கியமானது.

ஒரு Stern-style மினி அமைப்பு வழிகாட்டி (எந்த பயிற்சியுடனும் பயன்படுத்த)

உங்கள் மாதிரியைத் தேர்ந்தெடுக்கவும்: Llama 3 8B ஒரு நட்புரீதியான தொடக்கம். சிறியதாக வேண்டுமா? பயிற்சி வலியை குறைக்க instruction-tuned 7–8B வேரியண்ட்டை முயற்சிக்கவும்.

உங்கள் பட்ஜெட்டைத் தீர்மானிக்கவும்: 16GB VRAMக்கு கீழ் இருக்கிறதா? QLoRA க்கு செல்லவும். சுமார் 24GB இருக்கிறதா? LoRA வசதியாக இருக்கும். 48GB+ இருக்கிறதா? நீங்கள் விரும்பத்தக்கவர்; நீங்கள் என்ன செய்கிறீர்கள் என்று தெரிந்தால் பெரிய சூழல் விண்டோஸ் அல்லது முழு finetunes ஐ கருத்தில் கொள்ளுங்கள்.

தரவைத் தயார் செய்யவும்: JSON அல்லது CSV ஐ தெளிவான prompt/response புலங்களுடன் பயன்படுத்தவும். அளவிடுவதற்கு முன் 2–10K உயர்தர எடுத்துக்காட்டுகளுடன் தொடங்கவும்.

உங்கள் பாதையைத் தேர்வுசெய்க: WebUI (எளிதானது) அல்லது CLI (அளவிடுகிறது). மேலே உள்ள பயிற்சிகள் இரண்டு பாணிகளையும் காட்டுகின்றன: யூடியூப் மற்றும் DataCamp வழிகாட்டிகள் WebUI ஐ நோக்கி சாய்ந்துள்ளன; மீடியம் துண்டு நோட்புக்/CLI ஹைப்ரிட்டை நோக்கி சாய்ந்துள்ளது.

சாமர்த்தியமாக பயிற்சி செய்யுங்கள்: சிறியதாகத் தொடங்கவும் - சில epochs, அதிக கற்றல் விகிதம், சிறிய துணைக்குழு. 10–20 நிமிடங்களில் முன்னேற்றம் இல்லையென்றால், ஏதாவது மாற்றி மீண்டும் முயற்சிக்கவும். கண்மூடித்தனமான நம்பிக்கையைவிட மறு செய்கை சிறந்தது.

சந்தேகவாதியைப் போல மதிப்பீடு செய்யுங்கள்: உண்மையான பயன்பாட்டை பிரதிபலிக்கும் 50–100 எடுத்துக்காட்டுகளுடன் கூடிய டெஸ்ட் செட்டை உருவாக்கவும். கடினமான கேள்விகளைக் கேளுங்கள். உண்மைக்கு வெகுமதி அளியுங்கள், சொற்செறிவுக்கு அல்ல.

சிறந்த பயிற்சிகளை தரவரிசைப்படுத்துதல் (மற்றும் ஏன்)

DataCamp இன் LLaMA-Factory WebUI வழிகாட்டி - சிறந்த ஒட்டுமொத்த எழுதப்பட்ட walkthrough

ஏன் இது சிறந்தது: இது சமீபத்தியது, இது Llama 3 ஐப் பயன்படுத்துகிறது, மேலும் இது உங்களை கோட்பாட்டில் புதைக்காது. இது நீங்கள் உண்மையில் விரும்பும் "ஆலன் சாவியுடன் இதை அசெம்பிள் செய்யுங்கள்" பாடம்.

யார் இதைப் பயன்படுத்த வேண்டும்: fine-tuning அல்லது WebUI க்கு புதியவர்கள். இது உண்மையான வெளியீட்டுடன் கூடிய நம்பிக்கையை அதிகரிக்கும்.

யூடியூப் எண்ட்-டு-எண்ட் (End-to-End) வீடியோ - சிறந்த காட்சி அறிமுகம் மற்றும் வேகத்தை அதிகரித்தல்

ஏன் இது சிறந்தது: நீங்கள் ஓட்டம், வேகம் மற்றும் பிழைகளைப் பார்க்கிறீர்கள். நீங்கள் செய்வதற்கு முன்பு திரையில் ஒரு நண்பர் கிளிக் செய்வதைப் போன்றது.

யார் இதைப் பயன்படுத்த வேண்டும்: காட்சி கற்பவர்கள், பொறுமை இல்லாத பில்டர்கள், வார இறுதி நாட்களில் டிங்கர் செய்பவர்கள்.

மீடியம் இன் Colab வழிகாட்டி - ஜீரோ-இன்ஸ்டால் சோதனைகளுக்கு சிறந்தது

ஏன் இது சிறந்தது: உங்கள் லேப்டாப்பில் PyTorch வீல்ஸ் உடன் நீங்கள் போராட வேண்டியதில்லை. இயக்கவும், பார்க்கவும், ஏற்றுமதி செய்யவும்.

யார் இதைப் பயன்படுத்த வேண்டும்: நீரின் ஆழத்தை அளவிடுபவர்கள் அல்லது உள்ளூர் CUDA நாடகத்தைத் தவிர்ப்பவர்கள்.

இந்த பயிற்சிகள் எதை தவற விடுகின்றன (மற்றும் இடைவெளிகளை எவ்வாறு நிரப்புவது)

பதிப்பு பினிங் (version pinning): கருவி வேகமாக நகர்கிறது. உங்கள் ரன் உடைந்தால், பயிற்சியில் பயன்படுத்தப்பட்ட LLaMA-Factory பதிப்பையும் நீங்கள் நிறுவியதையும் சரிபார்க்கவும். அவற்றை பொருத்தவும், அல்லது ரெப்போ சேஞ்ச்லாக்கை ஒரு பிளாட் ட்விஸ்டைப் போல படிக்கவும்.

டோக்கனைசர் பொருந்தவில்லை: பதில்கள் எழுத்து சூப் போல இருந்தால், டோக்கனைசர் அடிப்படை மாதிரியுடன் பொருந்துகிறதா என்பதை சரிபார்க்கவும். தவறான வசன வரிகளுடன் ஆடியோபுக்கைப் படிக்க முயற்சிப்பது போன்றது இது.

VRAM பட்ஜெட்: பயிற்சிகள் பெரும்பாலும் “நான் அதை எப்படி செய்தேன் என்பது இங்கே" என்று காட்டுகின்றன, “அதை எப்படி அளவிடுவது என்பது இங்கே இல்லை”. உங்களுக்கு CUDA அவுட்-ஆஃப்-மெமரி பிழைகள் ஏற்பட்டால், தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கைப் பயன்படுத்தவும், 4-பிட் QLoRA வை இயக்கவும். உங்கள் GPU உங்களுக்கு நன்றி சொல்லும்.

உங்கள் முதல் fine-tune: நீங்கள் உண்மையில் திருடக்கூடிய ஒரு டெம்ப்ளேட் திட்டம்

குறிக்கோள்: வாடிக்கையாளர் ஆதரவு பாணி சாட்பாட்டுக்காக QLoRA உடன் Llama 3 8B ஐ Fine-tune செய்யவும்.

வன்பொருள்: 16GB GPU (ஆமாம், உண்மையில்), அல்லது ஒரு கிளவுட் T4/A10G/A100, நீங்கள் அதிகமாக வாங்க முடிந்தால்.

தரவு: உங்கள் களத்திலிருந்து 5,000 க்யூரேட்டட் Q&A ஜோடிகள். சுத்தமான, நிலையான பாணி. நகல்கள் இல்லை. 500 ஐ வேலிடேஷனுக்காக அர்ப்பணிக்கவும்.

படிகள்:

சூழல் மற்றும் UI இயங்குவதற்கு DataCamp WebUI பயிற்சியைப் பின்பற்றவும்.

பயிற்சி அமைப்புகளின் கீழ், தேர்ந்தெடுக்கவும்: அடிப்படை மாதிரி = Llama 3 8B பயிற்றுவிக்கவும்; முறை = QLoRA; 4-பிட்டில் ஏற்றவும்; தொகுதி அளவு சிறியது (1–2); பெரிய தொகுதிகளை உருவகப்படுத்த கிரேடியண்ட் திரட்சி; 1–2 epochs.

10% தரவு துணைக்குழுவுடன் தொடங்கவும். நஷ்டம் இறங்கி சரிபார்ப்பு அர்த்தமுள்ளதாக இருந்தால், முழு தொகுப்பிற்கும் செல்லவும்.

அடாப்டரை ஏற்றுமதி செய்து ஒரு அனுமான ஸ்கிரிப்டில் டெஸ்ட் செய்யவும். பதில்கள் மிகவும் நீளமாக இருந்தால், சிஸ்டம் பிராம்ப்ட்களை ட்வீக் செய்து வெப்பநிலையை குறைக்கவும்.

மீண்டும் மீண்டும் செய்யவும்: கற்றல் விகிதம், epoch எண்ணிக்கையை டயல் செய்து, குறைந்த தரம் வாய்ந்த எடுத்துக்காட்டுகளை வெட்டுங்கள்.

வெற்றிச் சரிபார்ப்பு: உங்கள் மாதிரி டொமைன் கேள்விகளுக்கு சுருக்கமாகப் பதிலளிக்கிறது, சரியான சொற்களைக் குறிப்பிடுகிறது மற்றும் கொள்கைகளை கண்டுபிடிக்கவில்லை. இது உங்கள் கிரியேட்டிவ் ரைட்டிங் இன்டர்னாக இருந்தால், நீங்கள் ஓவர்ஃபிட் செய்துவிட்டீர்கள் அல்லது அண்டர்-கிளீன் செய்துவிட்டீர்கள்.

GPU இல் சிக்கல் இருக்கிறதா? இவற்றை முயற்சிக்கவும்

"CUDA OOM": தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கை இயக்கவும் அல்லது 4-பிட் பயன்படுத்தவும். நீங்கள் இன்னும் சிக்கிக்கொண்டால், சிறிய மாதிரியாக மாற்றவும் அல்லது இறுதி epoch க்கு பெரிய GPU ஐ வாடகைக்கு எடுக்கவும்.

"நஷ்டம் நகரவில்லை": மோசமான தரவு அல்லது மிகவும் சிறியது. தரவு வகையை அதிகரிக்கவும், கற்றல் விகிதத்தைக் குறைக்கவும் அல்லது உங்கள் LoRA தரவரிசைகள் மிகவும் சிறியதாக இருக்கிறதா என்று சரிபார்க்கவும்.

"வெளியீடுகள் முரட்டுத்தனமாக/வித்தியாசமாக உள்ளன": அறிவுறுத்தல்-சரிசெய்யப்பட்ட அடிப்படை மாதிரிகள் மற்றும் உங்கள் dataset இல் நிலையான பதில் வடிவம் மூலம் பாணியை சீரமைக்கவும். மாதிரிகள் அவர்கள் பார்ப்பதை பிரதிபலிக்கின்றன - நீங்கள் நினைப்பதை பயிற்சி செய்யுங்கள்.

Deployment: ஆய்வகத்திலிருந்து லேப்டாப்பிற்கு (மற்றும் அதற்கு அப்பால்)

தேவைப்பட்டால் LoRA அடாப்டர்களை ஏற்றுமதி செய்து இணைக்கவும். எட்ஜ் சாதனங்களுக்கு, பெயர்வுத்திறனுக்காக அடாப்டர்களை தனித்தனியாக வைக்கவும். சேவையகங்களுக்கு, எளிமை மற்றும் வேகத்திற்காக இணைக்கவும்.

அனுமானத்திற்காக குவாண்டைஸ் செய்யவும். நீங்கள் 4-பிட்டில் பயிற்சி அளித்திருந்தால், தாமதம் மற்றும் நம்பகத்தன்மையை சமப்படுத்த 4-, 5- மற்றும் 8-பிட் அனுமானத்தை டெஸ்ட் செய்யவும்.

கார்ட்ரெயில்களை சேர்க்கவும். எடுத்துக்காட்டுகளுடன் கூடிய ஒரு எளிய ப்ராம்ப்ட் ரேப்பர் அற்புதங்களைச் செய்கிறது. அல்லது உங்கள் பயனர்களை தாக்குவதற்கு முன் அர்த்தமற்றதை வடிகட்டும் ஒரு சிறிய ரூல்செட் செக்கர் மாதிரியைப் பயன்படுத்தவும்.

WebUI அல்லது CLI ஐ நீண்ட காலத்திற்கு எடுக்க வேண்டுமா?

WebUI என்பது உங்களுக்கு பிடித்த காபி கடை: வசதியான, விரைவான, குறைந்த உராய்வு.

CLI என்பது உங்கள் வீட்டு சமையலறை: அதிக குமிழ்கள், அதிக குழப்பம், அதிக கட்டுப்பாடு. நீங்கள் வாரந்தோறும் fine-tuning செய்தால், இறுதியில் உங்களுக்கு ஸ்கிரிப்ட்கள், பரிசோதனை டிராக்கர்கள் மற்றும் மீண்டும் உருவாக்கக்கூடிய configs தேவைப்படும். WebUI இல் தொடங்கி CLI க்கு செல்லவும்.

குறிப்பிடத்தக்கது: Sider.AI “இதை எனக்கு என் மூன்றாவது எஸ்பிரெசோவில் இருப்பது போல் விளக்கு” தருணங்களுக்கு உதவும். உங்கள் கான்பிக் அல்லது லாக்களை Sider.AI சாட்டில் ஒட்டினால், சரிசெய்ய வேண்டிய அளவுருக்களுக்கான விரைவான பரிந்துரைகள், நீங்கள் தவறவிட்ட பயிற்சி படி மற்றும் தவறான கற்றல் விகிதத்தில் இரண்டு மணி நேரம் செலவழிப்பதற்கு முன் ஒரு மன அமைதி சோதனையைப் பெறலாம். இது உங்களை மதிப்பிடாத ஒரு நட்பு TA வைப் போன்றது - உங்களை வேகமாக இயக்குகிறது.

விரைவான ஒப்பீடு: எந்த பயிற்சி எந்த வேலைக்கு வெற்றி பெறுகிறது

மொத்த ஆரம்பநிலையாளர்களுக்குச் சிறந்தது: DataCamp இன் WebUI வழிகாட்டி (தெளிவான படிகள், நவீன மாதிரிகள்).

"இப்போதே எனக்கு காட்டு" என்பதற்கு சிறந்தது: யூடியூப் எண்ட்-டு-எண்ட் (End-to-End) (காட்சி ஓட்டம், கிளிக்குகளை நகலெடுக்கவும்).

நிறுவல் இல்லாத சோதனைகளுக்கு சிறந்தது: மீடியம் இன் Colab வழிகாட்டி (வேகமாக இயக்கவும், குறைவாக செலவிடவும்).

மேம்பட்ட ஆட்-ஆன்கள் (நீங்கள் சமன் செய்ய தயாராக இருக்கும்போது)

LoRA க்கு அப்பால் PEFT அடாப்டர்கள்: வெவ்வேறு தரவரிசைகள் மற்றும் ஆல்பாக்களை முயற்சிக்கவும். சிறிய மாற்றங்கள், பெரிய விளைவுகள்.

பாடத்திட்ட fine-tuning: பொது அறிவுறுத்தல் தரவுகளுடன் தொடங்கி, பின்னர் குறுகிய டொமைன் தரவுக்கு செல்லவும்.

கலவையான துல்லியம் மற்றும் மெமரி தந்திரங்கள்: bf16 ஆதரிக்கப்பட்டால்; ஃபிளாஷ் கவனம்; உங்கள் GPU ஐ சுத்தமாக்குங்கள்.

மதிப்பீட்டு சூட்கள்: தனிப்பயன் ஈவல் செட் மற்றும் சில பொது பணிகளை உருவாக்குங்கள். உங்கள் வால் செட் மற்றும் டொமைன் செட்டுக்கு வெளியே ஒரு சிறிய இடைவெளிக்கு இடையில் வேறுபாட்டை கண்காணிப்பதன் மூலம் ஓவர்ஃபிட்டிங்கைக் கண்காணிக்கவும்.

ஒரு சிறிய சொற்களஞ்சியம், எனவே நீங்கள் தலையை ஆட்டி நடிக்க வேண்டியதில்லை

LoRA: முழு பெரிய மாதிரியைப் பயிற்றுவிப்பதற்கு பதிலாக நீங்கள் பயிற்றுவிக்கும் இலகுரக அடாப்டர் லேயர்கள். நேரம் மற்றும் VRAM ஐ சேமிக்கிறது.

QLoRA: LoRA வைப் போன்றது, ஆனால் அடிப்படை எடைகள் பயிற்சியின் போது சுருக்கப்படுகின்றன (குவாண்டைஸ்டு). ஹலோ, 4-பிட்.

அடாப்டர் இணைத்தல்: எளிய Deploymentக்காக அடாப்டர் எடைகளை அடிப்படை மாதிரியுடன் இணைக்கவும்.

டோக்கனைசர்: வாக்கியங்களை டோக்கன்களாக வெட்டுவது. தவறான டோக்கனைசர் = கலக்கப்பட்ட முட்டைகள்.

என் கருத்து: எந்த பயிற்சியுடன் தொடங்க வேண்டும்? உங்கள் குறிக்கோள் முதல் வெற்றிக்கு வேகம் என்றால், DataCamp உடன் தொடங்கவும். அதை யூடியூப் walkthrough உடன் இணைக்கவும் - பாருங்கள், கிளிக் செய்யுங்கள், வெற்றி பெறுங்கள். பின்னர், உங்கள் இரண்டாவது ரன்னுக்கு, மற்றொரு பாதையைப் பார்க்க Colab வழிகாட்டியை சுழற்றுங்கள். ஒரு பெரிய நூலை படிப்பதன் மூலம் இரண்டு சிறிய ரன்களை செய்வதன் மூலம் நீங்கள் அதிகம் கற்றுக்கொள்வீர்கள். உங்கள் GPU HR உடன் புகார் அளிக்காது.

Stern முடிவுரை: Fine-tuning இப்போது முற்றிலும் சாத்தியமானது. LLaMA-Factory “நம்பிக்கை இழக்கும் குன்றை” கைப்பிடிகள் கொண்ட ஒரு படிக்கட்டாக மாற்றியது. ஒரு பயிற்சியைத் தேர்ந்தெடுத்து, சிறியதாகத் தொடங்கி, மீண்டும் மீண்டும் செய்யவும். உங்கள் எதிர்கால fine-tune மாதிரி உங்கள் பணத்தைத் திரும்பப்பெறும் கொள்கையைப் பற்றி கற்பனையாகக் கூறாமல் உங்களுக்கு நன்றி சொல்லும்.

நீங்கள் உண்மையில் பயன்படுத்தும் இணைப்புகள்

யூடியூப்: எண்ட்-டு-எண்ட் LLaMA-Factory fine-tune walkthrough.

DataCamp: LLaMA-Factory WebUI ஆரம்பநிலை வழிகாட்டி.

மீடியம்: Colab அடிப்படையிலான LLaMA-Factory விரைவு தொடக்கம்.

90 வினாடிகளில் செயல் திட்டம்

DataCamp வழிகாட்டியைத் தேர்ந்தெடுத்து WebUI ஐ அமைக்கவும்.

ஒரு சிறிய தரவுத்தொகுப்பை தயார் செய்யவும் (500–1,000 ஜோடிகள்). அதை சுத்தமாக வைத்திருங்கள்.

QLoRA, 4-பிட், சிறிய தொகுதிகளுடன் பயிற்சி அளிக்கவும்.

100 கையால் எடுக்கப்பட்ட கேள்விகளில் மதிப்பீடு செய்யவும்.

இரண்டு அல்லது மூன்று முறை மீண்டும் செய்யவும். பின்னர் நீண்ட ரன்கள் மற்றும் பெரிய தரவுக்கு செல்லவும்.

இப்போது பயனுள்ள ஒன்றை fine-tune செய்யுங்கள். உங்கள் GPU கத்தினால், அது "தொகுதி அளவைக் குறை" என்று சொல்கிறது என்பதை நினைவில் கொள்ளுங்கள்.

அடிக்கடி கேட்கப்படும் கேள்விகள்

Q1:உண்மையான ஆரம்பநிலையாளர்களுக்கான சிறந்த LLaMA-Factory பயிற்சி எது? DataCamp இலிருந்து LLaMA-Factory WebUI வழிகாட்டியுடன் தொடங்கவும் - இது தெளிவாகவும், நடப்பு நிகழ்வாகவும் உள்ளது, மேலும் Llama 3 ஐப் பயன்படுத்துகிறது. ஒரு காட்சி மன அமைதிச் சோதனைக்காக யூடியூப் எண்ட்-டு-எண்ட் walkthrough உடன் இணைக்கவும், இதன் மூலம் நீங்கள் பயிற்சி கிளிக் செய்வதற்கு முன் வெற்றி எப்படி இருக்கும் என்பதை அறிந்து கொள்வீர்கள்.

Q2:நான் Google Colab இல் LLaMA-Factory மாதிரிகளை fine-tune செய்யலாமா? ஆம், Colab அடிப்படையிலான பயிற்சி LLaMA-Factory fine-tuning ஐ ஆச்சரியப்படும் விதமாக வலியற்றதாக ஆக்குகிறது. உங்கள் அமர்வு நேரம் மற்றும் VRAM வரம்புகளைப் பாருங்கள், அடிக்கடி checkpoints ஐ சேமிக்கவும், மேலும் உங்கள் முதல் ரன்னுக்கு தரவுத்தொகுப்புகளை சிறியதாக வைக்கவும்.

Q3:LLaMA-Factory உடன் LoRA அல்லது QLoRA ஐப் பயன்படுத்த வேண்டுமா? நீங்கள் VRAM இல் குறைவாக இருந்தால், QLoRA தான் உங்கள் நண்பர் - 4-பிட் பயிற்சி, சிறிய மெமரி அடிச்சுவடு. உங்களிடம் அதிக GPU ஹெட்ரூம் இருந்தால், நிலையான LoRA எளிமையானது மற்றும் fine-tuning க்கு மிகவும் திறமையானது.

Q4:பயிற்சியின் போது CUDA அவுட்-ஆஃப்-மெமரி பிழைகளை நான் எவ்வாறு சரிசெய்வது? உங்கள் தொகுதி அளவைக் குறைக்கவும், கிரேடியண்ட் செக் பாயிண்டிங்கை இயக்கவும், 4-பிட் QLoRA வைப் பயன்படுத்தவும். அது இன்னும் தோல்வியுற்றால், சிறிய அடிப்படை மாதிரியை முயற்சிக்கவும் அல்லது கனமான படிக்கு அதிக VRAM உடன் GPU ஐ வாடகைக்கு எடுக்கவும்.

Q5:என் LLaMA-Factory fine-tune உண்மையில் வேலை செய்ததா என்று எனக்கு எப்படித் தெரியும்? ஒரு சிறிய, யதார்த்தமான மதிப்பீட்டு செட்டை உருவாக்கவும், fine-tuning க்கு முன்னும் பின்னும் வெளியீடுகளை ஒப்பிடவும். உங்கள் மாதிரி வேகமாக பதிலளித்தால், மிகவும் துல்லியமாக, மேலும் உங்கள் நிறுவனத்தின் விடுமுறை கொள்கையைப் பற்றி கற்பனையாகக் கூறாவிட்டால், நீங்கள் சரியான பாதையில் இருக்கிறீர்கள்.