What’s the best LLaMA-Factory tutorial for true beginners?

Start with the LLaMA-Factory WebUI guide from DataCamp—it’s clear, current, and uses Llama 3. Pair it with the YouTube end-to-end walkthrough for a visual sanity check so you know what success looks like before you click train.

Can I fine-tune LLaMA-Factory models on Google Colab?

Yes, the Colab-based tutorial makes LLaMA-Factory fine-tuning surprisingly painless. Just watch your session time and VRAM limits, save checkpoints often, and keep datasets small for your first run.

Should I use LoRA or QLoRA with LLaMA-Factory?

If you’re limited on VRAM, QLoRA is your friend—4-bit training, smaller memory footprint. If you’ve got more GPU headroom, standard LoRA is simpler and still very efficient for fine-tuning.

How do I fix CUDA out-of-memory errors during training?

Lower your batch size, turn on gradient checkpointing, and use 4-bit QLoRA. If that still fails, try a smaller base model or rent a GPU with more VRAM for the heaviest step.

How do I know if my LLaMA-Factory fine-tune actually worked?

Build a small, realistic evaluation set and compare outputs before and after fine-tuning. If your model answers faster, more accurately, and doesn’t hallucinate your company’s vacation policy, you’re on the right track.

บทช่วยสอน LLaMA-Factory ที่ดีที่สุด: ฉันปรับแต่งมาให้แล้ว คุณไม่ต้องทำ

เคยพยายามทำให้ Large Language Model หยุดสร้างเรื่องที่ไม่จริง และเริ่มทำตัวเหมือนผู้ช่วยที่เฉพาะเจาะจงและได้รับค่าตอบแทนน้อยของคุณไหม นั่นคือสิ่งที่การ Fine-tune ในปี 2025 ให้ความรู้สึก: เหมือนการเลี้ยงลูก แต่มี YAML มากกว่า ข่าวดี: ทำให้เรื่องทั้งหมดนั้น...ไม่แย่อย่างน่าประหลาดใจ ข่าวที่ดียิ่งกว่า: ฉันใช้เวลาหนึ่งสัปดาห์สะดุดกับ Adapters และ Tokenizers เพื่อค้นหา ที่ดีที่สุด เพื่อให้คุณไม่ต้องทำ

นี่คือคู่มือที่ไม่ BS สไตล์ Joanna เกี่ยวกับแหล่งข้อมูลที่ดีที่สุด เมื่อใดควรใช้แต่ละแหล่ง และวิธีหลีกเลี่ยงช่วงเวลาหน้าผากชน 3 อย่างที่พบบ่อยที่สุด (สปอยล์: VRAM ไม่ใช่ข้อเสนอแนะ แต่มันคืองบประมาณ)

ทำไมคุณถึงมาที่นี่ (และสิ่งที่คุณต้องการจริงๆ)

คุณต้องการ Fine-tune โมเดล หรือ โดยไม่ต้องเขียนวิทยานิพนธ์เกี่ยวกับการฝึกอบรมแบบกระจาย

คุณเคยได้ยินว่า มี WebUI และ CLI และแม้แต่เวทมนตร์ของ

คุณต้องการบทช่วยสอนที่ไม่สมมติว่าคุณอาศัยอยู่ภายในฟาร์ม GPU บนคลาวด์

นี่คือรายการ Best/Top พร้อมคำแนะนำเชิงปฏิบัติ ฉันจัดอันดับบทช่วยสอนตามความชัดเจน ความทันสมัย (, , 4-bit, เวิร์กโฟลว์ WebUI) และไม่ว่าพวกเขาจะพาคุณจากศูนย์ไปสู่ "โมเดลของฉันทำงานได้จริง" หรือไม่ ไปกันเลย

รายการสั้น: บทช่วยสอน ที่ดีที่สุดในตอนนี้

คอร์สเร่งรัด สำหรับผู้เรียนรู้ด้วยภาพ (และคนใจร้อน)

"ใครๆ ก็ Fine Tune LLMs ได้โดยใช้ " บน หากช่วงความสนใจของคุณคือ และงบประมาณ GPU ของคุณคือ กาแฟ นี่คือบทช่วยสอนสำหรับคุณ มันจะแนะนำคุณตลอดการตั้งค่า การเตรียมข้อมูล และการรันแบบ end-to-end ในโฟลว์ เป็นมิตรกับผู้เริ่มต้น แสดง WebUI และครอบคลุมปุ่มที่จะคลิกและเหตุผล เหมาะสำหรับการดูขั้นตอนการทำงานจริง และหยุดทุกๆ 12 วินาทีเพื่อคัดลอกคำสั่ง

เหมาะที่สุดสำหรับ: ผู้เรียนรู้ด้วยภาพ โปรเจ็กต์สุดสัปดาห์ "แสดงให้ฉันเห็นว่ามันทำงานอย่างไร" ระวัง: เวอร์ชันและแฟล็กที่แน่นอนอาจมีการเปลี่ยนแปลง ตรวจสอบค่าเริ่มต้นของ repo อีกครั้งหากคุณพบข้อผิดพลาด

คู่มือ WebUI แบบทีละขั้นตอนสำหรับผู้ที่ Fine-tune เป็นครั้งแรก

"" จาก นี่คือบทแนะนำที่เป็นลายลักษณ์อักษรที่ชัดเจน: ติดตั้ง โหลด เลือก หรือ ป้อนชุดข้อมูล ฝึกฝน ประเมิน ส่งออก คุณจะได้รับภาพหน้าจอ การกำหนดค่า และบริบท หากคุณเคยถูก CLI ตะโกนใส่ นี่ให้ความรู้สึกเหมือนหูฟังตัดเสียงรบกวน

เหมาะที่สุดสำหรับ: ผู้เริ่มต้น ผู้ที่ต้องการโครงสร้าง ใครก็ตามที่แพ้ docker-compose confetti ระวัง: การตั้งค่าคลาวด์และความต้องการ VRAM ไม่ได้เหมาะกับทุกคน คาดว่าจะมีการปรับเปลี่ยนหากคุณไม่ได้ใช้ฮาร์ดแวร์เดียวกัน

สูตรเริ่มต้นอย่างรวดเร็วที่เป็นมิตรกับ

"" บน เป็นบทช่วยสอนเชิงปฏิบัติที่ใช้ ซึ่งใช้ กับ เหมาะถ้าคุณต้องการหลีกเลี่ยงการติดตั้งในเครื่อง และเพียงแค่ทดลองขับด้วยเวลา GPU ฟรี/ราคาถูก คัดลอกโน้ตบุ๊ก เปลี่ยนเส้นทางชุดข้อมูล แล้วบูม: ลูกโมเดลตัวแรกของคุณก็ถือกำเนิดขึ้น มันมีอคติในทางที่ดี: , และความยุ่งยากน้อยที่สุด

เหมาะที่สุดสำหรับ: ผู้ใช้ Colab ผู้สำรวจ GPU ที่มีงบประมาณจำกัด "ฉันแค่ต้องการให้บางสิ่งทำงานได้ภายในหนึ่งชั่วโมง" ระวัง: ข้อจำกัด Colab ฟรีจำกัดคุณ การฝึกอบรมอาจหมดเวลาหรือถูกควบคุม บันทึก Checkpoints แต่เนิ่นๆ และบ่อยๆ

โอเค แต่จริงๆ แล้ว LLaMA-Factory ทำอะไรให้ฉัน คิดว่า LLaMA-Factory เป็นเหมือน IKEA ของการ Fine-tuning: มันให้ชิ้นส่วนทั้งหมดแก่คุณ ติดป้ายกำกับส่วนใหญ่ และส่งมอบ Allen key เล็กๆ (WebUI) ให้คุณ เพื่อให้คุณสามารถประกอบ LLM ที่กำหนดค่าอย่างสุภาพของคุณเองได้ มันทำให้บิตที่น่ากลัวน้อยลง QLoRA quantization, adapters, tokenizers ที่อยู่เบื้องหลังค่าที่ตั้งไว้ล่วงหน้าและค่าเริ่มต้นที่สมเหตุสมผล คุณยังคงต้องนำชุดข้อมูลและ GPU ที่มีมารยาทมาด้วย แต่คุณไม่จำเป็นต้องสร้างโซฟาจากต้นไม้ดิบ

วิธีเลือกบทช่วยสอนที่เหมาะสมสำหรับกรณีการใช้งานของคุณ

ฉันไม่เคย Fine-tune อะไรเลยในชีวิต: เริ่มต้นด้วยคู่มือ WebUI ของ จากนั้นดูวิดีโอแนะนำของ หนึ่งแสดงให้คุณเห็นว่าจะคลิกอะไร อีกอันแสดงให้คุณเห็นว่ามันมีลักษณะอย่างไรเมื่อมันทำงานจริง (และที่ที่มันล้มเหลวอย่างสง่างาม)

ฉันแค่ต้องการ POC อย่างรวดเร็วด้วยงบประมาณที่จำกัด: ใช้บทช่วยสอน ทำให้ชุดข้อมูลของคุณมีขนาดเล็กและความคาดหวังของคุณเล็กลง จากนั้นส่งออก Adapter และทดสอบบนเครื่องในเครื่องของคุณหรือคลาวด์ราคาถูก

ฉันต้องการทำสิ่งนี้ "ถูกต้อง" บนเวิร์กสเตชันหรือ GPU บนคลาวด์: เริ่มต้นด้วยบทช่วยสอน WebUI เพื่อเรียนรู้แนวคิด จากนั้นย้ายไปที่ CLI เพื่อให้คุณสามารถเขียนสคริปต์การทดลองและติดตามการรันอย่างมืออาชีพ ผสมผสาน QLoRA เพื่อประสิทธิภาพ 4-bit หาก VRAM ของคุณไม่ได้งอ

คอร์สเร่งรัดห้านาที: สาระสำคัญของ

WebUI vs. CLI: WebUI เรียนรู้ได้เร็วกว่า เหมาะสำหรับการรันครั้งแรกและการตรวจสอบความถูกต้อง CLI คือวิธีที่คุณจัดกลุ่ม ทำให้เป็นอัตโนมัติ และทำเวอร์ชันการทดลองโดยที่แทร็กแพดของคุณไม่ร้องไห้

LoRA vs. QLoRA: LoRA เพิ่มเลเยอร์ Adapter ที่มีน้ำหนักเบา รวดเร็วและมีประสิทธิภาพ QLoRA เพิ่ม quantization เพื่อให้คุณสามารถ Fine-tune โมเดลขนาดใหญ่บน GPU ขนาดเล็กได้ มันคือเวอร์ชันแพ็คแบนของ IKEA ของการฝึกอบรม

ชุดข้อมูล: ทำให้กระชับและสะอาด หากชุดข้อมูลของคุณมีลักษณะเหมือนร่างเรียงความในวิทยาลัยของคุณ โมเดลของคุณก็จะเป็นเช่นนั้น

Checkpoints และการประเมิน: บันทึกบ่อยๆ ประเมินแต่เนิ่นๆ ใช่ โมเดลของคุณกำลัง "เรียนรู้" แต่มันกำลังเรียนรู้สิ่งที่คุณคิดหรือไม่ เหมือนเด็กวัยหัดเดินที่มีปากกา มาร์กเกอร์ การกำกับดูแลเป็นสิ่งสำคัญ

คู่มือการตั้งค่าขนาดเล็กสไตล์ Stern (เพื่อใช้กับบทช่วยสอนใดๆ)

เลือกโมเดลของคุณ: เป็นจุดเริ่มต้นที่เป็นมิตร ต้องการขนาดเล็กกว่าหรือไม่ ลองใช้ตัวแปร 7–8B ที่ปรับตามคำแนะนำเพื่อลดความเจ็บปวดในการฝึกอบรม

ตัดสินใจเกี่ยวกับงบประมาณของคุณ: ต่ำกว่า 16GB VRAM หรือไม่ ไปที่ ประมาณ 24GB หรือไม่ สบาย 48GB+ หรือไม่ คุณดูดี พิจารณา Context Windows ที่ใหญ่ขึ้น หรือการ Finetune แบบเต็มรูปแบบหากคุณรู้ว่ากำลังทำอะไรอยู่

เตรียมข้อมูล: ใช้ JSON หรือ CSV โดยมีช่อง prompt/response ที่ชัดเจน เริ่มต้นด้วยตัวอย่างคุณภาพสูง 2–10K ก่อนที่จะปรับขนาด

เลือกเส้นทางของคุณ: WebUI (ง่ายที่สุด) หรือ CLI (ปรับขนาดได้ดีกว่า) บทช่วยสอนด้านบนแสดงทั้งสองสไตล์: คู่มือ และ เน้น WebUI ชิ้นส่วน เน้นไฮบริดโน้ตบุ๊ก/CLI

ฝึกฝนอย่างชาญฉลาด: เริ่มต้นเล็กๆ น้อยๆ ไม่กี่ Epoch อัตราการเรียนรู้ที่สูงขึ้น ชุดย่อยเล็กๆ หากไม่ดีขึ้นใน 10–20 นาที ให้เปลี่ยนบางอย่างและลองอีกครั้ง การทำซ้ำดีกว่าความเชื่อที่ไร้เหตุผล

ประเมินเหมือนคนขี้สงสัย: สร้างชุดทดสอบตัวอย่าง 50–100 ตัวอย่างที่สะท้อนถึงการใช้งานจริง ถามคำถามยากๆ ให้รางวัลความจริง ไม่ใช่ความละเอียด

จัดอันดับบทช่วยสอนที่ดีที่สุด (และเหตุผล)

คู่มือ WebUI ของ ของ — บทแนะนำที่เป็นลายลักษณ์อักษรที่ดีที่สุดโดยรวม

ทำไมมันถึงยอดเยี่ยม: เป็นข้อมูลล่าสุด ใช้ และไม่ได้ฝังคุณในทฤษฎี มันคือบทเรียน "ประกอบสิ่งนี้ด้วย Allen key" ที่คุณต้องการจริงๆ

ใครควรใช้: ใครก็ตามที่เพิ่งเริ่ม Fine-tuning หรือ WebUI เป็นตัวสร้างความมั่นใจด้วยเอาต์พุตจริง

วิดีโอ End-to-End ของ — ไพรเมอร์ภาพที่ดีที่สุดและตัวกระตุ้นโมเมนตัม

ทำไมมันถึงยอดเยี่ยม: คุณเห็นโฟลว์ จังหวะ และข้อผิดพลาด มันเป็นสิ่งที่ใกล้เคียงที่สุดกับการมีเพื่อนอยู่บนหน้าจอที่คลิกก่อนคุณ

ใครควรใช้: ผู้เรียนรู้ด้วยภาพ ผู้สร้างใจร้อน ผู้ที่ชอบประดิษฐ์ในวันหยุดสุดสัปดาห์

คู่มือ ของ — ดีที่สุดสำหรับการทดลองที่ไม่ต้องติดตั้ง

ทำไมมันถึงยอดเยี่ยม: คุณไม่ต้องต่อสู้กับ PyTorch wheels บนแล็ปท็อปของคุณ รัน ดู ส่งออก

ใครควรใช้: ผู้ที่ทดสอบน้ำหรือหลีกเลี่ยงดราม่า CUDA ในเครื่อง

สิ่งที่บทช่วยสอนเหล่านี้พลาดไป (และวิธีเติมเต็มช่องว่าง)

Version pinning: เครื่องมือเคลื่อนที่เร็ว หากการรันของคุณหยุดชะงัก ให้ตรวจสอบเวอร์ชัน ที่ใช้ในบทช่วยสอนและเวอร์ชันที่คุณติดตั้ง จับคู่ หรืออ่าน Changelog ของ repo เหมือนเป็นจุดหักมุมของเนื้อเรื่อง

Tokenizer mismatch: หากการตอบสนองมีลักษณะเหมือนซุปตัวอักษร ให้ตรวจสอบว่าโทเค็นไนเซอร์ตรงกับโมเดลฐานหรือไม่ มันเหมือนกับการพยายามอ่านหนังสือเสียงด้วยคำบรรยายที่ไม่ถูกต้อง

VRAM budgeting: บทช่วยสอนมักจะแสดง "นี่คือวิธีที่ฉันทำ" ไม่ใช่ "นี่คือวิธีปรับขนาด" หากคุณได้รับข้อผิดพลาด CUDA หน่วยความจำไม่พอ ให้ลดขนาดแบทช์ ใช้ gradient checkpointing และเปิด QLoRA 4-bit GPU ของคุณจะขอบคุณคุณ

การ Fine-tune ครั้งแรกของคุณ: แผนเทมเพลตที่คุณสามารถขโมยได้จริง

เป้าหมาย: Fine-tune ด้วย สำหรับแชทบอทสไตล์การสนับสนุนลูกค้า

ฮาร์ดแวร์: 16GB GPU (ใช่จริงๆ) หรือคลาวด์ T4/A10G/A100 หากคุณสามารถจ่ายได้มากกว่า

ข้อมูล: คู่ Q&A ที่ดูแลจัดการ 5,000 คู่จากโดเมนของคุณ สไตล์ที่สะอาดและสอดคล้องกัน ไม่มีรายการที่ซ้ำกัน จัดสรร 500 รายการสำหรับการตรวจสอบ

ขั้นตอน:

ทำตามบทช่วยสอน WebUI ของ เพื่อให้สภาพแวดล้อมและ UI ทำงาน

ภายใต้การตั้งค่าการฝึกอบรม เลือก: Base model = Instruct; Method = ; Load in 4-bit; Batch size small (1–2); Gradient accumulation เพื่อจำลองแบทช์ที่ใหญ่ขึ้น; 1–2 Epoch

เริ่มต้นด้วยชุดย่อยข้อมูล 10% หากการสูญเสียลดลงและการตรวจสอบมีความสมเหตุสมผล ให้สำเร็จการศึกษาไปยังชุดเต็ม

ส่งออก Adapter และทดสอบในสคริปต์อนุมาน หากคำตอบเยิ่นเย้อเกินไป ให้ปรับ System Prompts และลด Temperature

ล้างและทำซ้ำ: หมุน Learning Rate จำนวน Epoch และตัดตัวอย่างคุณภาพต่ำ

ตรวจสอบความสำเร็จ: โมเดลของคุณตอบคำถามโดเมนอย่างกระชับ อ้างอิงคำศัพท์ที่ถูกต้อง และไม่ได้ประดิษฐ์นโยบาย หากมันสวมบทบาทเป็นเด็กฝึกงานด้านการเขียนเชิงสร้างสรรค์ของคุณ แสดงว่าคุณใส่มากเกินไปหรือทำความสะอาดไม่เพียงพอ

การแก้ไขปัญหาโจมตีคุณใน GPU หรือไม่ ลองสิ่งเหล่านี้

"CUDA OOM": ลดขนาดแบทช์ เปิดใช้งาน Gradient Checkpointing หรือใช้ 4-bit หากคุณยังติดขัดอยู่ ให้เปลี่ยนไปใช้โมเดลที่เล็กลง หรือเช่า GPU ที่ใหญ่กว่าสำหรับ Epoch สุดท้าย

"Loss won't budge": ข้อมูลไม่ดีหรือไม่เล็กเกินไป เพิ่มความหลากหลายของข้อมูล ลด Learning Rate หรือตรวจสอบว่าอันดับ LoRA ของคุณเล็กเกินไปหรือไม่

"เอาต์พุตหยาบคาย/แปลก": จัดรูปแบบสไตล์ผ่านโมเดลฐานที่ปรับตามคำแนะนำ และรูปแบบการตอบสนองที่สอดคล้องกันในชุดข้อมูลของคุณ โมเดลเลียนแบบสิ่งที่พวกเขาเห็น ฝึกฝนอย่างที่คุณตั้งใจ

การปรับใช้: จากห้องปฏิบัติการสู่แล็ปท็อป (และอื่นๆ)

ส่งออก LoRA Adapters และผสานรวมหากจำเป็น สำหรับอุปกรณ์ Edge ให้เก็บ Adapters แยกต่างหากเพื่อความสะดวกในการพกพา สำหรับเซิร์ฟเวอร์ ให้ผสานรวมเพื่อความเรียบง่ายและความเร็ว

Quantize สำหรับอนุมาน หากคุณฝึกฝนที่ 4-bit ให้ทดสอบการอนุมาน 4-, 5- และ 8-bit เพื่อปรับสมดุลระหว่างเวลาแฝงและความเที่ยงตรง

เพิ่ม Guardrails Wrapper Prompt อย่างง่ายพร้อมตัวอย่างสร้างสิ่งมหัศจรรย์ หรือใช้โมเดลตัวตรวจสอบ Ruleset ขนาดเล็กที่กรองเรื่องไร้สาระก่อนที่จะเข้าถึงผู้ใช้ของคุณ

คุณควรเลือก WebUI หรือ CLI ในระยะยาวหรือไม่

WebUI คือร้านกาแฟที่คุณชื่นชอบ: สะดวกสบาย รวดเร็ว แรงเสียดทานต่ำ

CLI คือห้องครัวในบ้านของคุณ: ลูกบิดมากขึ้น ยุ่งเหยิงมากขึ้น ควบคุมได้มากขึ้น หากคุณจะ Fine-tuning ทุกสัปดาห์ ในที่สุดคุณจะต้องมีสคริปต์ ตัวติดตามการทดลอง และการกำหนดค่าที่ทำซ้ำได้ เริ่มต้นใน WebUI สำเร็จการศึกษาเป็น CLI

สิ่งที่ควรทราบ: Sider.AI สามารถช่วยใน "อธิบายสิ่งนี้ให้ฉันเหมือนฉันกำลังกินเอสเปรสโซที่สาม" หากคุณวางการกำหนดค่าหรือบันทึกลงในแชท Sider.AI คุณจะได้รับคำแนะนำอย่างรวดเร็วเกี่ยวกับพารามิเตอร์ที่จะปรับ ขั้นตอนบทช่วยสอนที่คุณน่าจะพลาดไป และการตรวจสอบความถูกต้องก่อนที่คุณจะจมตัวลงสองชั่วโมงในอัตราการเรียนรู้ที่ไม่ถูกต้อง มันเหมือนกับการมี TA ที่เป็นมิตรที่ไม่ให้คะแนนคุณ แค่เร่งความเร็วให้คุณ

เปรียบเทียบอย่างรวดเร็ว: บทช่วยสอนใดชนะสำหรับงานใด

ดีที่สุดสำหรับผู้เริ่มต้นทั้งหมด: คู่มือ WebUI ของ (ขั้นตอนที่ชัดเจน โมเดลที่ทันสมัย)

ดีที่สุดสำหรับ "แสดงให้ฉันเห็นตอนนี้": End-to-End (โฟลว์ภาพ คัดลอกการคลิก)

ดีที่สุดสำหรับการทดลองที่ไม่ต้องติดตั้ง: คู่มือ ของ (รันเร็ว ใช้น้อย)

ส่วนเสริมขั้นสูง (เมื่อคุณพร้อมที่จะเลเวลอัพ)

PEFT adapters นอกเหนือจาก : ลองใช้อันดับและ alphas ที่แตกต่างกัน การเปลี่ยนแปลงเล็กน้อย เอฟเฟกต์ใหญ่

Curriculum fine-tuning: เริ่มต้นด้วยข้อมูลคำแนะนำทั่วไป จากนั้นย้ายไปที่ข้อมูลโดเมนที่แคบ

Mixed precision และเคล็ดลับหน่วยความจำ: bf16 หากรองรับ; Flash Attention; ทำให้ GPU ของคุณครวญคราง

Evaluation Suites: สร้างชุด eval ที่กำหนดเองพร้อมกับงานสาธารณะสองสามงาน ติดตาม Overfitting โดยการตรวจสอบความแตกต่างระหว่างชุด val ของคุณและชุด Out-of-Domain ขนาดเล็ก

อภิธานศัพท์ขนาดเล็กเพื่อให้คุณไม่ต้องพยักหน้าและแกล้งทำ

LoRA: เลเยอร์ Adapter ที่มีน้ำหนักเบาที่คุณฝึกฝนแทนที่จะเป็นโมเดลขนาดยักษ์ทั้งหมด ประหยัดเวลาและ VRAM

QLoRA: เหมือน แต่น้ำหนักฐานถูกบีบอัด (Quantized) ระหว่างการฝึกอบรม สวัสดี 4-bit

Adapter Merging: รวมน้ำหนัก Adapter กับโมเดลฐานเพื่อการปรับใช้ที่ง่ายขึ้น

Tokenizer: สิ่งที่สับประโยคเป็นโทเค็น โทเค็นไนเซอร์ที่ไม่ถูกต้อง = ไข่คน

ความคิดเห็นของฉัน: คุณควรเริ่มต้นด้วยบทช่วยสอนใด หากเป้าหมายของคุณคือ ความเร็วสู่ความสำเร็จครั้งแรก ให้เริ่มต้นด้วย จับคู่กับวิดีโอแนะนำของ ดู คลิก ชนะ จากนั้นสำหรับการรันครั้งที่สองของคุณ ให้เปิดคู่มือ เพื่อดูเส้นทางอื่น คุณจะได้เรียนรู้มากขึ้นจากการรันขนาดเล็กสองครั้ง มากกว่าการอ่านเธรดขนาดยักษ์หนึ่งเธรด และ GPU ของคุณจะไม่ยื่นเรื่องร้องเรียนต่อ HR

บทสรุปของ Stern: การ Fine-tuning ทำได้อย่างสมบูรณ์ในขณะนี้ เปลี่ยน "หน้าผาแห่งความสิ้นหวัง" ให้เป็นบันไดที่มีราวบันได เลือกบทช่วยสอน เริ่มต้นเล็กๆ และทำซ้ำ โมเดลที่ Fine-tune ในอนาคตของคุณจะขอบคุณคุณที่ไม่สร้างนโยบายการคืนเงินของคุณ

ลิงก์ที่คุณจะใช้จริง

: วิดีโอแนะนำการ Fine-tune แบบ End-to-End

: คู่มือเริ่มต้นใช้งาน WebUI ของ

: Quickstart ที่ใช้

แผนปฏิบัติการใน 90 วินาที

เลือกคู่มือ และตั้งค่า WebUI

เตรียมชุดข้อมูลขนาดเล็ก (500–1,000 คู่) ทำให้สะอาด

ฝึกฝนด้วย , 4-bit, แบทช์ขนาดเล็ก

ประเมินคำถามที่เลือกด้วยมือ 100 ข้อ

ทำซ้ำสองหรือสามครั้ง จากนั้นสำเร็จการศึกษาเป็นการรันที่ยาวขึ้นและข้อมูลที่ใหญ่ขึ้น

ตอนนี้ไป Fine-tune สิ่งที่เป็นประโยชน์ และจำไว้ว่า: หาก GPU ของคุณกรีดร้อง มันแค่บอกว่า "ลดขนาดแบทช์"

คำถามที่พบบ่อย

Q1:บทช่วยสอน LLaMA-Factory ที่ดีที่สุดสำหรับผู้เริ่มต้นจริงคืออะไร เริ่มต้นด้วยคู่มือ WebUI ของ จาก ชัดเจน ทันสมัย และใช้ จับคู่กับวิดีโอแนะนำแบบ end-to-end ของ เพื่อตรวจสอบความถูกต้องด้วยภาพ เพื่อให้คุณรู้ว่าความสำเร็จมีลักษณะอย่างไรก่อนที่คุณจะคลิกฝึกฝน

Q2:ฉันสามารถ Fine-tune โมเดล บน ได้หรือไม่ ได้ บทช่วยสอนที่ใช้ ทำให้การ Fine-tune ไม่เจ็บปวดอย่างน่าประหลาดใจ เพียงแค่ระวังเวลาเซสชันและขีดจำกัด VRAM บันทึก Checkpoints บ่อยๆ และเก็บชุดข้อมูลให้มีขนาดเล็กสำหรับการรันครั้งแรกของคุณ

Q3:ฉันควรใช้ หรือ กับ หากคุณมี VRAM จำกัด คือเพื่อนของคุณ การฝึกอบรม 4-bit รอยเท้าหน่วยความจำที่เล็กลง หากคุณมี Headroom GPU มากขึ้น มาตรฐานนั้นง่ายกว่า และยังคงมีประสิทธิภาพมากสำหรับการ Fine-tuning

Q4:ฉันจะแก้ไขข้อผิดพลาดหน่วยความจำไม่พอของ CUDA ในระหว่างการฝึกอบรมได้อย่างไร ลดขนาดแบทช์ของคุณ เปิด Gradient Checkpointing และใช้ 4-bit หากยังล้มเหลว ให้ลองใช้โมเดลฐานที่เล็กลง หรือเช่า GPU ที่มี VRAM มากกว่าสำหรับขั้นตอนที่หนักที่สุด

Q5:ฉันจะรู้ได้อย่างไรว่าการ Fine-tune ของฉันใช้งานได้จริง สร้างชุดการประเมินที่สมจริงขนาดเล็ก และเปรียบเทียบเอาต์พุตก่อนและหลังการ Fine-tuning หากโมเดลของคุณตอบได้เร็วกว่า แม่นยำกว่า และไม่ได้สร้างนโยบายการลาพักร้อนของบริษัทคุณ แสดงว่าคุณมาถูกทางแล้ว