เคยพยายามทำให้ Large Language Model หยุดสร้างเรื่องที่ไม่จริง และเริ่มทำตัวเหมือนผู้ช่วยที่เฉพาะเจาะจงและได้รับค่าตอบแทนน้อยของคุณไหม นั่นคือสิ่งที่การ Fine-tune ในปี 2025 ให้ความรู้สึก: เหมือนการเลี้ยงลูก แต่มี YAML มากกว่า ข่าวดี: ทำให้เรื่องทั้งหมดนั้น...ไม่แย่อย่างน่าประหลาดใจ ข่าวที่ดียิ่งกว่า: ฉันใช้เวลาหนึ่งสัปดาห์สะดุดกับ Adapters และ Tokenizers เพื่อค้นหา ที่ดีที่สุด เพื่อให้คุณไม่ต้องทำ
นี่คือคู่มือที่ไม่ BS สไตล์ Joanna เกี่ยวกับแหล่งข้อมูลที่ดีที่สุด เมื่อใดควรใช้แต่ละแหล่ง และวิธีหลีกเลี่ยงช่วงเวลาหน้าผากชน 3 อย่างที่พบบ่อยที่สุด (สปอยล์: VRAM ไม่ใช่ข้อเสนอแนะ แต่มันคืองบประมาณ)
ทำไมคุณถึงมาที่นี่ (และสิ่งที่คุณต้องการจริงๆ)
- คุณต้องการ Fine-tune โมเดล หรือ โดยไม่ต้องเขียนวิทยานิพนธ์เกี่ยวกับการฝึกอบรมแบบกระจาย
- คุณเคยได้ยินว่า มี WebUI และ CLI และแม้แต่เวทมนตร์ของ
- คุณต้องการบทช่วยสอนที่ไม่สมมติว่าคุณอาศัยอยู่ภายในฟาร์ม GPU บนคลาวด์
นี่คือรายการ Best/Top พร้อมคำแนะนำเชิงปฏิบัติ ฉันจัดอันดับบทช่วยสอนตามความชัดเจน ความทันสมัย (, , 4-bit, เวิร์กโฟลว์ WebUI) และไม่ว่าพวกเขาจะพาคุณจากศูนย์ไปสู่ "โมเดลของฉันทำงานได้จริง" หรือไม่ ไปกันเลย
รายการสั้น: บทช่วยสอน ที่ดีที่สุดในตอนนี้
- คอร์สเร่งรัด สำหรับผู้เรียนรู้ด้วยภาพ (และคนใจร้อน)
- "ใครๆ ก็ Fine Tune LLMs ได้โดยใช้ " บน หากช่วงความสนใจของคุณคือ และงบประมาณ GPU ของคุณคือ กาแฟ นี่คือบทช่วยสอนสำหรับคุณ มันจะแนะนำคุณตลอดการตั้งค่า การเตรียมข้อมูล และการรันแบบ end-to-end ในโฟลว์ เป็นมิตรกับผู้เริ่มต้น แสดง WebUI และครอบคลุมปุ่มที่จะคลิกและเหตุผล เหมาะสำหรับการดูขั้นตอนการทำงานจริง และหยุดทุกๆ 12 วินาทีเพื่อคัดลอกคำสั่ง
เหมาะที่สุดสำหรับ: ผู้เรียนรู้ด้วยภาพ โปรเจ็กต์สุดสัปดาห์ "แสดงให้ฉันเห็นว่ามันทำงานอย่างไร"
ระวัง: เวอร์ชันและแฟล็กที่แน่นอนอาจมีการเปลี่ยนแปลง ตรวจสอบค่าเริ่มต้นของ repo อีกครั้งหากคุณพบข้อผิดพลาด
- คู่มือ WebUI แบบทีละขั้นตอนสำหรับผู้ที่ Fine-tune เป็นครั้งแรก
- "" จาก นี่คือบทแนะนำที่เป็นลายลักษณ์อักษรที่ชัดเจน: ติดตั้ง โหลด เลือก หรือ ป้อนชุดข้อมูล ฝึกฝน ประเมิน ส่งออก คุณจะได้รับภาพหน้าจอ การกำหนดค่า และบริบท หากคุณเคยถูก CLI ตะโกนใส่ นี่ให้ความรู้สึกเหมือนหูฟังตัดเสียงรบกวน
เหมาะที่สุดสำหรับ: ผู้เริ่มต้น ผู้ที่ต้องการโครงสร้าง ใครก็ตามที่แพ้ docker-compose confetti
ระวัง: การตั้งค่าคลาวด์และความต้องการ VRAM ไม่ได้เหมาะกับทุกคน คาดว่าจะมีการปรับเปลี่ยนหากคุณไม่ได้ใช้ฮาร์ดแวร์เดียวกัน
- สูตรเริ่มต้นอย่างรวดเร็วที่เป็นมิตรกับ
- "" บน เป็นบทช่วยสอนเชิงปฏิบัติที่ใช้ ซึ่งใช้ กับ เหมาะถ้าคุณต้องการหลีกเลี่ยงการติดตั้งในเครื่อง และเพียงแค่ทดลองขับด้วยเวลา GPU ฟรี/ราคาถูก คัดลอกโน้ตบุ๊ก เปลี่ยนเส้นทางชุดข้อมูล แล้วบูม: ลูกโมเดลตัวแรกของคุณก็ถือกำเนิดขึ้น มันมีอคติในทางที่ดี: , และความยุ่งยากน้อยที่สุด
เหมาะที่สุดสำหรับ: ผู้ใช้ Colab ผู้สำรวจ GPU ที่มีงบประมาณจำกัด "ฉันแค่ต้องการให้บางสิ่งทำงานได้ภายในหนึ่งชั่วโมง"
ระวัง: ข้อจำกัด Colab ฟรีจำกัดคุณ การฝึกอบรมอาจหมดเวลาหรือถูกควบคุม บันทึก Checkpoints แต่เนิ่นๆ และบ่อยๆ
โอเค แต่จริงๆ แล้ว LLaMA-Factory ทำอะไรให้ฉัน
คิดว่า LLaMA-Factory เป็นเหมือน IKEA ของการ Fine-tuning: มันให้ชิ้นส่วนทั้งหมดแก่คุณ ติดป้ายกำกับส่วนใหญ่ และส่งมอบ Allen key เล็กๆ (WebUI) ให้คุณ เพื่อให้คุณสามารถประกอบ LLM ที่กำหนดค่าอย่างสุภาพของคุณเองได้ มันทำให้บิตที่น่ากลัวน้อยลง QLoRA quantization, adapters, tokenizers ที่อยู่เบื้องหลังค่าที่ตั้งไว้ล่วงหน้าและค่าเริ่มต้นที่สมเหตุสมผล คุณยังคงต้องนำชุดข้อมูลและ GPU ที่มีมารยาทมาด้วย แต่คุณไม่จำเป็นต้องสร้างโซฟาจากต้นไม้ดิบ
วิธีเลือกบทช่วยสอนที่เหมาะสมสำหรับกรณีการใช้งานของคุณ
- ฉันไม่เคย Fine-tune อะไรเลยในชีวิต: เริ่มต้นด้วยคู่มือ WebUI ของ จากนั้นดูวิดีโอแนะนำของ หนึ่งแสดงให้คุณเห็นว่าจะคลิกอะไร อีกอันแสดงให้คุณเห็นว่ามันมีลักษณะอย่างไรเมื่อมันทำงานจริง (และที่ที่มันล้มเหลวอย่างสง่างาม)
- ฉันแค่ต้องการ POC อย่างรวดเร็วด้วยงบประมาณที่จำกัด: ใช้บทช่วยสอน ทำให้ชุดข้อมูลของคุณมีขนาดเล็กและความคาดหวังของคุณเล็กลง จากนั้นส่งออก Adapter และทดสอบบนเครื่องในเครื่องของคุณหรือคลาวด์ราคาถูก
- ฉันต้องการทำสิ่งนี้ "ถูกต้อง" บนเวิร์กสเตชันหรือ GPU บนคลาวด์: เริ่มต้นด้วยบทช่วยสอน WebUI เพื่อเรียนรู้แนวคิด จากนั้นย้ายไปที่ CLI เพื่อให้คุณสามารถเขียนสคริปต์การทดลองและติดตามการรันอย่างมืออาชีพ ผสมผสาน QLoRA เพื่อประสิทธิภาพ 4-bit หาก VRAM ของคุณไม่ได้งอ
คอร์สเร่งรัดห้านาที: สาระสำคัญของ
- WebUI vs. CLI: WebUI เรียนรู้ได้เร็วกว่า เหมาะสำหรับการรันครั้งแรกและการตรวจสอบความถูกต้อง CLI คือวิธีที่คุณจัดกลุ่ม ทำให้เป็นอัตโนมัติ และทำเวอร์ชันการทดลองโดยที่แทร็กแพดของคุณไม่ร้องไห้
- LoRA vs. QLoRA: LoRA เพิ่มเลเยอร์ Adapter ที่มีน้ำหนักเบา รวดเร็วและมีประสิทธิภาพ QLoRA เพิ่ม quantization เพื่อให้คุณสามารถ Fine-tune โมเดลขนาดใหญ่บน GPU ขนาดเล็กได้ มันคือเวอร์ชันแพ็คแบนของ IKEA ของการฝึกอบรม
- ชุดข้อมูล: ทำให้กระชับและสะอาด หากชุดข้อมูลของคุณมีลักษณะเหมือนร่างเรียงความในวิทยาลัยของคุณ โมเดลของคุณก็จะเป็นเช่นนั้น
- Checkpoints และการประเมิน: บันทึกบ่อยๆ ประเมินแต่เนิ่นๆ ใช่ โมเดลของคุณกำลัง "เรียนรู้" แต่มันกำลังเรียนรู้สิ่งที่คุณคิดหรือไม่ เหมือนเด็กวัยหัดเดินที่มีปากกา มาร์กเกอร์ การกำกับดูแลเป็นสิ่งสำคัญ
คู่มือการตั้งค่าขนาดเล็กสไตล์ Stern (เพื่อใช้กับบทช่วยสอนใดๆ)
- เลือกโมเดลของคุณ: เป็นจุดเริ่มต้นที่เป็นมิตร ต้องการขนาดเล็กกว่าหรือไม่ ลองใช้ตัวแปร 7–8B ที่ปรับตามคำแนะนำเพื่อลดความเจ็บปวดในการฝึกอบรม
- ตัดสินใจเกี่ยวกับงบประมาณของคุณ: ต่ำกว่า 16GB VRAM หรือไม่ ไปที่ ประมาณ 24GB หรือไม่ สบาย 48GB+ หรือไม่ คุณดูดี พิจารณา Context Windows ที่ใหญ่ขึ้น หรือการ Finetune แบบเต็มรูปแบบหากคุณรู้ว่ากำลังทำอะไรอยู่
- เตรียมข้อมูล: ใช้ JSON หรือ CSV โดยมีช่อง prompt/response ที่ชัดเจน เริ่มต้นด้วยตัวอย่างคุณภาพสูง 2–10K ก่อนที่จะปรับขนาด
- เลือกเส้นทางของคุณ: WebUI (ง่ายที่สุด) หรือ CLI (ปรับขนาดได้ดีกว่า) บทช่วยสอนด้านบนแสดงทั้งสองสไตล์: คู่มือ และ เน้น WebUI ชิ้นส่วน เน้นไฮบริดโน้ตบุ๊ก/CLI
- ฝึกฝนอย่างชาญฉลาด: เริ่มต้นเล็กๆ น้อยๆ ไม่กี่ Epoch อัตราการเรียนรู้ที่สูงขึ้น ชุดย่อยเล็กๆ หากไม่ดีขึ้นใน 10–20 นาที ให้เปลี่ยนบางอย่างและลองอีกครั้ง การทำซ้ำดีกว่าความเชื่อที่ไร้เหตุผล
- ประเมินเหมือนคนขี้สงสัย: สร้างชุดทดสอบตัวอย่าง 50–100 ตัวอย่างที่สะท้อนถึงการใช้งานจริง ถามคำถามยากๆ ให้รางวัลความจริง ไม่ใช่ความละเอียด
จัดอันดับบทช่วยสอนที่ดีที่สุด (และเหตุผล)
- คู่มือ WebUI ของ ของ — บทแนะนำที่เป็นลายลักษณ์อักษรที่ดีที่สุดโดยรวม
- ทำไมมันถึงยอดเยี่ยม: เป็นข้อมูลล่าสุด ใช้ และไม่ได้ฝังคุณในทฤษฎี มันคือบทเรียน "ประกอบสิ่งนี้ด้วย Allen key" ที่คุณต้องการจริงๆ
- ใครควรใช้: ใครก็ตามที่เพิ่งเริ่ม Fine-tuning หรือ WebUI เป็นตัวสร้างความมั่นใจด้วยเอาต์พุตจริง
- วิดีโอ End-to-End ของ — ไพรเมอร์ภาพที่ดีที่สุดและตัวกระตุ้นโมเมนตัม
- ทำไมมันถึงยอดเยี่ยม: คุณเห็นโฟลว์ จังหวะ และข้อผิดพลาด มันเป็นสิ่งที่ใกล้เคียงที่สุดกับการมีเพื่อนอยู่บนหน้าจอที่คลิกก่อนคุณ
- ใครควรใช้: ผู้เรียนรู้ด้วยภาพ ผู้สร้างใจร้อน ผู้ที่ชอบประดิษฐ์ในวันหยุดสุดสัปดาห์
- คู่มือ ของ — ดีที่สุดสำหรับการทดลองที่ไม่ต้องติดตั้ง
- ทำไมมันถึงยอดเยี่ยม: คุณไม่ต้องต่อสู้กับ PyTorch wheels บนแล็ปท็อปของคุณ รัน ดู ส่งออก
- ใครควรใช้: ผู้ที่ทดสอบน้ำหรือหลีกเลี่ยงดราม่า CUDA ในเครื่อง
สิ่งที่บทช่วยสอนเหล่านี้พลาดไป (และวิธีเติมเต็มช่องว่าง)
- Version pinning: เครื่องมือเคลื่อนที่เร็ว หากการรันของคุณหยุดชะงัก ให้ตรวจสอบเวอร์ชัน ที่ใช้ในบทช่วยสอนและเวอร์ชันที่คุณติดตั้ง จับคู่ หรืออ่าน Changelog ของ repo เหมือนเป็นจุดหักมุมของเนื้อเรื่อง
- Tokenizer mismatch: หากการตอบสนองมีลักษณะเหมือนซุปตัวอักษร ให้ตรวจสอบว่าโทเค็นไนเซอร์ตรงกับโมเดลฐานหรือไม่ มันเหมือนกับการพยายามอ่านหนังสือเสียงด้วยคำบรรยายที่ไม่ถูกต้อง
- VRAM budgeting: บทช่วยสอนมักจะแสดง "นี่คือวิธีที่ฉันทำ" ไม่ใช่ "นี่คือวิธีปรับขนาด" หากคุณได้รับข้อผิดพลาด CUDA หน่วยความจำไม่พอ ให้ลดขนาดแบทช์ ใช้ gradient checkpointing และเปิด QLoRA 4-bit GPU ของคุณจะขอบคุณคุณ
การ Fine-tune ครั้งแรกของคุณ: แผนเทมเพลตที่คุณสามารถขโมยได้จริง
- เป้าหมาย: Fine-tune ด้วย สำหรับแชทบอทสไตล์การสนับสนุนลูกค้า
- ฮาร์ดแวร์: 16GB GPU (ใช่จริงๆ) หรือคลาวด์ T4/A10G/A100 หากคุณสามารถจ่ายได้มากกว่า
- ข้อมูล: คู่ Q&A ที่ดูแลจัดการ 5,000 คู่จากโดเมนของคุณ สไตล์ที่สะอาดและสอดคล้องกัน ไม่มีรายการที่ซ้ำกัน จัดสรร 500 รายการสำหรับการตรวจสอบ
- ทำตามบทช่วยสอน WebUI ของ เพื่อให้สภาพแวดล้อมและ UI ทำงาน
- ภายใต้การตั้งค่าการฝึกอบรม เลือก: Base model = Instruct; Method = ; Load in 4-bit; Batch size small (1–2); Gradient accumulation เพื่อจำลองแบทช์ที่ใหญ่ขึ้น; 1–2 Epoch
- เริ่มต้นด้วยชุดย่อยข้อมูล 10% หากการสูญเสียลดลงและการตรวจสอบมีความสมเหตุสมผล ให้สำเร็จการศึกษาไปยังชุดเต็ม
- ส่งออก Adapter และทดสอบในสคริปต์อนุมาน หากคำตอบเยิ่นเย้อเกินไป ให้ปรับ System Prompts และลด Temperature
- ล้างและทำซ้ำ: หมุน Learning Rate จำนวน Epoch และตัดตัวอย่างคุณภาพต่ำ
- ตรวจสอบความสำเร็จ: โมเดลของคุณตอบคำถามโดเมนอย่างกระชับ อ้างอิงคำศัพท์ที่ถูกต้อง และไม่ได้ประดิษฐ์นโยบาย หากมันสวมบทบาทเป็นเด็กฝึกงานด้านการเขียนเชิงสร้างสรรค์ของคุณ แสดงว่าคุณใส่มากเกินไปหรือทำความสะอาดไม่เพียงพอ
การแก้ไขปัญหาโจมตีคุณใน GPU หรือไม่ ลองสิ่งเหล่านี้
- "CUDA OOM": ลดขนาดแบทช์ เปิดใช้งาน Gradient Checkpointing หรือใช้ 4-bit หากคุณยังติดขัดอยู่ ให้เปลี่ยนไปใช้โมเดลที่เล็กลง หรือเช่า GPU ที่ใหญ่กว่าสำหรับ Epoch สุดท้าย
- "Loss won't budge": ข้อมูลไม่ดีหรือไม่เล็กเกินไป เพิ่มความหลากหลายของข้อมูล ลด Learning Rate หรือตรวจสอบว่าอันดับ LoRA ของคุณเล็กเกินไปหรือไม่
- "เอาต์พุตหยาบคาย/แปลก": จัดรูปแบบสไตล์ผ่านโมเดลฐานที่ปรับตามคำแนะนำ และรูปแบบการตอบสนองที่สอดคล้องกันในชุดข้อมูลของคุณ โมเดลเลียนแบบสิ่งที่พวกเขาเห็น ฝึกฝนอย่างที่คุณตั้งใจ
การปรับใช้: จากห้องปฏิบัติการสู่แล็ปท็อป (และอื่นๆ)
- ส่งออก LoRA Adapters และผสานรวมหากจำเป็น สำหรับอุปกรณ์ Edge ให้เก็บ Adapters แยกต่างหากเพื่อความสะดวกในการพกพา สำหรับเซิร์ฟเวอร์ ให้ผสานรวมเพื่อความเรียบง่ายและความเร็ว
- Quantize สำหรับอนุมาน หากคุณฝึกฝนที่ 4-bit ให้ทดสอบการอนุมาน 4-, 5- และ 8-bit เพื่อปรับสมดุลระหว่างเวลาแฝงและความเที่ยงตรง
- เพิ่ม Guardrails Wrapper Prompt อย่างง่ายพร้อมตัวอย่างสร้างสิ่งมหัศจรรย์ หรือใช้โมเดลตัวตรวจสอบ Ruleset ขนาดเล็กที่กรองเรื่องไร้สาระก่อนที่จะเข้าถึงผู้ใช้ของคุณ
คุณควรเลือก WebUI หรือ CLI ในระยะยาวหรือไม่
- WebUI คือร้านกาแฟที่คุณชื่นชอบ: สะดวกสบาย รวดเร็ว แรงเสียดทานต่ำ
- CLI คือห้องครัวในบ้านของคุณ: ลูกบิดมากขึ้น ยุ่งเหยิงมากขึ้น ควบคุมได้มากขึ้น หากคุณจะ Fine-tuning ทุกสัปดาห์ ในที่สุดคุณจะต้องมีสคริปต์ ตัวติดตามการทดลอง และการกำหนดค่าที่ทำซ้ำได้ เริ่มต้นใน WebUI สำเร็จการศึกษาเป็น CLI
สิ่งที่ควรทราบ: Sider.AI สามารถช่วยใน "อธิบายสิ่งนี้ให้ฉันเหมือนฉันกำลังกินเอสเปรสโซที่สาม" หากคุณวางการกำหนดค่าหรือบันทึกลงในแชท Sider.AI คุณจะได้รับคำแนะนำอย่างรวดเร็วเกี่ยวกับพารามิเตอร์ที่จะปรับ ขั้นตอนบทช่วยสอนที่คุณน่าจะพลาดไป และการตรวจสอบความถูกต้องก่อนที่คุณจะจมตัวลงสองชั่วโมงในอัตราการเรียนรู้ที่ไม่ถูกต้อง มันเหมือนกับการมี TA ที่เป็นมิตรที่ไม่ให้คะแนนคุณ แค่เร่งความเร็วให้คุณ เปรียบเทียบอย่างรวดเร็ว: บทช่วยสอนใดชนะสำหรับงานใด
- ดีที่สุดสำหรับผู้เริ่มต้นทั้งหมด: คู่มือ WebUI ของ (ขั้นตอนที่ชัดเจน โมเดลที่ทันสมัย)
- ดีที่สุดสำหรับ "แสดงให้ฉันเห็นตอนนี้": End-to-End (โฟลว์ภาพ คัดลอกการคลิก)
- ดีที่สุดสำหรับการทดลองที่ไม่ต้องติดตั้ง: คู่มือ ของ (รันเร็ว ใช้น้อย)
ส่วนเสริมขั้นสูง (เมื่อคุณพร้อมที่จะเลเวลอัพ)
- PEFT adapters นอกเหนือจาก : ลองใช้อันดับและ alphas ที่แตกต่างกัน การเปลี่ยนแปลงเล็กน้อย เอฟเฟกต์ใหญ่
- Curriculum fine-tuning: เริ่มต้นด้วยข้อมูลคำแนะนำทั่วไป จากนั้นย้ายไปที่ข้อมูลโดเมนที่แคบ
- Mixed precision และเคล็ดลับหน่วยความจำ: bf16 หากรองรับ; Flash Attention; ทำให้ GPU ของคุณครวญคราง
- Evaluation Suites: สร้างชุด eval ที่กำหนดเองพร้อมกับงานสาธารณะสองสามงาน ติดตาม Overfitting โดยการตรวจสอบความแตกต่างระหว่างชุด val ของคุณและชุด Out-of-Domain ขนาดเล็ก
อภิธานศัพท์ขนาดเล็กเพื่อให้คุณไม่ต้องพยักหน้าและแกล้งทำ
- LoRA: เลเยอร์ Adapter ที่มีน้ำหนักเบาที่คุณฝึกฝนแทนที่จะเป็นโมเดลขนาดยักษ์ทั้งหมด ประหยัดเวลาและ VRAM
- QLoRA: เหมือน แต่น้ำหนักฐานถูกบีบอัด (Quantized) ระหว่างการฝึกอบรม สวัสดี 4-bit
- Adapter Merging: รวมน้ำหนัก Adapter กับโมเดลฐานเพื่อการปรับใช้ที่ง่ายขึ้น
- Tokenizer: สิ่งที่สับประโยคเป็นโทเค็น โทเค็นไนเซอร์ที่ไม่ถูกต้อง = ไข่คน
ความคิดเห็นของฉัน: คุณควรเริ่มต้นด้วยบทช่วยสอนใด
หากเป้าหมายของคุณคือ ความเร็วสู่ความสำเร็จครั้งแรก ให้เริ่มต้นด้วย จับคู่กับวิดีโอแนะนำของ ดู คลิก ชนะ จากนั้นสำหรับการรันครั้งที่สองของคุณ ให้เปิดคู่มือ เพื่อดูเส้นทางอื่น คุณจะได้เรียนรู้มากขึ้นจากการรันขนาดเล็กสองครั้ง มากกว่าการอ่านเธรดขนาดยักษ์หนึ่งเธรด และ GPU ของคุณจะไม่ยื่นเรื่องร้องเรียนต่อ HR
บทสรุปของ Stern: การ Fine-tuning ทำได้อย่างสมบูรณ์ในขณะนี้ เปลี่ยน "หน้าผาแห่งความสิ้นหวัง" ให้เป็นบันไดที่มีราวบันได เลือกบทช่วยสอน เริ่มต้นเล็กๆ และทำซ้ำ โมเดลที่ Fine-tune ในอนาคตของคุณจะขอบคุณคุณที่ไม่สร้างนโยบายการคืนเงินของคุณ
ลิงก์ที่คุณจะใช้จริง
- : วิดีโอแนะนำการ Fine-tune แบบ End-to-End
- : คู่มือเริ่มต้นใช้งาน WebUI ของ
แผนปฏิบัติการใน 90 วินาที
- เลือกคู่มือ และตั้งค่า WebUI
- เตรียมชุดข้อมูลขนาดเล็ก (500–1,000 คู่) ทำให้สะอาด
- ฝึกฝนด้วย , 4-bit, แบทช์ขนาดเล็ก
- ประเมินคำถามที่เลือกด้วยมือ 100 ข้อ
- ทำซ้ำสองหรือสามครั้ง จากนั้นสำเร็จการศึกษาเป็นการรันที่ยาวขึ้นและข้อมูลที่ใหญ่ขึ้น
ตอนนี้ไป Fine-tune สิ่งที่เป็นประโยชน์ และจำไว้ว่า: หาก GPU ของคุณกรีดร้อง มันแค่บอกว่า "ลดขนาดแบทช์"
คำถามที่พบบ่อย
Q1:บทช่วยสอน LLaMA-Factory ที่ดีที่สุดสำหรับผู้เริ่มต้นจริงคืออะไร
เริ่มต้นด้วยคู่มือ WebUI ของ จาก ชัดเจน ทันสมัย และใช้ จับคู่กับวิดีโอแนะนำแบบ end-to-end ของ เพื่อตรวจสอบความถูกต้องด้วยภาพ เพื่อให้คุณรู้ว่าความสำเร็จมีลักษณะอย่างไรก่อนที่คุณจะคลิกฝึกฝน
Q2:ฉันสามารถ Fine-tune โมเดล บน ได้หรือไม่
ได้ บทช่วยสอนที่ใช้ ทำให้การ Fine-tune ไม่เจ็บปวดอย่างน่าประหลาดใจ เพียงแค่ระวังเวลาเซสชันและขีดจำกัด VRAM บันทึก Checkpoints บ่อยๆ และเก็บชุดข้อมูลให้มีขนาดเล็กสำหรับการรันครั้งแรกของคุณ
Q3:ฉันควรใช้ หรือ กับ
หากคุณมี VRAM จำกัด คือเพื่อนของคุณ การฝึกอบรม 4-bit รอยเท้าหน่วยความจำที่เล็กลง หากคุณมี Headroom GPU มากขึ้น มาตรฐานนั้นง่ายกว่า และยังคงมีประสิทธิภาพมากสำหรับการ Fine-tuning
Q4:ฉันจะแก้ไขข้อผิดพลาดหน่วยความจำไม่พอของ CUDA ในระหว่างการฝึกอบรมได้อย่างไร
ลดขนาดแบทช์ของคุณ เปิด Gradient Checkpointing และใช้ 4-bit หากยังล้มเหลว ให้ลองใช้โมเดลฐานที่เล็กลง หรือเช่า GPU ที่มี VRAM มากกว่าสำหรับขั้นตอนที่หนักที่สุด
Q5:ฉันจะรู้ได้อย่างไรว่าการ Fine-tune ของฉันใช้งานได้จริง
สร้างชุดการประเมินที่สมจริงขนาดเล็ก และเปรียบเทียบเอาต์พุตก่อนและหลังการ Fine-tuning หากโมเดลของคุณตอบได้เร็วกว่า แม่นยำกว่า และไม่ได้สร้างนโยบายการลาพักร้อนของบริษัทคุณ แสดงว่าคุณมาถูกทางแล้ว