อะไรที่ทำให้ diffusion models ให้ความรู้สึกเหมือนเวทมนตร์
ผืนผ้าใบที่มีจุดแต้มของสัญญาณรบกวนค่อยๆ แปรเปลี่ยนเป็นภาพเหมือนที่สมจริง ภาพทิวทัศน์เมืองสีน้ำ หรือสุนัขจิ้งจอกนีออนไซเบอร์พังก์ หากคุณเคยเห็นงานศิลปะ AI เบ่งบานจากความพร่ามัวที่หยุดนิ่งกลายเป็นภาพที่มีรายละเอียด คุณก็ได้เห็น diffusion models ทำงานแล้ว ในการเจาะลึกนี้ เราจะมาเปิดเผยว่า diffusion models ทำงานอย่างไรสำหรับการสร้างงานศิลปะ AI เหตุใดจึงเหนือกว่าวิธีการก่อนหน้านี้ และคุณจะสามารถชี้นำพวกมันได้อย่างไรเหมือนผู้กำกับฝ่ายสร้างสรรค์ โดยไม่จำเป็นต้องมีปริญญาเอก
เราจะรักษาน้ำเสียงให้เป็นประโยชน์และมุ่งเน้นการแก้ปัญหา: คำอธิบายที่ชัดเจน ตัวอย่างในโลกแห่งความเป็นจริง และเคล็ดลับที่นำไปปฏิบัติได้จริงเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นจากระบบ diffusion ที่ทันสมัย
ของ diffusion models อธิบายสำหรับการสร้างงานศิลปะ AI
- Diffusion models เปลี่ยนสัญญาณรบกวนแบบสุ่มให้เป็นภาพที่สอดคล้องกันโดยการย้อนกระบวนการเพิ่มสัญญาณรบกวนทีละขั้นตอน
- พวกมันเรียนรู้ที่จะลดสัญญาณรบกวนผ่านชุดข้อมูลขนาดใหญ่และคำแนะนำ (เช่น ข้อความแจ้ง) ที่นำภาพไปสู่ความตั้งใจของคุณ
- ส่วนผสมสำคัญ: forward diffusion (เพิ่มสัญญาณรบกวน), reverse process (ลบสัญญาณรบกวน), ตัวลดสัญญาณรบกวน U-Net, noise schedules และ guidance scales
- รูปแบบใหม่กว่า (latent diffusion, consistency models, rectified flows และ video diffusion) ทำให้การสร้างภาพเร็วขึ้น คมชัดขึ้น และควบคุมได้มากขึ้น
- ชัยชนะในทางปฏิบัติ: เชี่ยวชาญโครงสร้าง prompt, guidance scale, steps, seeds และ reference conditioning (image, layout, style)
แนวคิดหลัก: เรียนรู้ที่จะลดสัญญาณรบกวนของความเป็นจริง
หัวใจสำคัญของ diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI คือวงวนที่เรียบง่ายอย่างน่าประหลาดใจ:
- Forward process: นำภาพจริงมาเพิ่ม Gaussian noise อย่างต่อเนื่องในหลายขั้นตอนจนกว่ามันจะกลายเป็นสัญญาณรบกวนบริสุทธิ์
- Reverse process: ฝึกโครงข่ายประสาทเทียมเพื่อลบสัญญาณรบกวนนั้น ทีละขั้นตอน จนกว่าจะสร้างภาพที่สะอาดขึ้นมาใหม่
ในระหว่างการฝึกอบรม โมเดลจะเห็นทั้งภาพที่สะอาดและภาพที่มีสัญญาณรบกวนซ้ำๆ และเรียนรู้ที่จะทำนายสัญญาณรบกวนเอง (หรือภาพที่สะอาด) เมื่อฝึกอบรมแล้ว คุณสามารถเริ่มต้นจากสัญญาณรบกวนบริสุทธิ์และรัน reverse process เพื่อสร้างภาพใหม่ที่ตรงกับ prompt ของคุณได้
เหตุผลที่มันได้ผลดีมาก: การทำนายสัญญาณรบกวนนั้นง่ายกว่าและมีเสถียรภาพมากกว่าการทำนายพิกเซลโดยตรง และการปรับแต่งหลายขั้นตอนจะให้รายละเอียดที่สมบูรณ์และความสอดคล้องโดยรวม
กายวิภาคของ diffusion model (โดยไม่ต้องปวดหัวกับคณิตศาสตร์)
มาเปิด diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI ด้วยองค์ประกอบหลัก:
- Noise schedule: ตารางเวลาที่ตัดสินใจว่าจะเพิ่มสัญญาณรบกวนมากน้อยเพียงใดในแต่ละขั้นตอนในการฝึกอบรม และลบออกในระหว่างการสร้างภาพ กำหนดการทั่วไป ได้แก่ linear หรือ cosine ซึ่งกำหนดความคมชัด รายละเอียด และความเสถียร
- Denoiser backbone (มักจะเป็น U-Net): โครงข่ายประสาทเทียมแบบ convolutional ที่มีการเชื่อมต่อแบบข้าม ซึ่งประมาณค่าสัญญาณรบกวนในแต่ละขั้นตอน U-Net เก่งในการรักษาสภาพโครงสร้างในขณะที่เพิ่มความคมชัดของรายละเอียด
- Time embedding: โมเดลจำเป็นต้องรู้ว่าอยู่ในขั้นตอนใด Sinusoidal หรือ learned embeddings จะแทรกข้อมูล "เวลา" นั้น
- Conditioning: เคล็ดลับสำคัญ ข้อความ (ผ่านตัวเข้ารหัส CLIP-like), image references, style embeddings, layout maps หรือแม้แต่ depth/edge maps จะนำตัวลดสัญญาณรบกวนไปสู่สิ่งที่คุณต้องการ
- Sampler: อัลกอริทึมที่รัน reverse process (เช่น DDPM, DDIM, PLMS, Euler, DPM++) Samplers ที่แตกต่างกันจะเปลี่ยนความเร็ว ความคมชัด และความสมจริง
จากพิกเซลสู่ latents: เหตุผลที่ Stable Diffusion เร็วมาก
Diffusion models ในช่วงแรกทำงานโดยตรงบน pixel space ซึ่งให้ผลลัพธ์ที่สวยงามแต่ช้า Latent Diffusion Models (LDMs) บีบอัดภาพให้เป็น latent space ที่เล็กลงซึ่งเรียนรู้ได้โดยใช้ Variational Autoencoder (VAE) Diffusion เกิดขึ้นในพื้นที่ขนาดกะทัดรัดนี้ จากนั้นตัวถอดรหัสจะเพิ่มขนาดกลับเป็นความละเอียดเต็ม
ประโยชน์ที่คุณสัมผัสได้:
- ความเร็วเพิ่มขึ้น 10–50 เท่าเมื่อเทียบกับ pixel-space diffusion
- ความละเอียดที่สูงขึ้นโดยไม่มีการคำนวณแบบ exponential
- Style transfer และการแก้ไขภาพกลายเป็นเรื่องที่ใช้งานได้จริงมากขึ้น
นี่คือกระดูกสันหลังของเครื่องมือสร้างงานศิลปะ AI ยอดนิยม ซึ่ง diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI มักจะหมายถึง: "text-conditional latent diffusion ที่มีตัวเข้ารหัสข้อความที่แข็งแกร่ง"
Text-to-image: คำพูดของคุณชี้นำสัญญาณรบกวนได้อย่างไร
Text conditioning แปลงคำพูดเป็น vectors ที่กระตุ้นทิศทางการลดสัญญาณรบกวนในทุกขั้นตอน ในทางปฏิบัติ:
- Text encoder (เช่น CLIP, T5) เปลี่ยน "เส้นขอบฟ้าสีน้ำยามค่ำคืน โทนสีพาสเทล แสงที่นุ่มนวล" ให้เป็น embeddings
- Diffusion model จะให้ความสนใจกับ embeddings เหล่านี้ควบคู่ไปกับ latent noise
- เทคนิค guidance (เช่น classifier-free guidance) ขยายอิทธิพลของข้อความเมื่อเทียบกับ image prior แบบ "unconditional"
การปรับแต่ง text-to-image เป็นศิลปะ:
- Guidance scale: ค่าที่สูงขึ้นจะผลักดันภาพให้เข้าใกล้ prompt ของคุณมากขึ้น (ตามตัวอักษรมากขึ้น) แต่สูงเกินไปอาจทำให้เกิด artifacts หรือ oversaturation ลอง 5–9 เพื่อเริ่มต้น
- Steps: จำนวนขั้นตอนที่มากขึ้นมักจะให้ผลลัพธ์ที่ราบรื่นและมีรายละเอียดมากขึ้น 20–40 เป็นจุดที่เหมาะสมสำหรับ samplers จำนวนมาก
- Negative prompts: บอกโมเดลถึงสิ่งที่จะหลีกเลี่ยง ("เบลอ" "นิ้วพิเศษ" "ความคมชัดต่ำ") ซึ่งมีประสิทธิภาพอย่างมากสำหรับการขัดเกลาผลลัพธ์
Image-to-image, inpainting และ control: นอกเหนือจากข้อความล้วนๆ
Diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI ไม่ได้เกี่ยวกับ text prompts เท่านั้น คุณสามารถชี้นำโครงสร้าง องค์ประกอบ และสไตล์ด้วย:
- Image-to-Image: ให้ภาพต้นฉบับพร้อมกับ prompt พารามิเตอร์ strength ควบคุมปริมาณที่เอาต์พุตเบี่ยงเบนไปจากแหล่งที่มา
- Inpainting: ปิดบังบริเวณที่จะเปลี่ยนแปลง โมเดลจะเติมเฉพาะบริเวณนั้น โดยผสมผสานกับบริบทเพื่อให้การแก้ไขเป็นไปอย่างราบรื่น (คิดถึงการลบวัตถุหรือการเปลี่ยนชุด)
- ControlNets: โครงข่ายพิเศษที่ปรับสภาพกระบวนการ diffusion บน edges, pose, depth หรือ segmentation ทำให้สามารถควบคุม layout และ pose ในระดับพิกเซลได้
- LoRA/Embeddings: Lightweight adapters หรือ learned tokens ที่แทรกสไตล์หรือตัวละครใหม่โดยไม่ต้องฝึกอบรมโมเดลทั้งหมดใหม่
Samplers ถอดรหัส: เหตุใดภาพของคุณจึงดูแตกต่างกันด้วย Euler หรือ DPM++
Samplers ควบคุมวิถีการ diffusion แบบย้อนกลับ คิดว่าพวกมันเป็นเลนส์กล้องที่แตกต่างกันสำหรับฉากเดียวกัน:
- DDIM: วิถีที่รวดเร็วและราบรื่นโดยมีขั้นตอนน้อยกว่า ซึ่งเป็น baseline อเนกประสงค์ที่ดี
- PLMS: Pseudo-linear multistep ปรับปรุงรายละเอียดและความเสถียรด้วยความเร็วปานกลาง
- Euler/Euler a: พื้นผิวที่คมชัด "Euler a" เพิ่มความเป็นสุ่มที่มีการควบคุม
- DPM++ (2M/2S/3M): เทคโนโลยีล้ำสมัยสำหรับความคมชัดและความสอดคล้องในขั้นตอนที่น้อยกว่า
เคล็ดลับที่เป็นประโยชน์: หากภาพดูเรียบเนียนเกินไป ให้ลอง Euler a หรือ DPM++ 2M SDE หากมีสัญญาณรบกวนมากเกินไป ให้เพิ่ม steps หรือลองใช้ deterministic sampler เช่น DDIM
Seeds และการทำซ้ำ: ทำให้ความผิดพลาดที่มีความสุขทำซ้ำได้
Seed เริ่มต้นสัญญาณรบกวนแบบสุ่ม เก็บ seed ไว้เพื่อสร้างองค์ประกอบเดิมซ้ำโดยมีการเปลี่ยนแปลงเล็กน้อย:
- Seed เดิม + prompt เดิม + การตั้งค่าเดิม = ผลลัพธ์ที่ใกล้เคียงกัน
- เปลี่ยน seed เพื่อสำรวจองค์ประกอบที่แตกต่างกันอย่างรวดเร็ว
- ใช้ seed sweeps เพื่อค้นหา layouts ที่มีแนวโน้ม จากนั้นปรับ guidance scale และ steps
เหตุใด diffusion จึงเอาชนะวิธีการเก่ากว่าสำหรับการสร้างงานศิลปะ
GANs (Generative Adversarial Networks) เป็นมาตรฐานทองคำมาหลายปี แต่ประสบปัญหา mode collapse และความไม่เสถียรในการฝึกอบรม Autoregressive models (เช่น image generators ที่ใช้ transformer ในช่วงแรก) อาจมีความเที่ยงตรงสูง แต่ช้า
Diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI แสดงให้เห็นถึงข้อดีที่ชัดเจน:
- ความเสถียร: การฝึกอบรมนั้นง่ายกว่าและแข็งแกร่งกว่า GANs
- ความหลากหลาย: ปัญหา mode collapse น้อยกว่า ทำให้สามารถสร้างสไตล์และองค์ประกอบที่หลากหลายได้
- รายละเอียด: การปรับแต่งหลายขั้นตอนจะให้พื้นผิวที่คมชัดและความสอดคล้องโดยรวม
- การควบคุม: วิธีการปรับสภาพ (ข้อความ รูปภาพ ControlNets) ให้ทิศทางที่ละเอียด
ภายใต้ประทุน: ดูวัตถุประสงค์อย่างอ่อนโยน
Diffusion models ส่วนใหญ่เรียนรู้ที่จะทำนายสัญญาณรบกวน ε ที่เพิ่มเข้ามาในแต่ละขั้นตอน t โดยลดช่องว่างระหว่างสัญญาณรบกวนที่ทำนายกับสัญญาณรบกวนที่แท้จริง Classifier-free guidance ทำงานโดยการรันโมเดลสองครั้ง ครั้งหนึ่งด้วย prompt ของคุณและอีกครั้งแบบ "unconditional" และรวมเอาต์พุตเพื่อเบี่ยงเบนไปทาง prompt ของคุณ
คุณไม่จำเป็นต้องมีสมการเพื่อใช้งานให้ดี แต่การรับรู้การตั้งค่านี้จะอธิบายว่าเหตุใด guidance scale จึงมีความสำคัญ: ต่ำเกินไปและภาพจะเบี่ยงเบน สูงเกินไปและจะ overfit กับ prompt tokens และนำ artifacts เข้ามา
Playbook ที่ใช้งานได้จริง: การได้ผลลัพธ์ที่ดีขึ้นอย่างสม่ำเสมอ
นี่คือ workflow ที่ผ่านการทดสอบในการต่อสู้เพื่อเปลี่ยน diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI ให้เป็นเอาต์พุตที่เชื่อถือได้:
- จัดโครงสร้าง prompt ของคุณ
- เริ่มต้นด้วย subject: "ภาพเหมือนของนักสำรวจผมสีเงิน"
- เพิ่ม modifiers: สไตล์ ยุค แสง สี
- ระบุ medium: สีน้ำ สีน้ำมัน สมจริง ภาพยนตร์ 35 มม.
- ใส่คำแนะนำเกี่ยวกับองค์ประกอบ: close-up, มุมกว้าง, กฎสามส่วน
- ปิดท้ายด้วย quality tags อย่างประหยัด: "โฟกัสที่คมชัด รายละเอียดสูง โทนสีผิวที่เป็นธรรมชาติ"
- Steps: 25–40 เพื่อความสมดุลระหว่างความเร็ว/คุณภาพ 60+ สำหรับฉากที่ซับซ้อน
- Guidance scale: 5–9 โดยทั่วไป สำรวจ 3–12 เพื่อเรียนรู้ขอบเขต
- Resolution: เริ่มต้นที่ 512–768 ที่ขอบสั้น อัปสเกลด้วย upscalers คุณภาพสูงหากจำเป็น
- Sampler: ลอง DDIM เพื่อความเร็ว DPM++ เพื่อความคมชัด Euler a สำหรับพื้นผิว
- เชี่ยวชาญ negative prompts
- Negatives ทั่วไป: "low-res, blurry, jpeg artifacts, extra fingers, deformed hands, watermark, text"
- Scene-specific negatives: "foggy, harsh shadows, washed-out colors"
- Image-to-image ที่มี strength 0.25–0.6 เพื่อรักษาสภาพโครงสร้างแต่พัฒนาสไตล์
- ControlNet ที่มี Canny edges หรือ depth maps สำหรับ layout ที่สอดคล้องกันในชุด
- ล็อค seed เมื่อคุณชอบองค์ประกอบ เปลี่ยน guidance และ steps เพื่อขัดเกลา
- ทำ variation batches: seed คงที่ สัญญาณรบกวนแบบสุ่มเล็กน้อย
- Post-process อย่างชาญฉลาด
- ใช้ VAE ที่แข็งแกร่งหรือ external upscaler (latent หรือ diffusion-based) เพื่อรักษารายละเอียด
- ปรับสีเล็กน้อยหรือลดสัญญาณรบกวนในโปรแกรมแก้ไขภาพเพื่อความเงางามขั้นสุดท้าย
การชี้นำขั้นสูง: สไตล์ ตัวละคร และฉากซ้ำๆ
- LoRA libraries: แนบ style LoRAs ที่มีน้ำหนักต่ำ (0.4–0.8) สำหรับอิทธิพลที่ละเอียดอ่อน ซ้อนกันสองอันเบาๆ แทนที่จะเป็นอันเดียวหนักๆ เพื่อความสมดุลที่ดีขึ้น
- Textual Inversion: เรียนรู้ custom tokens สำหรับตัวละครแบรนด์ ผลิตภัณฑ์ หรือสไตล์ศิลปะเฉพาะที่คุณต้องการนำกลับมาใช้ใหม่
- Multi-condition control: รวม pose + depth + normal maps เพื่อความสอดคล้องในภาพยนตร์ทั่วทั้งเฟรมหรือแผง
- Refiners: ใช้ diffusion model รองในขั้นตอนต่อมาเพื่อเพิ่มความคมชัดของใบหน้าหรือพื้นผิว
เร่งความเร็วโดยไม่สูญเสียจิตวิญญาณ
Diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI มักจะก่อให้เกิดความกังวลอย่างหนึ่ง: ความเร็ว ตัวเลือกต่างๆ ได้แก่:
- ขั้นตอนที่น้อยลง + samplers ที่ดีกว่า (DPM++ 2M, DDIM ที่มีการปรับ eta)
- Distilled หรือ consistency models ที่ประมาณผลลัพธ์หลายขั้นตอนในขั้นตอนที่น้อยกว่ามาก
- Latent upscaling: สร้างขนาดเล็ก จากนั้นอัปสเกลด้วยการปรับปรุงรายละเอียด
- Hardware acceleration: ปรับให้เหมาะสมด้วย xFormers, flash attention, TensorRT หรือ ONNX runtimes
นอกเหนือจากภาพนิ่ง: Video diffusion และ motion guidance
Video diffusion ขยาย image diffusion ไปตามเวลา: โมเดลจะลดสัญญาณรบกวนของลำดับด้วย temporal attention โดยรักษาสภาพความสอดคล้องทั่วทั้งเฟรม สัญญาณควบคุม เช่น optical flow หรือ pose sequences จะชี้นำการเคลื่อนไหว คาดหวัง:
- Loopable cinemagraphs และ short reels
- Consistent character animation ที่ชี้นำโดย key poses
- Text-to-video models ที่สังเคราะห์ภาพด้วยการเคลื่อนไหวของกล้องและความต่อเนื่องของแสง
จริยธรรมและความปลอดภัย: การตรวจสอบอำนาจสร้างสรรค์
ด้วยอำนาจการสร้างที่ยิ่งใหญ่มาพร้อมกับความรับผิดชอบ:
- ความยินยอมและการระบุแหล่งที่มา: เคารพสิทธิ์ของศิลปิน ใช้ชุดข้อมูลที่ได้รับอนุญาตหรือเลือกเข้าร่วมหากเป็นไปได้
- Bias และการเป็นตัวแทน: Prompts และชุดข้อมูลสามารถสะท้อนถึงอคติทางสังคม—ตอบโต้พวกมันอย่างชัดเจน
- การป้องกันการใช้งานในทางที่ผิด: Watermarks, provenance metadata (เช่น C2PA) และ content filters ช่วยลดอันตราย
การแก้ไขปัญหา: เมื่อผลลัพธ์ผิดพลาด
- Overfitting กับ prompt: ลด guidance scale หรือลดความซับซ้อนของคำคุณศัพท์
- Anatomy glitches: เพิ่ม "anatomically correct" ใช้ refiner เฉพาะใบหน้าหรือมือ หรือให้ pose control
- Muddy textures: เพิ่ม steps ลอง sampler ที่แตกต่างกัน หรือลดความรุนแรงของ negative prompt
- Repetition หรือ tiling: เปลี่ยน seed เปลี่ยนคำแนะนำเกี่ยวกับองค์ประกอบ หรือเพิ่ม "no tiling" ลงใน negative prompt
สิ่งที่ควรทราบ: การปรับปรุง workflows สร้างสรรค์ให้คล่องตัวด้วย AI ช่วย
หากคุณกำลังทำซ้ำ prompts ทดสอบ samplers และจัดระเบียบผลลัพธ์ พื้นที่ทำงานที่รักษา versions, seeds และการตั้งค่าให้สอดคล้องกันสามารถประหยัดเวลาได้หลายชั่วโมง นอกจากนี้ เครื่องมืออย่าง Sider.AI สามารถช่วยคุณร่าง prompts ที่มีโครงสร้าง เปรียบเทียบรุ่นต่างๆ แบบเคียงข้างกัน และสรุปการเปลี่ยนแปลงพารามิเตอร์ เพื่อให้คุณเรียนรู้ว่าอะไรที่ปรับปรุงภาพได้จริง โดยเฉพาะอย่างยิ่งเมื่อคุณกำลังเล่นกับ LoRAs, ControlNets และ multiple seeds ใน project brief ประเด็นสำคัญที่คุณสามารถนำไปปฏิบัติได้ในวันนี้
- คิดในแง่ของการควบคุม: subject, สไตล์, องค์ประกอบ, แสง และ medium
- เริ่มต้นง่ายๆ เพิ่ม modifiers หลังจากที่คุณล็อคองค์ประกอบ
- ปฏิบัติต่อ guidance scale และ steps เหมือนกับการ exposure และ ISO—ปรับแต่งอย่างรอบคอบ
- ใช้ negative prompts, ControlNets และ seeds เพื่อความแม่นยำและการทำซ้ำ
- ใช้ประโยชน์จาก refiners และ upscalers เพื่อการขัดเกลาที่พร้อมสำหรับการผลิต
เส้นทางข้างหน้าสำหรับ diffusion models
Diffusion models ที่อธิบายไว้สำหรับการสร้างงานศิลปะ AI ยังคงพัฒนาไปอย่างรวดเร็ว คาดหวัง:
- Samplers ที่เร็วยิ่งขึ้นผ่าน consistency training และ rectified flows
- Multimodal conditioning ที่แข็งแกร่งกว่า (sketches, audio beats, layout graphs)
- การรักษาสภาพตัวละครและเอกลักษณ์ที่ดีขึ้นทั่วทั้งฉากและวิดีโอ
- Native provenance tags และ defaults ที่ปลอดภัยกว่า
เวทมนตร์เบื้องหลังพิกเซลไม่ใช่เวทมนตร์เลย แต่เป็นการเต้นรำที่มีระเบียบวินัยระหว่างสัญญาณรบกวนและโครงสร้าง ชี้นำโดยความตั้งใจของคุณ เชี่ยวชาญการควบคุม และ diffusion จะกลายเป็นลอตเตอรี่น้อยลงและเป็นเครื่องดนตรีมากขึ้น
คำถามที่พบบ่อย
Q1: Diffusion models ในการสร้างงานศิลปะ AI คืออะไร Diffusion models เรียนรู้ที่จะย้อนกลับกระบวนการเพิ่มสัญญาณรบกวน โดยเปลี่ยนสัญญาณรบกวนแบบสุ่มให้เป็นภาพที่ตรงกับ prompt ของคุณ โดยการลดสัญญาณรบกวนทีละขั้นตอนด้วย learned guidance พวกเขาจะสร้างงานศิลปะที่มีรายละเอียดและสอดคล้องกัน
Q2: Text prompts ชี้นำ diffusion models ได้อย่างไร Text encoder จะเปลี่ยน prompt ของคุณให้เป็น embeddings ที่ชี้นำการลดสัญญาณรบกวนในทุกขั้นตอน ด้วย classifier-free guidance คุณสามารถควบคุมความแรงที่ภาพยึดติดกับ prompt ของคุณได้
Q3: เหตุใดจึงต้องใช้ latent diffusion แทนที่จะใช้ pixel diffusion Latent diffusion ทำงานในพื้นที่บีบอัด ทำให้การสร้างภาพเร็วขึ้นและมีประสิทธิภาพด้านหน่วยความจำมากขึ้น ในขณะที่ยังคงรักษาคุณภาพสูง ทำให้สามารถมีความละเอียดที่สูงขึ้นและ workflows การแก้ไขที่ใช้งานได้จริง
Q4: Sampler ใดดีที่สุดสำหรับงานศิลปะ AI ด้วย diffusion models ขึ้นอยู่กับเป้าหมายของคุณ: DDIM เพื่อความเร็ว Euler a สำหรับรายละเอียดพื้นผิว และ DPM++ variants สำหรับความคมชัดและความเสถียร ลอง 25–40 ขั้นตอนด้วย DPM++ เป็นจุดเริ่มต้นที่แข็งแกร่ง
Q5: ฉันจะแก้ไข diffusion artifacts ทั่วไป เช่น นิ้วพิเศษ ได้อย่างไร ใช้ negative prompts (เช่น 'extra fingers, deformed hands') ลด guidance scale เล็กน้อย เพิ่มขั้นตอน หรือใช้ refiner model ControlNet ที่มี pose guidance ยังช่วยปรับปรุง anatomy ได้อีกด้วย