บทนำ: วันหยุดสุดสัปดาห์ที่ฉันพยายามสอนให้แล็ปท็อปของฉันคิด
สารภาพตามตรง: ฉันใช้เวลาวันเสาร์พยายามทำให้แล็ปท็อปของฉันรัน large language model ลองนึกภาพฉัน ถือแก้วกาแฟในมือ กระซิบให้กำลังใจหน้าต่างเทอร์มินัลราวกับว่ามันเป็น sourdough starter: “เอาเลย ทำได้อยู่แล้ว” หากคุณเคยลองเล่นกับ Ollama ซึ่งเป็นวิธีที่เป็นมิตรและครบวงจรในการรันโมเดล AI บนคอมพิวเตอร์ของคุณเอง คุณจะรู้สึกถึงความตื่นเต้นของ Local AI ที่ไม่ต้องโทรกลับบ้าน แต่ถ้าคุณต้องการรสชาติที่แตกต่าง: อินเทอร์เฟซที่ดีกว่า บูสต์ความเร็ว การรองรับ GPU ที่ดีกว่า หรือการควบคุมที่ปรับแต่งอย่างละเอียดล่ะ
ข่าวดี: Ollama ไม่ได้เป็นเพียงตัวเลือกเดียว ในปี 2025 จะมีตลาดที่คึกคักของผู้รัน LLM ในเครื่อง, GUI และเซิร์ฟเวอร์โมเดลที่สามารถเปลี่ยนคอมพิวเตอร์ของคุณให้เป็นเครื่องพิมพ์ดีดข้ามเวลา วันนี้ เราจะไปสำรวจตัวเลือกที่ดีที่สุดของ Ollama สิ่งที่พวกมันทำได้ดี สิ่งที่พวกมันทำพลาด และตัวเลือกใดที่เหมาะกับการตั้งค่าของคุณ ไม่ว่าคุณจะเป็นนักปรับแต่งที่อยากรู้อยากเห็น หรือ CTO ของ Your Household
อย่างไรก็ตาม ฉันได้ตรวจสอบความเป็นไปได้ของสิ่งที่กำลังเป็นที่นิยมและสิ่งที่ hype ในวงการ Local AI ซึ่งรวมถึงบทสรุปของเครื่องมือ LLM ในเครื่องและการเปรียบเทียบ คุณจะเห็นการอ้างอิงแทรกอยู่เมื่อเราดำเนินการ และฉันได้สำรวจไปทั่วจักรวาลบล็อกของ Sider.AI เพื่อดูว่ามันเหมาะสมกับผู้ที่ทำการวิจัยและเขียนด้วย AI ทุกวันได้อย่างไร สิ่งนี้เหมาะสำหรับใคร (และใครที่สามารถเลื่อนผ่านไปได้อย่างปลอดภัย)
- คุณต้องการรันโมเดล AI ในเครื่องเพื่อความเป็นส่วนตัว ความเร็ว หรือเพราะ Wi-Fi ของคุณบางครั้งก็ประพฤติตัวเหมือนแรคคูนที่คุ้ยเขี่ยขยะของคุณ
- คุณเคยลอง Ollama หรือเคยได้ยินเกี่ยวกับมัน และคุณกำลังสงสัยว่า: มีเครื่องมือที่ดีกว่าสำหรับ GPU ของฉันหรือไม่? เวิร์กโฟลว์ของฉัน? สุขภาพจิตของฉัน?
- คุณชอบปุ่มที่เป็นมิตรมากกว่าบรรทัดคำสั่ง หรือในทางกลับกัน เรามีให้ทั้งสองอย่าง
หากคุณเพียงต้องการแชทกับ AI ในเบราว์เซอร์และไม่ต้องแตะต้องการตั้งค่าใดๆ นี่อาจจะมากเกินไป สำหรับพวกเราที่เหลือ: ลุยเลย
รายการสั้น: ตัวเลือก Ollama ที่ดีที่สุดตามบุคลิก
- LM Studio: บรรยากาศ "App Store" สำหรับโมเดลในเครื่อง พร้อม GUI ที่สวยงามและการดาวน์โหลดที่ง่าย เป็นมิตรมาก เหมาะสำหรับการเรียกดูโมเดลและเริ่มต้นใช้งาน
- Text Generation WebUI (oobabooga): เว็บแอป Swiss Army มีตัวเลือกมากมาย ส่วนขยาย ค่าที่ตั้งไว้ล่วงหน้าของตัวละคร สวรรค์ของผู้ใช้ขั้นสูง
- OpenWebUI: อินเทอร์เฟซแชทที่สะอาดและทันสมัย ซึ่งสามารถวางไว้บนส่วนหลังของเครื่อง Less fiddly กว่า TGWUI แต่ก็ยังมีความยืดหยุ่น
- llama.cpp (และเพื่อนๆ): เอ็นจินระดับล่างที่อยู่เบื้องหลังเครื่องมือมากมาย น้ำหนักเบา เป็นมิตรกับ CPU/GPU เหมาะสำหรับการตั้งค่าแบบฝังหรือแบบมินิมอล
- vLLM: หากคุณสนใจเกี่ยวกับ throughput และการให้บริการผู้ใช้หลายคน เช่น ห้องปฏิบัติการ ทีม หรือการปรับแต่งอย่างจริงจัง vLLM คือช่องทางด่วนของคุณ
- KoboldCpp / KoboldAI: เหมาะสำหรับเวิร์กโฟลว์การเขียนเรื่องราว การเล่นตามบทบาท และเซสชันสร้างสรรค์รูปแบบยาว หน่วยความจำและเครื่องมือตัวละครที่แข็งแกร่ง
- LMDeploy และ inference/serving stacks อื่นๆ: สำหรับกลุ่มคนที่ “ฉันต้องการประสิทธิภาพสูงสุดบน GPU ของฉัน” การกำหนดค่าที่มากขึ้น ความเร็วที่มากขึ้น
แผนที่การเลือก: คุณต้องการอะไรจริงๆ
- “ฉันเป็นมือใหม่ โปรดอย่าให้ฉันจำ flags” LM Studio หรือ OpenWebUI เริ่มต้นที่นี่หากคุณชอบอินเทอร์เฟซที่เป็นมิตรและการตั้งค่าที่น้อยที่สุด
- “ให้ปุ่มและคันโยกทั้งหมดแก่ฉัน” Text Generation WebUI คุณจะได้รับการควบคุมการจัดตารางเวลา เทมเพลตพร้อมท์ ปลั๊กอิน และอื่นๆ
- “แล็ปท็อปของฉันอยู่ในระดับกลาง แต่ฉันดื้อรั้น” llama.cpp น้ำหนักเบา มีประสิทธิภาพ มีความสามารถอย่างน่าประหลาดใจบนฮาร์ดแวร์ที่ไม่แพง
- “ฉันต้องการให้บริการโมเดลสำหรับทีมของฉัน” vLLM หรือ server stack ที่เทียบเคียงได้ Throughput และ concurrency มีความสำคัญที่นี่
- “ฉันเขียนนิยายและใส่ใจเกี่ยวกับหน่วยความจำระยะยาว” เครื่องมือที่มีรสชาติของ Kobold สามารถเปล่งประกายสำหรับ narrative AI ที่มีหน่วยความจำถาวร
ทำไมไม่ใช้แค่ Ollama ล่ะ
Ollama นั้นยอดเยี่ยม โดยเฉพาะอย่างยิ่งหากคุณต้องการการติดตั้งแบบ one-liner และการดึงโมเดลง่ายๆ แต่มันทำสิ่งต่างๆ ในแบบของ Ollama รูปแบบโมเดล รีจิสทรี รันไทม์ หากคุณต้องการ GUI ที่สวยงาม การให้บริการผู้ใช้หลายคนอย่างซับซ้อน หรือการเพิ่มประสิทธิภาพ GPU ที่ปรับแต่งเป็นพิเศษ คุณอาจจะมีความสุขกว่าที่อื่น และถ้าคุณมี frontend โมเดลที่คุณชื่นชอบอยู่แล้ว (OpenWebUI เป็นต้น) คุณอาจชอบ backend ที่ทำงานได้ดีกับมัน
มาสำรวจทางเลือกต่างๆ ในสไตล์ Pogue กัน
LM Studio: ร้านกาแฟแสนสบายสำหรับโมเดลในเครื่อง
หาก Ollama เป็นไดรฟ์ทรู LM Studio คือคาเฟ่ที่มีโซฟา คุณดาวน์โหลดแอป เรียกดูแค็ตตาล็อกโมเดล และคลิกเพื่อติดตั้ง แชท ทดลอง สลับโมเดล โดยไม่ต้องเจรจาต่อรองกับไวยากรณ์บรรทัดคำสั่ง มันแสดง API หากคุณต้องการ แต่ก็ไม่ได้ทำให้คุณต้องเรียนรู้ YAML เพื่อให้รู้สึกฉลาด สำหรับหลายๆ คน นี่คือ “Local AI ที่ให้ความรู้สึกเหมือนแอปปกติ” ซึ่งเป็นเหตุผลว่าทำไมมันถึงปรากฏในรายการที่ดีที่สุดอยู่เสมอ
ข้อดี
- GUI ที่ยอดเยี่ยมและการค้นพบโมเดล
- เริ่มต้นอย่างรวดเร็วสำหรับผู้เริ่มต้น
- ความเป็นส่วนตัวแบบ Local-first โดยไม่ต้องทำการบ้าน
ข้อเสีย
- ไม่ใช่ระบบที่ปรับแต่งได้มากที่สุดสำหรับการปรับแต่งแบบฮาร์ดคอร์
- ประสิทธิภาพขึ้นอยู่กับฮาร์ดแวร์และโมเดลที่คุณเลือกอย่างมาก
เหมาะสำหรับ: ผู้ที่อยากรู้อยากเห็นที่ต้องการ Local AI โดยไม่ต้องหมักตัวในไฟล์ config
Text Generation WebUI (oobabooga): ห้องควบคุมของยานอวกาศ AI ของคุณ
นี่คือเว็บแอปที่คุณรันในเครื่อง มันเหมือนกับการเดินเข้าไปในห้องนักบิน: ปุ่ม แถบเลื่อน ค่าที่ตั้งไว้ล่วงหน้าของตัวละคร การตั้งค่าหน่วยความจำ แผงปลั๊กอินสำหรับ vision, TTS และอื่นๆ หากคุณเขียน prompt-engineer หรือเล่นตามบทบาท TGWUI คือร้านขนมหวาน คุณสามารถเชื่อมต่อ backend ที่แตกต่างกัน llama.cpp, exllama, CUDA ขึ้นอยู่กับ GPU และตัวเลือกโมเดลของคุณ มันเป็นเครื่องมือสำหรับผู้ที่ชื่นชอบ แต่เป็นเครื่องมือที่เป็นมิตรเมื่อคุณเรียนรู้การใช้งาน
ข้อดี
- การปรับแต่งและระบบนิเวศของปลั๊กอินจำนวนมาก
- เหมาะสำหรับการเขียนรูปแบบยาวและการทดสอบสถานการณ์
- ทำงานร่วมกับ backend และรูปแบบต่างๆ
ข้อเสีย
- การตั้งค่าอาจซับซ้อนกว่าแอป "ติดตั้งและใช้งาน"
- ตัวเลือกที่มากเกินไปอาจทำให้ผู้ใช้มือใหม่สับสน
เหมาะสำหรับ: ผู้ใช้ขั้นสูง นักเขียน และผู้ที่ชื่นชอบงานอดิเรกที่ต้องการสนามเด็กเล่น และไม่รังเกียจที่จะอยู่ในป่าดิบ
OpenWebUI: การแชทที่สะอาดและทันสมัยกับโมเดลของคุณ
ลองนึกภาพแอปแชทที่ทันสมัย แต่มันพูดคุยกับ AI ในเครื่องของคุณ นั่นคือ OpenWebUI มันมีการตั้งค่าที่น้อยกว่า TGWUI แต่ก็ผสานรวมเข้ากับ backend ทั่วไปได้ดี ลองนึกถึงมันว่า “less fiddly, more friendly” ซึ่งทำให้เป็นที่ชื่นชอบของผู้คนสำหรับทีมที่ต้องการอินเทอร์เฟซที่สอดคล้องกันบนรันไทม์ในเครื่อง
ข้อดี
- UX แชทที่ทันสมัยและสวยงาม
- ทำงานร่วมกับ backend ต่างๆ
- ง่ายต่อการแชร์ข้ามเครือข่ายในบ้านหรือทีมขนาดเล็ก
ข้อเสีย
- ปุ่มปรับแต่งน้อยกว่า TGWUI
- ความเข้ากันได้ของ Backend กำหนดคุณสมบัติของคุณ
เหมาะสำหรับ: ผู้ที่ให้ความสำคัญกับความชัดเจนและความเรียบง่าย แต่ยังคงต้องการการควบคุมในเครื่อง
llama.cpp: เอ็นจินเล็กๆ ที่ทำได้
เทคโนโลยีที่อยู่เบื้องหลังเทคโนโลยี llama.cpp คือเอ็นจิน inference C/C++ ที่รันโมเดล quantized ได้อย่างมีประสิทธิภาพบน CPU และ GPU ลองนึกภาพว่า: “จะเกิดอะไรขึ้นถ้าเราบีบ AI ผ่านหลอดดูด และมันก็ยังทำงานได้” เหมาะอย่างยิ่งสำหรับเครื่องที่ไม่แพง MacBook, mini-PC แม้แต่การตั้งค่า Raspberry Pi และเป็นกระดูกสันหลังที่อยู่เบื้องหลังเครื่องมืออื่นๆ อีกมากมาย
ข้อดี
- มีประสิทธิภาพมาก รันบนฮาร์ดแวร์ที่ไม่แพง
- เหมาะสำหรับ การตั้งค่าแบบฝังหรือออฟไลน์
- เสถียรและได้รับการสนับสนุนอย่างกว้างขวาง
ข้อเสีย
- ไม่ใช่แอปเต็มรูปแบบด้วยตัวมันเอง คุณจะต้องมี GUI หรือ wrapper
- ประสิทธิภาพอาจล้าหลังเซิร์ฟเวอร์ที่ปรับให้เหมาะสมกับ GPU ที่มีน้ำหนักมากบนโมเดลขนาดใหญ่
เหมาะสำหรับ: นักปรับแต่งและ minimalists ที่รักขนาดเล็ก รวดเร็ว และในเครื่อง
vLLM: ทางหลวงสำหรับการจราจรที่หนาแน่น
เมื่อคุณสนใจเกี่ยวกับความเร็วในการให้บริการและ concurrency vLLM จะเข้ามาพร้อมกับผ้าคลุม มันคือเซิร์ฟเวอร์ inference ประสิทธิภาพสูงที่เปล่งประกายเมื่อคุณมีผู้ใช้หลายคน คำขอหลายรายการ หรือแอปที่ละเอียดอ่อนต่อเวลา หากคุณกำลังเปลี่ยนอุปกรณ์ของคุณให้เป็นเซิร์ฟเวอร์โมเดลสำหรับทีม หรือทำการ benchmark เหมือนกับการออกกำลังกายแบบคาร์ดิโอ vLLM นั้นคุ้มค่าที่จะลองดู
ข้อดี
- Throughput ที่รวดเร็วและการใช้หน่วยความจำอย่างมีประสิทธิภาพ
- เหมาะสำหรับ การตั้งค่าแบบ multi-user หรือ production-style
- ทำงานได้ดีกับ frameworks ที่ได้รับความนิยม
ข้อเสีย
- ต้องใช้ความรู้ในการตั้งค่าและการดำเนินงานมากกว่า
- Overkill สำหรับการใช้งานแชทและไปคนเดียว
เหมาะสำหรับ: Devs ห้องปฏิบัติการ หรือบริษัทขนาดเล็กที่โฮสต์โมเดลสำหรับ workloads จริง
KoboldCpp / KoboldAI: ชุดเครื่องมือของนักเล่าเรื่อง
สำหรับ narrative writing และการเล่นตามบทบาท เครื่องมือที่มีรสชาติของ Kobold นำเสนอคุณสมบัติที่ทำให้นักเขียนสลบไสล: หน่วยความจำระยะยาว แผ่นตัวละคร โน้ตโลก และเทคนิคบริบทเพื่อความสอดคล้อง คุณแชทกับ muse ของคุณ มันจำการสร้างโลกของคุณได้ หากคุณเคยตะโกนใส่ AI เพราะลืมว่าใครคือคนร้าย นี่คือสิ่งที่คุณต้องการ
ข้อดี
- ปรับแต่งสำหรับนิยายและการเล่นตามบทบาท
- เครื่องมือหน่วยความจำระยะยาวและ persona
ข้อเสีย
- ใช้งานได้น้อยกว่า UIs อื่นๆ
- ผลลัพธ์ที่ดีที่สุดต้องใช้การปรับแต่งและการเลือกโมเดลเล็กน้อย
เหมาะสำหรับ: นักเขียนที่ต้องการ Local AI ที่จดจำได้มากกว่าย่อหน้าสุดท้าย
LMDeploy และ Performance-Oriented Stacks: เมื่อความเร็วคืองานที่ได้รับมอบหมาย
LMDeploy และ stacks ที่คล้ายกันมุ่งเน้นไปที่ประสิทธิภาพของ pipeline กลยุทธ์ quantization และการเพิ่มประสิทธิภาพ GPU หากคุณกำลังไล่ตาม frames-per-second เหมือนนักเล่นเกมที่ติดการ benchmark เครื่องมือเหล่านี้สามารถให้ข้อได้เปรียบเพิ่มเติมแก่คุณ โดยต้องแลกมาด้วยเวลาในการกำหนดค่า
ข้อดี
- ประสิทธิภาพที่ปรับแต่งได้สำหรับอุปกรณ์ที่จริงจัง
- เหมาะสำหรับ การทดลองและบีบประสิทธิภาพจาก GPU ของคุณมากขึ้น
ข้อเสีย
- การตั้งค่าอาจอยู่ในระดับ “ใส่หมวกกันน็อค”
- ไม่ใช่ตัวเลือกที่เป็นมิตรที่สุดสำหรับผู้ใช้ทั่วไป
เหมาะสำหรับ: Performance nerds และนักวิจัยที่ชอบปุ่มและ charts
การตรวจสอบความเป็นจริงอย่างรวดเร็วเกี่ยวกับ “Local” AI
Local ไม่ได้หมายถึง “เป็นส่วนตัว 100%” โดยอัตโนมัติ แอปบางแอปสามารถดึงโมเดลจากอินเทอร์เน็ต ดึงข้อมูลอัปเดต หรือโทรหา APIs ภายนอกสำหรับ voice, vision หรือ embeddings หากความเป็นส่วนตัวคือภารกิจของคุณ ให้เปิดโหมดเครื่องบินระหว่างการทดสอบ ใช้โมเดลออฟไลน์ และอ่านการตั้งค่าเหมือนคุณกำลังเซ็นสัญญาจำนอง เครื่องมือเหล่านี้ส่วนใหญ่ใช้งานได้ดีในโหมดออฟไลน์ แต่เฉพาะเมื่อคุณใช้งานออฟไลน์จริงๆ
การเลือกโมเดล: หลักการของหมีสามตัว
- โมเดลขนาดใหญ่ (70B+): มีความสามารถมากขึ้น ต้องใช้ RAM/GPU VRAM มากขึ้น ความร้อนมากกว่าเครื่องปิ้งขนมปังของคุณ
- ขนาดกลาง (7B–13B): จุดที่เหมาะสมสำหรับแล็ปท็อปที่มี GPUs ที่ดี ประสิทธิภาพทั่วไปที่ดี
- เล็ก (3B–4B): รวดเร็วบนฮาร์ดแวร์ที่ไม่แพง มีความสามารถอย่างน่าประหลาดใจสำหรับงานบางอย่าง แม้ว่าบางครั้งพวกมันจะ hallucinate ชื่อกลางของสุนัขของคุณ
หากมีข้อสงสัย ให้เริ่มต้นเล็กๆ รันโมเดล 7B ให้ดี จากนั้นเพิ่มขนาดขึ้นจนกว่าพัดลมของคุณจะเริ่มแต่งเพลง techno
ความเป็นจริงของฮาร์ดแวร์: วายร้ายที่เงียบ
- GPU VRAM คือราชา หาก GPU ของคุณมี 8GB คุณอาจจะสามารถใช้โมเดล quantized 13B ได้อย่างระมัดระวัง
- RAM มีความสำคัญสำหรับการโหลดโมเดล แต่ VRAM คือคอขวดสำหรับ snappy inference
- CPUs สามารถรันโมเดล quantized ผ่าน llama.cpp ได้ แต่อย่าคาดหวังว่าจะได้จรวด นี่คือการล่องเรือที่ดี
เรื่องราวของการตั้งค่าสองแบบ: สถานการณ์จริง
ผู้สร้างทั่วไป
- เป้าหมาย: ร่างจดหมายข่าว ระดมสมอง ร่างสคริปต์ YouTube ในเครื่อง
- เลือก: LM Studio หรือ OpenWebUI สำหรับ front end ที่เป็นมิตร
- โมเดล: โมเดลทั่วไป 7B ใน quantization 4-bit เพื่อความเร็ว
- เคล็ดลับ: ทำให้ prompts ของคุณสั้นและเฉพาะเจาะจง สลับโมเดลหากโทนเสียงรู้สึกแปลก มันเหมือนกับการเปลี่ยนกีตาร์สำหรับเพลงที่แตกต่างกัน
ฮีโร่ Home Lab
- เป้าหมาย: ผู้ใช้หลายคน อาจจะเป็น wiki ของครอบครัวหรือผู้ช่วยเขียนโค้ด
- เลือก: vLLM เป็น backend server OpenWebUI เป็น chat front end
- โมเดล: บางอย่างที่มีขนาดกลางเพื่อความสมดุล พิจารณาโมเดลการเขียนโค้ดเฉพาะทางสำหรับงาน dev
- เคล็ดลับ: รัน benchmarks โดยมีและไม่มี quantization เพื่อทำความเข้าใจ throughput ของคุณ
นักเขียนนิยาย
- เป้าหมาย: ความสอดคล้องในรูปแบบยาวและหน่วยความจำตัวละคร
- เลือก: KoboldAI/KoboldCpp หรือ TGWUI ที่มีส่วนขยายหน่วยความจำ
- โมเดล: โมเดลที่ปรับแต่งสำหรับการเล่าเรื่อง ลองใช้ขนาดที่เล็กลงเพื่อการทำซ้ำที่เร็วขึ้น
- เคล็ดลับ: ใช้ world notes และ character cards AI ของคุณคือ partner improv ที่อดทนมาก
แล้ว Multimodal ล่ะ: ข้อความ รูปภาพ และเสียง
ระบบนิเวศในเครื่องกำลังเป็น multimodal มากขึ้นในแต่ละสัปดาห์ UIs บางตัวช่วยให้คุณเพิ่มความเข้าใจภาพ TTS หรือ STT modules ได้ มันเหมือนกับการเพิ่มเครื่องดนตรีใหม่ให้กับวงดนตรี เพียงแค่ทดสอบทีละตัวเพื่อให้คุณรู้ว่าปลั๊กอินตัวไหนทำให้ฉาบแฉดัง ชุมชนอย่าง r/LocalLLaMA เต็มไปด้วย toolkits ที่ผสมผสานข้อความ เสียง และการสร้างภาพสำหรับ “AI studio” ที่แท้จริงบนโต๊ะทำงานของคุณ
Sider.AI ในส่วนผสม: ผู้ช่วยด้าน Browser ช่วยที่ไหน นี่คือความประหลาดใจ: Sider.AI (ใช่ คนที่โฮสต์บล็อกนี้) ทำงานได้ดีที่สุดเมื่อคุณกำลังค้นคว้า ร่าง และจัดระเบียบความคิดในเบราว์เซอร์ มันไม่ใช่ local model runner นั่นคือสิ่งที่ Ollama alternatives เหล่านี้ทำ แต่มีบทบาทสนับสนุนที่ดีเมื่อคุณกำลังจัดการแหล่งข้อมูล ตัด snippets หรือสังเคราะห์โน้ตเป็น prose ที่มนุษย์อ่านได้ ลองนึกถึงมันว่าเป็น research sidekick ของคุณในขณะที่ local model ของคุณกำลังฮัมเพลงอยู่ในพื้นหลัง การรายงานข่าวของพวกเขาเกี่ยวกับ alternative stacks สำหรับ dev agents และ knowledge frameworks แสดงให้เห็นว่าพวกเขายังคงจับตาดูด้านปฏิบัติของ AI tooling ไม่ใช่แค่ demos ที่สวยงาม Gotchas และวิธีหลบหลีกพวกมัน
- Model Soup: รูปแบบต่างๆ (GGUF, Safetensors ฯลฯ) และระดับ quantization อาจทำให้สับสน เริ่มต้นด้วย model card ที่มีเอกสารครบถ้วนและทำตามรูปแบบที่เครื่องมือแนะนำ
- VRAM Mirage: หากโมเดลเกือบโหลดได้ มันจะยังคง crash ห้าทีต่อมาในการแชท ตรวจสอบข้อกำหนด VRAM และเว้นที่ว่าง
- Plugin Pileup: เพิ่มส่วนขยายทีละตัว หากประสิทธิภาพลดลง คุณจะรู้ว่าใครคือผู้กระทำผิด
- Update Gremlins: Version mismatches ระหว่าง backends และ UIs สร้างข้อผิดพลาดลึกลับ Freeze versions เมื่อคุณมีการตั้งค่าที่เสถียร
คู่มือฉบับย่อ: การสลับจาก Ollama เป็น Alternative
สถานการณ์: คุณเคยใช้ Ollama แต่ต้องการ GUI ที่เป็นมิตรมากขึ้นและการควบคุมที่มากขึ้น
- ดาวน์โหลดแอปสำหรับ OS ของคุณ
- เรียกดูโมเดลและเลือก 7B เพื่อเริ่มต้น
- แชทและปรับแต่ง sampling parameters (temperature, top-p) ด้วย sliders
- หากคุณต้องการ API access ให้เปิดใช้งาน server mode และชี้ client ของคุณไปที่ localhost
- หรือลอง OpenWebUI + llama.cpp
- ติดตั้ง llama.cpp build สำหรับแพลตฟอร์มของคุณ
- คว้า GGUF model (เริ่มต้นด้วย 7B, 4-bit)
- รัน OpenWebUI และตั้งค่า llama.cpp เป็น backend
- เพลิดเพลินกับ chat interface ที่สะอาดตาพร้อมการสลับโมเดล
- หรือไปที่ Full Power: TGWUI
- ติดตั้ง Text Generation WebUI (ทำตามคำแนะนำของ repo หายใจเข้าลึกๆ)
- เลือก backend (CUDA, ROCm, Metal) ที่เหมาะกับ GPU ของคุณ
- สำรวจส่วนขยายสำหรับหน่วยความจำ prompts และ multimodal extras
การเปรียบเทียบประสบการณ์: ความรู้สึก vs. ความเร็ว vs. การควบคุม
- ความรู้สึก (UX): LM Studio และ OpenWebUI ชนะในด้านความเป็นมิตร TGWUI ลึกกว่า แต่ยุ่งกว่า
- ความเร็ว: vLLM และ tuned backends เช่น exllama/LLMDeploy สามารถ scream บนฮาร์ดแวร์ที่เหมาะสม
- การควบคุม: เครื่องมือ TGWUI และ Kobold-centric ให้ปุ่มปรับแต่งมากมาย llama.cpp ให้ minimalism และ compatibility
สิ่งที่ Roundups พูด (และที่ที่จะสงสัย)
Roundups มักจะเน้น Ollama, LM Studio, TGWUI และ vLLM เป็นแกนหลัก โดยมีการยกย่อง llama.cpp สำหรับประสิทธิภาพ และเครื่องมือ Kobold สำหรับนักเขียน ระวังคำตัดสินแบบ one-size-fits-all แม้ว่าฮาร์ดแวร์ โมเดล และความอดทนของคุณสำหรับการตั้งค่าล้วนมีความสำคัญมากกว่ารายการ “Top 5” สิ่งที่บินได้บน 24GB GPU อาจ crawl บน MacBook Air และในทางกลับกันหากคุณเลือก quantizations อย่างชาญฉลาด
ความคิดเห็นของฉัน: บันไดแนะนำที่เป็นมิตร
- เริ่มต้น: LM Studio หรือ OpenWebUI รับชัยชนะอย่างรวดเร็ว
- จากนั้น: ลอง TGWUI หากคุณต้องการการควบคุมและปลั๊กอินที่มากขึ้น
- ถัดไป: สำรวจ llama.cpp หากคุณต้องการน้ำหนักเบาและพกพาได้
- สำหรับทีม: Spin up vLLM หรือ server ที่คล้ายกันเมื่อคุณต้องการ concurrency
- สำหรับนักเขียน: เครื่องมือที่มีรสชาติของ Kobold ที่มีคุณสมบัติหน่วยความจำ
อีกสิ่งหนึ่ง… (เพราะมีอยู่เสมอ)
Local AI ก็เหมือนกับการทำสวนหลังบ้าน มะเขือเทศลูกแรกจะเล็ก และคุณจะภูมิใจอย่างไม่มีเหตุผลอยู่ดี คุณจะปรับแต่งดิน (quantization) แสงแดด (VRAM) และน้ำ (sampling params) และวันหนึ่ง คุณจะดึง chatbot ที่สมบูรณ์แบบ เป็นส่วนตัว และรวดเร็วออกจากเครื่องของคุณเอง และตระหนักว่าคุณจะไม่มีวันกลับไปอีกแล้ว
ประเด็นสำคัญสรุป
- Ollama นั้นยอดเยี่ยม แต่ทางเลือกอื่นๆ เปล่งประกายสำหรับ GUIs (LM Studio, OpenWebUI) พลังและปลั๊กอิน (TGWUI) ความเร็ว/การให้บริการ (vLLM) ประสิทธิภาพ (llama.cpp) และการเล่าเรื่อง (เครื่องมือ Kobold)
- จับคู่เครื่องมือกับฮาร์ดแวร์และเป้าหมายของคุณ เริ่มต้นเล็กๆ จากนั้นปรับขนาด
- อ่าน model cards ใส่ใจ VRAM เพิ่มปลั๊กอินอย่างช้าๆ
- ใช้ Sider.AI เป็น research sidekick ของคุณเมื่อคุณกำลังรวบรวมแหล่งข้อมูลและสร้างร่างในเบราว์เซอร์ local runners ทำ inference, Sider.AI ช่วยคุณจัดการคำศัพท์
FAQ
Q1: ตัวเลือก Ollama ที่ดีที่สุดสำหรับผู้เริ่มต้นคืออะไร?
LM Studio และ OpenWebUI เป็นตัวเลือก Ollama ที่เป็นมิตรที่สุด พวกเขาให้ interface ที่สะอาด การเรียกดูโมเดลที่ง่าย และ quick wins โดยไม่ต้องล่าสมบัติในบรรทัดคำสั่ง
Q2: ตัวเลือก Ollama ตัวใดที่เร็วที่สุดสำหรับการให้บริการ multi-user?
vLLM สร้างขึ้นเพื่อ throughput และ concurrency ทำให้เป็นตัวเลือกอันดับต้นๆ สำหรับสถานการณ์ multi-user หรือทีม ต้องใช้การตั้งค่ามากกว่าแอป one-click แต่ผลตอบแทนด้านประสิทธิภาพนั้นคุ้มค่า
คำถามที่ 3: หากฉันมีแล็ปท็อปสเปคไม่สูง ฉันควรลองใช้เครื่องมือใดก่อนดี?
เริ่มต้นด้วย llama.cpp ผ่านส่วนหน้าอย่างง่าย เช่น OpenWebUI หรือ LM Studio ใช้โมเดลขนาดเล็ก 7B ที่มีการควอนไทซ์ 4 บิต เพื่อให้การทำงานรวดเร็วโดยที่พัดลมไม่ทำงานหนักเกินไป
คำถามที่ 4: ฉันเป็นนักเขียน — การตั้งค่าในเครื่องแบบใดที่ดีที่สุดสำหรับเรื่องราวขนาดยาว?
KoboldCpp หรือ KoboldAI โดดเด่นสำหรับการเล่าเรื่องด้วยฟีเจอร์หน่วยความจำและเครื่องมือสำหรับตัวละคร Text Generation WebUI เป็นอีกตัวเลือกที่แข็งแกร่ง หากคุณต้องการปลั๊กอินเพิ่มเติมและการปรับแต่งเชิงลึก
คำถามที่ 5: ฉันสามารถรวม UI ที่ใช้งานง่ายเข้ากับแบ็กเอนด์ประสิทธิภาพสูงได้หรือไม่?
แน่นอน จับคู่ OpenWebUI หรือ TGWUI กับแบ็กเอนด์ เช่น vLLM หรือ llama.cpp คุณจะได้รับอินเทอร์เฟซการแชทที่สะดวกสบาย ในขณะที่การประมวลผลหนักๆ เกิดขึ้นเบื้องหลัง