บทนำ: ทำไมบทเรียน FastChat ถึงมีความสำคัญในตอนนี้
หากคุณเคยพยายามเปิดบริการ LLM และรู้สึกหนักใจกับโครงร่าง GPU, จุดสิ้นสุดที่เข้ากันได้กับ OpenAI หรือการจัดระเบียบหลายโมเดล คุณไม่ได้อยู่คนเดียว FastChat ได้กลายเป็นกระดูกสันหลังสำหรับนักพัฒนาหลายคนที่ต้องการโฮสต์ ปรับขนาด และประเมินแชทบอทในเครื่องหรือในคลาวด์ โดยไม่ต้องสร้างสิ่งใหม่ทั้งหมด ในฐานะที่เป็นโครงการที่ขับเคลื่อน Chatbot Arena ได้รับการทดสอบการผลิตและขับเคลื่อนโดยชุมชน ในคู่มือนี้ ฉันได้รวบรวมบทเรียน FastChat ที่ดีที่สุดที่คุณสามารถทำตามได้ในวันนี้ ไม่ว่าคุณจะสร้างแชทบอทบนเว็บอย่างง่าย ปรับใช้การอนุมานแบบ multi-GPU หรือเปิดเผย API สไตล์ OpenAI
เราจะใช้เลนส์เชิงปฏิบัติที่มุ่งเน้นการแก้ปัญหา: สิ่งที่คุณจะได้เรียนรู้ ทำไมมันถึงสำคัญ และบทเรียนแต่ละบทเหมาะสำหรับใคร คาดหวังคำแนะนำที่ชัดเจน ข้อผิดพลาดที่ควรหลีกเลี่ยง และสถานการณ์จริง เช่น การเรียกใช้ FastChat ด้วยส่วนหน้า JavaScript การเพิ่มประสิทธิภาพสำหรับ CPU/GPU และการเชื่อมโยงกับเวิร์กโฟลว์ระดับองค์กร
FastChat คืออะไร ภาพรวมที่รวดเร็วและใช้งานได้จริง
FastChat เป็นแพลตฟอร์มเปิดสำหรับการฝึกอบรม การให้บริการ และการประเมินแชทบอทที่ใช้ LLM แนวทางแบบแยกส่วนประกอบด้วยสถาปัตยกรรม controller–worker, ส่วนหลังของการอนุมาน, Web UI และเลเยอร์ API ที่เข้ากันได้กับ OpenAI ในทางปฏิบัติ หมายความว่าคุณสามารถ:
- ให้บริการโมเดลยอดนิยม (เช่น ตระกูล Llama, Vicuna) บนฮาร์ดแวร์หรือ GPU บนคลาวด์ของคุณ
- ปรับขนาดในแนวนอนด้วย worker หลายตัวสำหรับโมเดลหรือ shards ที่แตกต่างกัน
- เสียบเข้ากับไคลเอนต์ที่พูดรูปแบบ OpenAI API อยู่แล้ว
- ประเมินและทำซ้ำได้เร็วขึ้นด้วย UI แชทและเครื่องมือที่คุ้นเคย
หากคุณกำลังสร้างแอป สถาปัตยกรรมนี้จะช่วยให้คุณย้ายจากการสร้างต้นแบบในเครื่องไปสู่การให้บริการผู้ใช้หลายคนได้โดยไม่ต้องเขียนสแต็กทั้งหมดของคุณใหม่
วิธีการคัดเลือกรายชื่อนี้
- ความเกี่ยวข้องกับการตั้งค่าปี 2024–2025 (GPU, CUDA, vLLM/การเพิ่มประสิทธิภาพ, ความเข้ากันได้ของ OpenAI API, การรวมเว็บ)
- ความชัดเจนและความสมบูรณ์ (คำสั่ง การกำหนดค่า การแก้ไขปัญหา)
- ช่วงของกรณีการใช้งาน (การพัฒนาในเครื่อง, การปรับใช้บนคลาวด์, ส่วนหน้า JavaScript, การเร่งความเร็ว CPU, สแต็กที่อยู่ติดกับองค์กร)
10 บทเรียน FastChat ที่ดีที่สุดในปี 2025
- แหล่งข้อมูลที่แท้จริง: FastChat GitHub Repo (คู่มือเริ่มต้นฉบับย่อ + ตัวอย่าง)
- ทำไมถึงดี: อัปเดตอยู่เสมอ สคริปต์ที่เป็นทางการ และตัวอย่างสำหรับโฟลว์ controller/worker, API ที่เข้ากันได้กับ OpenAI และการให้บริการโมเดล
- เหมาะสำหรับใคร: นักพัฒนาที่ต้องการการตั้งค่าที่แม่นยำที่สุดและต้องการเข้าใจสถาปัตยกรรมภายใต้ประทุน
- สิ่งที่คุณจะได้เรียนรู้: การติดตั้ง, คำสั่ง controller/worker, การให้บริการอนุพันธ์ Vicuna/LLaMA, จุดสิ้นสุดสไตล์ OpenAI และ Web UI ในตัว
- เริ่มต้นที่นี่เมื่อคุณต้องการอ้างอิงที่เชื่อถือได้
- สร้าง AI Chatbot ด้วย FastChat และ JavaScript (การรวมส่วนหน้า)
- ทำไมถึงดี: เชื่อมโยงพลังฝั่งเซิร์ฟเวอร์ของ FastChat กับเวิร์กโฟลว์แอปบนเว็บที่ตรงไปตรงมา เหมาะสำหรับทีมผลิตภัณฑ์และนักพัฒนาเดี่ยวที่จัดส่งแชทที่ผู้ใช้มองเห็น
- เหมาะสำหรับใคร: วิศวกร JavaScript และนักพัฒนา full-stack ที่ต้องการเชื่อมต่อ UI อย่างรวดเร็ว
- สิ่งที่คุณจะได้เรียนรู้: การตั้งค่า FastChat เป็นส่วนหลัง, การใช้งานไคลเอนต์ด้วย fetch/axios, การจัดการการตอบสนองแบบสตรีมมิง และการจัด UX ให้สอดคล้องกับพรอมต์และโทเค็นของระบบ
- วิธีปฏิบัติในการสาธิตโมเดลของคุณให้กับผู้มีส่วนได้ส่วนเสียโดยไม่ต้องวิศวกรรมมากเกินไป
- การรวมและปรับขนาด LLM ด้วย FastChat (มุมมองระดับระบบ)
- ทำไมถึงดี: ก้าวข้าม hello-world ไปสู่แนวทางปฏิบัติที่เน้นการปรับใช้ ซึ่งมีประโยชน์หากคุณวางแผนที่จะเติบโตและมีผู้ใช้หลายคน
- เหมาะสำหรับใคร: ทีมที่คิดเกี่ยวกับการปรับขนาด, เวลาแฝง และการใช้ GPU
- สิ่งที่คุณจะได้เรียนรู้: รูปแบบการกำหนดค่า, วิธีการเลือกส่วนหลังของโมเดลที่เหมาะสม และข้อดีข้อเสียทางสถาปัตยกรรมสำหรับการให้บริการระดับการผลิต
- การปรับใช้ LLM ด้วย FastChat (คำแนะนำทีละขั้นตอน)
- ทำไมถึงดี: ทัวร์พร้อมไกด์ที่ไขความลึกลับของโมเดล controller–worker และแสดงเส้นทางการปรับใช้ตั้งแต่เริ่มต้น
- เหมาะสำหรับใคร: ผู้เริ่มต้นที่ต้องการเริ่มต้นอย่างมั่นใจโดยไม่ข้ามพื้นฐาน
- สิ่งที่คุณจะได้เรียนรู้: ขั้นตอนการตั้งค่า, คำสั่ง และข้อผิดพลาดทั่วไปในการปรับใช้ในโลกแห่งความเป็นจริง (เช่น ตัวแปรสภาพแวดล้อม, การตรวจสอบ GPU และสุขอนามัยในการกำหนดค่า)
- การให้บริการที่ปรับให้เหมาะสมกับ CPU ด้วย IPEX-LLM + FastChat (คำนึงถึงต้นทุนหรือ Edge)
- ทำไมถึงดี: ไม่ใช่ทุกคนที่มี A100 สำรอง คู่มือเริ่มต้นฉบับย่อนี้แสดงวิธีดึงประสิทธิภาพที่น่าพอใจจาก CPU โดยใช้การเพิ่มประสิทธิภาพของ Intel ในขณะที่ยังคงเวิร์กโฟลว์ FastChat ไว้
- เหมาะสำหรับใคร: นักพัฒนาบนเครื่องที่ใช้ CPU เท่านั้น, การปรับใช้ที่คำนึงถึงต้นทุน หรือเซิร์ฟเวอร์ Edge
- สิ่งที่คุณจะได้เรียนรู้: การติดตั้ง IPEX-LLM, การกำหนดค่า FastChat สำหรับ CPU และความคาดหวังเชิงปฏิบัติเกี่ยวกับปริมาณงานและเวลาแฝง
- FastChat สำหรับการจัดระเบียบ Multi-Model และ Multi-Worker (การตั้งค่าขั้นสูง)
- ทำไมถึงดี: เมื่อคุณเข้าใจพื้นฐานแล้ว คุณจะต้องให้บริการโมเดลหลายตัวและกำหนดเส้นทางการร้องขออย่างเหมาะสม รูปแบบนี้เป็นหัวใจสำคัญของจุดแข็งของ FastChat
- เหมาะสำหรับใคร: ทีมที่ให้บริการโมเดลที่แตกต่างกัน (เช่น ปรับแต่งคำแนะนำเทียบกับโปรแกรมเมอร์) หรือการทดสอบ A/B
- สิ่งที่คุณจะได้เรียนรู้: การใช้ controller เพื่อจับคู่โมเดลกับ worker, การปรับสมดุลโหลด และการแยกหน่วยความจำ GPU ต่อ worker
- วิธีการก้าวไปข้างหน้า: ใช้การกำหนดค่าแบบเทมเพลต, การตรวจสอบสถานะ, ผู้ดูแลกระบวนการ (systemd/PM2) และการรีสตาร์ทอัตโนมัติ
- API ที่เข้ากันได้กับ OpenAI ด้วย FastChat (ไคลเอนต์ Plug-and-Play)
- ทำไมถึงดี: แอปจำนวนมากกำหนดเป้าหมายไปที่ข้อกำหนด OpenAI API อยู่แล้ว FastChat ช่วยให้คุณวาง LLM ในเครื่องหรือที่โฮสต์เองได้โดยไม่ต้องเปลี่ยนไคลเอนต์มากนัก
- เหมาะสำหรับใคร: นักพัฒนาแอปที่ต้องการการรวมเข้ากับเครื่องมือ, SDK และปลั๊กอินที่มีอยู่เดิมอย่างรวดเร็ว
- สิ่งที่คุณจะได้เรียนรู้: การเปิดใช้งานจุดสิ้นสุดที่เหมือน OpenAI, การจับคู่ชื่อโมเดล, การจัดการขีดจำกัดอัตรา และการทดสอบด้วย curl/Postman
- เคล็ดลับ: จัดทำเอกสารชื่อโมเดลที่กำหนดเองของคุณ เพื่อให้เพื่อนร่วมทีมไม่เรียกชื่อโมเดลผิดโดยไม่ได้ตั้งใจ
- Dockerizing FastChat (ความสอดคล้องข้ามสภาพแวดล้อม)
- ทำไมถึงดี: คอนเทนเนอร์ช่วยลดความซับซ้อนของความเท่าเทียมกันระหว่างเครื่อง, การจัดเตรียม และการผลิต นอกจากนี้ยังทำให้การจัดกำหนดการ GPU ง่ายขึ้นในคลาวด์
- เหมาะสำหรับใคร: ทีมที่ใส่ใจเรื่อง DevOps และทุกคนที่ปรับใช้กับ Kubernetes
- สิ่งที่คุณจะได้เรียนรู้: Dockerfile ขั้นต่ำ, อิมเมจพื้นฐาน CUDA, การส่งผ่าน GPU ผ่าน nvidia-container-runtime และการแยกคอนเทนเนอร์ controller/worker
- ข้อผิดพลาด: ระวัง CUDA/ความไม่ตรงกันของเวอร์ชันชุดเครื่องมือและการพึ่งพา Python ที่ตรึงไว้
- รูปแบบการปรับใช้ Kubernetes (ปรับขนาดด้วยความมั่นใจ)
- ทำไมถึงดี: หากคุณกำลังจะใช้ multi-tenant หรือต้องการความจุที่ยืดหยุ่น K8s จะปลดล็อกการปรับขนาดอัตโนมัติและการแยกที่ดีขึ้น
- เหมาะสำหรับใคร: ทีมที่มีการเข้าถึงคลัสเตอร์หรือสร้างแพลตฟอร์มภายในเป็นบริการ
- สิ่งที่คุณจะได้เรียนรู้: แผนภูมิ Helm, พูลโหนด GPU, การปรับใช้ worker เฉพาะโมเดล, การปรับแต่ง Horizontal Pod Autoscaler และโวลุ่มถาวรสำหรับแคชโมเดล
- การสังเกต, การแคช และการควบคุมต้นทุน (ดำเนินการอย่างมืออาชีพ)
- ทำไมถึงดี: ความพร้อมในการผลิตเป็นมากกว่าการให้บริการ การสังเกตช่วยให้คุณค้นหาคอขวด การแคชช่วยลดต้นทุนและเวลาแฝง
- เหมาะสำหรับใคร: ทุกคนที่คาดหวังผู้ใช้จริง
- สิ่งที่คุณจะได้เรียนรู้: การเพิ่มเมตริก Prometheus/Grafana, การติดตามเวลาแฝงของการร้องขอ, การใช้การแคชโทเค็น/การตอบสนอง, การตั้งค่าขีดจำกัดอัตรา และการใช้งานงบประมาณการร้องขอต่อผู้ใช้หรือผู้เช่า
การเปรียบเทียบมุมมองบทเรียน: คุณควรเลือกอันไหน
- คุณเป็นผู้เริ่มต้น: เริ่มต้นด้วย repo อย่างเป็นทางการเพื่อทำความเข้าใจโฟลว์ controller/worker จากนั้นทำตามคู่มือทีละขั้นตอนสไตล์กลางเพื่อสร้างความมั่นใจ
- คุณกำลังสร้างแอปบนเว็บ: ใช้บทเรียน JavaScript เพื่อเชื่อมต่อ UI อย่างรวดเร็ว จากนั้นสลับโมเดลส่วนหลังตามต้องการ
- คุณกำลังปรับขนาดหรือคำนึงถึงประสิทธิภาพ: อ่านบทเรียนที่เน้นการปรับขนาด จากนั้นจัดทำ Docker/K8s และการสังเกตอย่างเป็นทางการ
- คุณมีข้อจำกัดด้านต้นทุนหรือใช้ CPU เท่านั้น: ลองใช้เส้นทาง IPEX-LLM + FastChat เพื่อลดต้นทุนในขณะที่สร้างต้นแบบ
แนวคิดหลักที่บทเรียนทุกบทควรอธิบาย
- สถาปัตยกรรม Controller–Worker: Controller ลงทะเบียน worker และกำหนดเส้นทางการร้องขอไปยังอินสแตนซ์โมเดลที่ถูกต้อง
- ส่วนหลังของโมเดลและหน่วยความจำ: เลือกส่วนหลังอย่างชาญฉลาดตาม RAM ของ GPU และขนาดโมเดล การควอนไทซ์สามารถช่วยได้
- จุดสิ้นสุดที่เข้ากันได้กับ OpenAI: จับคู่ชื่อโมเดลภายในของคุณและใช้ SDK ไคลเอนต์ที่มีอยู่เพื่อเร่งการรวม
- การตอบสนองแบบสตรีมมิง: ปรับปรุง UX โดยการสตรีมโทเค็นไปยังส่วนหน้า ตรวจสอบให้แน่ใจว่าไคลเอนต์ของคุณจัดการกับ chunk บางส่วน
- ค่าใช้จ่ายโทเค็นและขีดจำกัดอัตรา: แม้แต่กับโมเดลในเครื่อง ก็คิดในงบประมาณ โทเค็น ปริมาณงาน และ QPS เพิ่มขึ้น
ภาคปฏิบัติ: แผนงานตัวอย่างเพื่อเรียนรู้ FastChat ในช่วงสุดสัปดาห์
วันที่ 1: การตั้งค่าในเครื่องและการตอบสนองครั้งแรก
- ติดตั้ง FastChat เรียกใช้ controller และ worker เดียวด้วยโมเดลขนาดเล็กกว่า
- เข้าถึงจุดสิ้นสุดที่เข้ากันได้กับ OpenAI โดยใช้ curl และไคลเอนต์ JS ขั้นต่ำ
- สำรวจ Web UI เพื่อทำความเข้าใจบทบาทของข้อความ (ระบบ/ผู้ใช้/ผู้ช่วย)
วันที่ 2: การปรับขนาดและการรวม
- เพิ่ม worker ที่สองด้วยโมเดลที่แตกต่างกันเพื่อเปรียบเทียบ
- ใช้งานสตรีมมิงในส่วนหน้าของคุณเพื่อลดเวลาแฝงที่รับรู้ได้
- Containerize การตั้งค่า ทดสอบในอินสแตนซ์คลาวด์ขนาดเล็กด้วย GPU
- เพิ่มการบันทึก/เมตริกพื้นฐานเพื่อทำความเข้าใจเวลาแฝงและข้อผิดพลาด
ชีทโกงการแก้ไขปัญหา
- ข้อผิดพลาดที่ไม่ตรงกันของ CUDA: จัดเรียงไดรเวอร์ + ชุดเครื่องมือ CUDA + เวอร์ชัน PyTorch
- หน่วยความจำไม่พอ (OOM): ลดขนาดแบทช์หรือความยาวบริบท ลองใช้ weighted quantization หรือแยก worker ข้าม GPU
- การตอบสนองครั้งแรกช้า: วอร์มอัพโมเดลหลังเริ่มต้น พรีโหลดหรือปักหมุดโมเดลที่ใช้บ่อย
- Client 404/401: ยืนยันเส้นทางที่เข้ากันได้กับ OpenAI, การจับคู่ชื่อโมเดล และส่วนหัวการรับรองความถูกต้อง
แนวทางปฏิบัติที่ดีที่สุดสำหรับ Production FastChat
- กำหนดเวอร์ชันการกำหนดค่าโมเดลของคุณ: เก็บ YAML/JSON สำหรับ worker ที่ตรวจสอบใน repo
- แยก Controller และ Worker: ปรับขนาด worker อย่างอิสระ หลีกเลี่ยงจุดเดียวที่ทำให้เกิดความล้มเหลว
- ปรับขนาดอัตโนมัติด้วยสัญญาณจริง: ตัดสินใจปรับขนาดตามความลึกของคิว, เวลาแฝงต่อโทเค็น และการใช้ GPU
- แคชและ Guardrail: Memoize พรอมต์ที่ใช้บ่อย เพิ่มตัวกรองเนื้อหาหรือการกลั่นกรองเมื่อผู้ใช้มองเห็น
- การสังเกตเป็นอันดับแรก: ติดตามโทเค็น/วินาที, เวลารอคิว และอัตราข้อผิดพลาด ตรวจจับการถดถอยตั้งแต่เนิ่นๆ
สิ่งที่ควรทราบ: หากคุณต้องการผู้ช่วย AI ที่อยู่ในเวิร์กโฟลว์เบราว์เซอร์ของคุณ Sider.AI สามารถช่วยร่างพรอมต์ ทดสอบการเรียก API และวนซ้ำรูปแบบการร้องขอ/การตอบสนองได้อย่างรวดเร็ว มีประโยชน์เมื่อคุณกำลังออกแบบพรอมต์สำหรับจุดสิ้นสุดที่สนับสนุนโดย FastChat เพราะคุณสามารถตรวจสอบเอาต์พุต เปรียบเทียบรูปแบบต่างๆ และจัดทำเอกสารพรอมต์ที่มีประสิทธิภาพสูงสุดของคุณแบบอินไลน์ด้วยบันทึกการพัฒนาของคุณ ซึ่งช่วยประหยัดเวลาในการสลับบริบทระหว่างการตั้งค่าและการแก้ไขข้อบกพร่อง แนวโน้มในอนาคต: สิ่งที่คาดหวังในปี 2025
- ส่วนหลังของการอนุมานที่กระชับขึ้น: คาดว่าจะมีการรันไทม์ที่ปรับให้เหมาะสมกับ CPU และ GPU มากขึ้น ซึ่งจะช่วยลดต้นทุนต่อโทเค็น
- Unified Eval Pipelines: การให้บริการและการควบคุมการประเมินในตัวจะกระชับวงจรระหว่างการจัดส่งและการวัดคุณภาพ
- Model Mix-and-Match: การจัดระเบียบโมเดลที่เป็นกรรมสิทธิ์และแบบเปิดผ่านเลเยอร์ FastChat เดียวจะกลายเป็นเรื่องปกติ
- ความปลอดภัยและการปฏิบัติตามข้อกำหนด: คาดว่าจะมีการเน้นมากขึ้นที่บันทึกการตรวจสอบ, ตัวกรองเนื้อหา และการเข้าถึงตามบทบาทสำหรับทีมองค์กร
ลิงก์ด่วนและเหตุผลที่สำคัญ
- FastChat GitHub: เอกสาร, สคริปต์ และการอัปเดตล่าสุดที่เป็นทางการ
- บทเรียน JavaScript + FastChat: การรวมส่วนหน้าสำหรับการสาธิตเชิงปฏิบัติ
- การปรับขนาดด้วย FastChat: มุมมองการปรับใช้ระดับระบบ
- คู่มือการปรับใช้ทีละขั้นตอน: คำแนะนำที่เป็นมิตรสำหรับผู้ปรับใช้ครั้งแรก
- คู่มือเริ่มต้นฉบับย่อที่ปรับให้เหมาะสมกับ CPU: IPEX-LLM + FastChat สำหรับสภาพแวดล้อมที่ไม่ใช่ GPU
ขั้นตอนถัดไปที่นำไปปฏิบัติได้
- ทำตามคู่มือเริ่มต้นฉบับย่อ FastChat อย่างเป็นทางการเพื่อยืนยันว่าสภาพแวดล้อมของคุณทำงานได้
- สร้างไคลเอนต์เว็บอย่างง่ายโดยใช้บทเรียน JavaScript เพื่อตรวจสอบ UX ตั้งแต่เนิ่นๆ
- เพิ่ม worker/model ที่สองและทดสอบการกำหนดเส้นทางสำหรับการทดสอบ A/B ในอนาคต
- Containerize และปรับใช้กับอินสแตนซ์ GPU ขนาดเล็ก วัดเวลาแฝงพื้นฐานและต้นทุน
- เพิ่มเมตริก, การแคช และขีดจำกัดอัตราก่อนเชิญผู้ใช้เบต้า
ประเด็นสำคัญ
- FastChat ยังคงเป็นหนึ่งในเส้นทางที่เร็วที่สุดในการให้บริการ LLM ด้วย API ที่เข้ากันได้กับ OpenAI
- คุณสามารถเปลี่ยนจาก dev เป็น production ได้ด้วยความก้าวหน้าที่ชัดเจน: ในเครื่อง → multi-worker → containerized → K8s
- บทเรียนที่ดีที่สุดรวมขั้นตอนการตั้งค่ากับรูปแบบการรวมเชิงปฏิบัติ โดยเฉพาะอย่างยิ่งการสตรีมส่วนหน้าและการสังเกต
- เริ่มต้นเล็กๆ วัดผลอย่างไม่หยุดยั้ง และเสริมความแข็งแกร่งให้กับไปป์ไลน์ของคุณด้วยการแคช, guardrail และการปรับขนาดอัตโนมัติ
คำถามที่พบบ่อย
Q1:บทเรียน FastChat ที่ดีที่สุดสำหรับผู้เริ่มต้นคืออะไร?
เริ่มต้นด้วยคู่มือเริ่มต้นฉบับย่อ FastChat GitHub อย่างเป็นทางการเพื่อเรียนรู้รูปแบบ controller–worker และการให้บริการขั้นพื้นฐาน จากนั้นทำตามคู่มือทีละขั้นตอน เช่น “การปรับใช้ LLM ด้วย FastChat” เพื่อสร้างความมั่นใจ
Q2:ฉันจะสร้าง Web UI ด้วย FastChat ได้อย่างไร?
ใช้บทเรียนที่เน้น JavaScript ที่แสดงวิธีการเรียก API ที่เข้ากันได้กับ OpenAI ของ FastChat จากไคลเอนต์เบราว์เซอร์ ใช้งานการตอบสนองแบบสตรีมมิงเพื่อ UX ที่เร็วขึ้นและน่าสนใจยิ่งขึ้น
Q3:ฉันสามารถเรียกใช้ FastChat โดยไม่ต้องใช้ GPU ได้หรือไม่?
ได้ ทำตามคู่มือเริ่มต้นฉบับย่อที่ปรับให้เหมาะสมกับ CPU โดยใช้ IPEX-LLM เพื่อให้ได้ประสิทธิภาพที่ยอมรับได้บนเครื่องที่ใช้ CPU เท่านั้น เหมาะสำหรับการสร้างต้นแบบหรือการปรับใช้ Edge
Q4:ฉันจะปรับขนาด FastChat สำหรับโมเดลหลายตัวได้อย่างไร?
เรียกใช้ worker หลายตัวและลงทะเบียนกับ controller โดยแต่ละตัวให้บริการโมเดลหรือ shard ที่แตกต่างกัน เพิ่มการสังเกตและการปรับขนาดอัตโนมัติเพื่อปรับสมดุลโหลดและรับประกันเวลาแฝงที่สม่ำเสมอ
Q5:FastChat เข้ากันได้กับไคลเอนต์ OpenAI API หรือไม่?
ได้ FastChat สามารถเปิดเผยจุดสิ้นสุดที่เข้ากันได้กับ OpenAI ซึ่งช่วยให้คุณสามารถนำ SDK ที่มีอยู่กลับมาใช้ใหม่ได้โดยมีการเปลี่ยนแปลงน้อยที่สุด จับคู่ชื่อโมเดลอย่างระมัดระวังและตรวจสอบด้วย curl หรือ Postman