How do I use FastChat with an OpenAI-compatible client?

Point your client’s base URL to the FastChat API server and keep the same chat/completions schema. The endpoint matches, but model behavior won’t—so test prompts and parameters against the actual model you’ll run.

What’s the best way to run FastChat on a single GPU?

Pick a model that fits your VRAM with room to spare, ideally quantized (4–8 bit) for comfort. Start one worker, stream tokens, and keep batch size tiny unless you like latency spikes.

Can FastChat handle multiple models at once?

Yes—the controller will track multiple workers and models. Route requests intentionally; don’t assume ‘same API’ means ‘interchangeable results’ across models.

How do I speed up FastChat without buying new hardware?

Quantize the model, enable KV cache reuse, stream responses, and right-size max_tokens. Caching common prompts helps more than most knob-twiddling.

Is FastChat good for RAG pipelines?

It works fine as the chat layer, but RAG quality depends on clean retrieval and disciplined prompts. FastChat won’t fix sloppy context; it just serves the model faster.

FastChat Tanpa Ribet: Cara Menggunakannya dengan Maksimal

Pendahuluan: Tentang Kerangka Kerja Chat “Sederhana”

Masalah dengan alat pengembang yang menyebut diri mereka “sederhana” adalah bahwa mereka biasanya tidak. Mereka sederhana seperti proses naik pesawat yang “sederhana.” Antrean, zona, dan boarding pass yang tidak dapat Anda temukan karena aplikasi mengeluarkan Anda di gerbang. FastChat, kerangka kerja chat sumber terbuka yang digunakan orang-orang pada LLM, sering disebut sederhana. Dalam praktiknya? Sederhana jika Anda tahu persis apa yang Anda lakukan. Jika tidak, itu adalah kekusutan port, model, dan perhitungan GPU yang tampak seperti sedang mengikuti audisi untuk plot twist Christopher Nolan.

Panduan ini adalah pandangan jujur saya tentang cara menggunakan FastChat tanpa memperlakukan akhir pekan Anda seperti retret debugging. Kita akan membahas cara menggunakan FastChat secara lokal, cara menyajikan model, cara menghubungkan endpoint yang kompatibel dengan OpenAI, dan cara menjalankan UI yang tidak mogok pada kontak pertama dengan realitas. Saya akan menunjukkan apa yang rapuh, apa yang cepat, dan apa yang dipasarkan sebagai cepat. (Ini sering kali tiga hal yang berbeda.)

Apa Itu FastChat Sebenarnya?

FastChat adalah sistem sumber terbuka untuk menyajikan dan melakukan chat dengan model bahasa besar. Anggap saja “klon API OpenAI,” tetapi Anda menyediakan model sendiri. Ini termasuk:

Sebuah controller (pengatur lalu lintas),

Satu atau lebih model worker (orang yang benar-benar melakukan pekerjaan),

Lapisan REST API yang kompatibel dengan OpenAI,

UI web yang lebih baik daripada tidak sama sekali dan lebih buruk daripada apa pun yang dibuat khusus.

Jika Anda pernah menjalankan LLM lokal dengan satu baris perintah dan berpikir: tidak mungkin ini siap untuk produksi—Anda benar. FastChat adalah kebalikannya: ia ingin menjadi seperti produksi. Anda menghubungkan komponen, lebih seperti LEGO Technic daripada LEGO Duplo. Imbalannya adalah fleksibilitas. Harganya adalah mengetahui apa yang Anda lakukan.

Cara Menggunakan FastChat: Versi Singkat

Instal FastChat dan dependensinya (Python, CUDA jika Anda peduli dengan kecepatan, bobot model).

Mulai controller.

Mulai setidaknya satu model worker dan arahkan ke controller.

(Opsional tetapi berguna) Mulai server API yang kompatibel dengan OpenAI.

(Opsional tetapi menyelamatkan kewarasan) Mulai UI web.

Kirim permintaan baik melalui API bergaya OpenAI atau UI bawaan. Ulangi sampai Anda berhenti mengumpat.

Itulah inti dari alur kerja. Sisanya adalah tentang melakukan ini tanpa membakar GPU atau kesabaran Anda.

Pengaturan: Bagian Membosankan yang Menyelamatkan Anda Berjam-jam Kemudian

Python: Gunakan lingkungan virtual yang tidak akan Anda rusak. FastChat pilih-pilih tentang versi. Perangkat lunak yang pilih-pilih tidak meminta maaf.

GPU: Jika Anda memiliki perangkat keras NVIDIA, instal toolkit CUDA yang benar-benar cocok dengan driver Anda. Jika tidak, Anda akan berjalan di CPU, yang seperti mengendarai minivan ke Pike’s Peak—mungkin, lebih lambat dari yang Anda kira, dan Anda akan bertanya-tanya mengapa Anda mencoba.

Model: FastChat tidak menyertakan model. Anda mengarahkannya ke bobot model—varian Llama, Mistral, Qwen, dll. Anda juga dapat menjalankan model terkuantisasi jika GPU VRAM Anda lebih “MacBook” daripada “pusat data.”

Instalasi Dasar: Menjaga Kebersihan

Buat venv Python baru.

pip install fastchat. Jika Anda memerlukan PyTorch yang mendukung CUDA, instal itu terlebih dahulu. Jika Anda tidak tahu apakah Anda membutuhkannya, Anda mungkin membutuhkannya.

Verifikasi torch melihat GPU Anda: jika tidak, perbaiki itu sebelum Anda menyalahkan FastChat. Menyalahkan kerangka kerja karena driver yang hilang adalah versi devops dari menyalahkan termostat untuk musim dingin.

Mulai Controller: Menara Pengawas Lalu Lintas Udara

Jalankan controller. Itu melacak model worker dan mengarahkan permintaan. Tanpanya, tidak ada yang berbicara dengan apa pun. Anggap saja sebagai DNS untuk farm inferensi Anda. Membosankan, penting, tidak terlihat saat berfungsi.

Mulai Model Worker: Di Mana Keajaiban Sebenarnya Terjadi

Pilih model yang mampu Anda tanggung di VRAM. Model 7B parameter dalam FP16 masih dapat merusak GPU sederhana. Coba kuantisasi 4-bit atau 8-bit jika Anda terbatas.

Mulai worker, arahkan ke controller, dan atur jalur model. Jika gagal memuat, biasanya karena presisi model tidak sesuai atau tokenizer tidak cocok. Baca log. Mereka blak-blakan seperti ahli bedah.

API yang Kompatibel dengan OpenAI: Bagian yang Berguna

FastChat mengekspos API bergaya OpenAI. Itu berarti skrip dan alat Anda yang ada yang mengharapkan endpoint OpenAI, secara teori, dapat berfungsi begitu saja. Dalam praktiknya, Anda akan menyesuaikan URL dasar dan mewaspadai fitur yang tidak dapat dilakukan model (pemanggilan fungsi, input gambar) kecuali worker Anda mendukungnya. Tetapi bentuknya—JSON, endpoint chat/completions—sejajar. Itulah perbedaan antara proyek akhir pekan dan sesuatu yang dapat Anda hubungkan ke layanan.

UI Web: Karena Terkadang Anda Ingin Mengeklik

UI bawaan baik untuk pengujian. Ini bukan produk; ini adalah jendela. Jika Anda hanya menginginkan konsol dev untuk otak-di-dalam-kotak Anda, ini sudah cukup. Jika Anda menginginkan ruang kerja, thread, input multimodal, atau fitur kualitas hidup yang bijaksana, Anda masih akan menulis wrapper Anda sendiri—atau menggunakan klien yang sudah menemukan kasus-kasus ekstrem.

Cara Menggunakan FastChat untuk Pengembangan Lokal

Putar controller dan worker di terminal terpisah. Jangan mengubur mereka di tmux sampai Anda mempercayai mereka.

Gunakan curl atau skrip Python kecil untuk mencapai endpoint yang kompatibel dengan OpenAI: kirim prompt pengujian yang pendek dan tidak ambigu.

Sesuaikan parameter pembuatan: suhu, top_p, max_tokens. Mulai konservatif. Orang-orang terlalu menyetel keacakan dan kemudian mengeluh tentang halusinasi seperti model itu bangun dengan nakal.

Konfirmasikan perilaku tokenisasi sesuai dengan harapan Anda. Jika Anda sering menukar model, Anda akan menemukan kasus-kasus ekstrem. Itu bukan kesalahan FastChat. Itu adalah “LLM itu aneh.”

Cara Menggunakan FastChat untuk Prototipe Tim

Jalankan controller pada host yang stabil.

Jalankan beberapa worker dengan model yang sama untuk mensimulasikan pool, atau campur model berdasarkan kemampuan.

Ekspos endpoint yang kompatibel dengan OpenAI secara internal. Beri tim Anda satu URL dan kunci API.

Tambahkan logging. Bukan ide baru, tetapi jumlah tim yang berjalan tanpa melihat apa pun akan membuat sportsbook Vegas tersipu. Anda memerlukan prompt dan respons untuk debugging; redact bit sensitif jika Anda harus.

Performa: Apa Arti “Cepat” Tergantung pada Anda

FastChat memberi Anda cukup tali untuk menjadi cepat—atau untuk menggantung diri Anda dengan konfigurasi yang terlalu ambisius. Pemeriksaan realitas:

VRAM: Jika Anda tidak memiliki cukup, kuantisasi. Jika Anda masih tidak, gunakan model yang lebih kecil. Tidak ada kerangka kerja yang memperbaiki fisika.

Ukuran batch: Baik untuk throughput, seringkali buruk untuk latensi. Pilih salah satu. Jika Anda membutuhkan keduanya, Anda membutuhkan lebih banyak worker.

Cache KV: Gunakan kembali jika worker Anda mendukungnya. Jika tidak, Anda membayar untuk konteks yang sudah Anda bayar.

Pengambilan sampel token: Skema decoding mewah mendapatkan pengembalian yang semakin berkurang begitu kualitas model dasar Anda menjadi faktor pembatas.

Keamanan: Ini Bukan Mainan

Jika Anda menempatkan FastChat di server tempat manusia lain dapat menyentuhnya:

Tambahkan otentikasi. Bahkan kunci API kasar mengalahkan “berharap.”

Batasi tingkat. Diri Anda di masa depan akan berterima kasih ketika skrip menjadi rekursif pada pukul 2 pagi.

Pisahkan lalu lintas antara model publik dan pribadi jika Anda mencampur bobot berlisensi dengan yang terbuka. Pengacara menyukai ambiguitas; jangan memberi mereka makan.

Cara Menggunakan FastChat dengan Alat Nyata

Notebook: Arahkan klien OpenAI Anda ke URL dasar FastChat dan mulai. Ini adalah jalur yang paling tidak mengganggu bagi ilmuwan data.

CLI: Siapkan skrip kecil untuk pengujian cepat. Jika Anda tidak bisa mendapatkan respons yang masuk akal dalam 10 detik, berhenti dan perbaiki pipeline.

Aplikasi web: Perlakukan FastChat seperti microservice internal. Pemeriksaan kesehatan, percobaan ulang, batas waktu. Anda tidak memerlukan buku untuk melakukan ini—Anda membutuhkan disiplin.

Memilih Model: Bagian yang Diperdebatkan Semua Orang

Cara menggunakan FastChat secara bertanggung jawab dimulai dengan pemilihan model. Beberapa heuristik cepat:

Chat bentuk pendek dengan jawaban yang jelas: Model yang disetel instruksi yang lebih kecil seringkali lebih baik dari yang diharapkan.

Prompt yang sangat banyak kode: Gunakan model yang benar-benar dilatih pada kode dengan lisensi permisif. “Cukup dekat” tidak cukup.

Konteks panjang: Jika Anda membutuhkan 32K+ token, rencanakan perangkat keras Anda terlebih dahulu. Kemudian atur harapan Anda lebih rendah.

Multimodal: Kompatibilitas FastChat bervariasi. Jika Anda membutuhkan gambar atau audio, pilih worker dan model yang secara eksplisit mendukungnya, atau jangan berpura-pura melakukannya.

Perangkap Kompatibilitas OpenAI

Bagian yang bagus tentang API yang kompatibel dengan OpenAI adalah Anda dapat menukar back end. Bagian yang tidak bagus adalah orang-orang mulai memperlakukan semua model seolah-olah sama. Mereka tidak. Endpoint yang tampak identik dapat berperilaku sangat berbeda di seluruh model—penalaran, verbalitas, filter keamanan, seluruh kepribadian. Aplikasi Anda tidak akan secara ajaib beradaptasi hanya karena skema JSON cocok. Uji dengan model sebenarnya yang akan Anda jalankan. Kemudian uji lagi setelah Anda mengubah apa pun.

Observabilitas: Anda Tidak Dapat Memperbaiki Apa yang Tidak Dapat Anda Lihat

Log prompt, parameter, dan latensi.

Lacak jumlah token dan tolak prompt yang menghabiskan anggaran Anda.

Simpan dasbor per model. Ya, ini banyak untuk “server chat.” Ini juga perbedaan antara stabilitas dan suasana.

Mode Kegagalan: Di Mana FastChat Menggigit Kembali

Worker mati di bawah OOM: Anda menebak terlalu tinggi pada presisi. Turunkan atau dapatkan GPU dengan lebih banyak VRAM—tidak ada jumlah sihir yang memeras FP16 13B menjadi 8GB dengan andal.

Controller kehilangan jejak worker: Gangguan jaringan. Tambahkan percobaan ulang, dan jangan sebarkan semuanya di Wi‑Fi yang sama dan tidak stabil seperti Anda berada di pesta LAN kedai kopi.

Lonjakan latensi yang buruk: Batch Anda terlalu ambisius, atau CPU Anda menghambat tokenisasi. Profilkan sebelum Anda berteori.

Cara Menggunakan FastChat untuk RAG Tanpa Kehilangan Seminggu

Orang-orang terus memasang FastChat ke pipeline pengambilan dan bertindak terkejut ketika model itu bermain-main alih-alih mengutip. Kiat:

Lakukan pengambilan di tempat lain dengan bersih (Vector DB, embeddings) dan beri model konteks pendek dan terstruktur.

Jaga agar prompt tetap disiplin. “Jawab dengan kutipan” bukanlah mantra; itu adalah saran. Jika Anda memerlukan kutipan, tegakkan struktur dalam pasca-pemrosesan atau gunakan model yang dilatih untuk berperilaku.

Cache jawaban untuk pertanyaan berulang. Sebagian besar basis pengetahuan “dinamis” adalah 80% enam pertanyaan yang sama dari sudut yang berbeda.

Biaya: Waktu Adalah Bagian yang Mahal

Menjalankan FastChat secara lokal itu murah di atas kertas dan mahal dalam perhatian. Jika tujuan Anda adalah untuk belajar, bagus. Jika tujuan Anda adalah untuk mengirim, pertimbangkan ke mana waktu Anda pergi: pengemasan, peningkatan, pemantauan, fallback. Tidak ada salahnya menggunakan layanan terkelola jika pekerjaan yang Anda benar-benar dinilai adalah selain “menjalankan server chat.”

Di Mana Sider.AI Cocok—Dan Di Mana Tidak

Jika Anda menginginkan pengalaman klien yang waras—thread, manajemen prompt, peralihan cepat antara model lokal dan cloud—Sider.AI benar-benar berfungsi tanpa meminta Anda untuk membaca tiga file YAML terlebih dahulu. Anda dapat mengarahkannya ke endpoint yang kompatibel dengan OpenAI (seperti FastChat) atau menggunakan model yang dihosting ketika GPU Anda mulai terengah-engah. Ini bukan pengganti FastChat; itu adalah bagian yang mengubah tepi kasar Anda menjadi sesuatu yang dapat digunakan orang tanpa pengembang yang berdiri di dekatnya menjelaskannya. Jika prioritas Anda adalah bermain-main dengan worker dan controller, tetaplah di FastChat. Jika itu melakukan pekerjaan sebenarnya, Sider yang berada di atas endpoint FastChat Anda adalah bagian yang tidak akan Anda sesali.

Cara Menggunakan FastChat, Langkah demi Langkah (Tanpa Melambaikan Tangan)

Instal dependensi: Python, CUDA jika berlaku, PyTorch dengan CUDA.

Instal FastChat di lingkungan baru.

Mulai controller di port yang dapat diprediksi.

Unduh model yang benar-benar dapat Anda jalankan. Jangan mulai dengan hal terbesar di papan peringkat seperti seorang remaja memilih mobil pertama.

Luncurkan worker dengan model itu. Konfirmasikan penggunaan VRAM dan token pertama.

Mulai server API yang kompatibel dengan OpenAI.

Uji dengan prompt yang diketahui baik menggunakan klien OpenAI Anda yang diatur ke URL dasar lokal Anda.

Sesuaikan parameter decoding, atur default yang masuk akal, dan kunci dalam konfigurasi.

Tambahkan logging, otentikasi dasar, dan batasan tingkat sebelum orang lain menyentuhnya.

Opsional: mulai UI web atau hubungkan klien yang lebih baik seperti Sider.AI.

Gotcha Umum yang Akan Anda Temui Tepat Sekali (Jika Anda Membaca Ini)

Versi CUDA/PyTorch yang campur aduk: Tampaknya baik-baik saja sampai beban nyata pertama. Cocokkan versi dengan sengaja.

Ketidakcocokan tokenizer: Model Hugging Face vs. pergeseran tokenizer menciptakan omong kosong yang halus. Jaga agar tetap tersinkronisasi.

Prompt sistem yang terlalu panjang: Anda membayar token untuk pembicaraan penyemangat. Buat prompt sistem pendek, spesifik, dan membosankan.

Mengabaikan streaming: Aktifkan streaming untuk responsif. Pengguna akhir menyamakan “mulai mengetik cepat” dengan “pintar,” dan jujur, mereka tidak salah.

Penskalaan: Ketika Satu Worker Tidak Cukup

Worker horizontal: Beberapa worker terdaftar ke controller. Ini bukan ilmu roket, tetapi Anda memerlukan rencana untuk bobot model di setiap mesin.

Model campuran: Rute jawaban pendek ke model yang lebih kecil; kirim pertanyaan sulit ke hitter berat. Anda memerlukan logika perutean; controller tidak akan mengasuh aplikasi Anda untuk Anda.

Caching: Memoize prompt umum. Tidak ada yang terasa lebih cepat daripada melewatkan pekerjaan yang sudah Anda lakukan.

Mengapa FastChat Alih-alih Kerangka Kerja Lain?

Karena Anda menginginkan kontrol tanpa membangun seluruh katedral. Pemisahan controller/worker itu waras. API yang kompatibel dengan OpenAI itu pragmatis. Dan itu tidak berpura-pura menjadi lebih dari itu. Anda bisa mendapatkan dari “ide” ke “dapat digunakan” dalam satu sore jika Anda menjaga ambisi Anda dalam hukum termodinamika.

Tapi Jangan Membohongi Diri Sendiri

Cara menggunakan FastChat dengan baik berarti menerima trade-off:

Anda akan menyerahkan beberapa polesan untuk fleksibilitas.

Anda akan membaca log, dan mereka akan tidak dapat dipahami setidaknya sekali.

Anda akan tergoda untuk mengejar naga benchmark. Tolak. Pilihan model lebih penting daripada kerangka kerja untuk sebagian besar pekerjaan praktis.

Jika Anda Hanya Mengingat Lima Hal

Mulai dari yang kecil. Model yang lebih kecil, konfigurasi yang lebih kecil, lebih sedikit bagian yang bergerak.

Uji melalui API yang kompatibel dengan OpenAI lebih awal. Jika jalur itu berfungsi, sisanya adalah perpipaan.

Kuantisasi sebelum Anda mengompromikan stabilitas. OOM tidak membuat Anda lebih cepat.

Log semua yang tidak ingin Anda tebak nanti.

Gunakan klien yang layak. UI yang tepat membuat model biasa-biasa saja terasa kompeten dan model yang bagus terasa hebat. Sider.AI adalah lapisan yang solid dan tanpa basa-basi di sini.

Kesimpulan: Pendapat Jujur

FastChat adalah apa yang terjadi ketika sumber terbuka tumbuh cukup untuk menjadi berguna tanpa berpura-pura itu adalah SaaS. Ini modular, pragmatis, dan sangat tidak tertarik untuk memegang tangan Anda. Cara menggunakan FastChat adalah, sebagian besar, cara menggunakan alat apa pun yang menghargai fleksibilitas daripada upacara: mulai dengan tujuan yang jelas, hubungkan pipeline layak minimum, dan berhenti ketika berfungsi. Sisanya—dasbor, worker terdistribusi, kebun binatang model—dapat menunggu sampai seseorang meminta Anda untuk nomor uptime.

Bagi kebanyakan orang, langkah cerdasnya adalah menjalankan FastChat di belakang klien yang tidak membuang perhatian Anda. Untuk para tukang, ini adalah taman bermain dengan tepi yang tajam. Untuk semua orang: itu cepat jika Anda membuatnya cepat, sederhana jika Anda membuatnya sederhana, dan hanya sebaik pilihan model Anda. Itulah seharusnya perangkat lunak, dan bagaimana jarang terjadi.

FAQ

Q1:Bagaimana cara menggunakan FastChat dengan klien yang kompatibel dengan OpenAI? Arahkan URL dasar klien Anda ke server API FastChat dan pertahankan skema chat/completions yang sama. Endpoint cocok, tetapi perilaku model tidak—jadi uji prompt dan parameter terhadap model sebenarnya yang akan Anda jalankan.

Q2:Apa cara terbaik untuk menjalankan FastChat di satu GPU? Pilih model yang sesuai dengan VRAM Anda dengan ruang untuk cadangan, idealnya terkuantisasi (4–8 bit) untuk kenyamanan. Mulai satu worker, streaming token, dan jaga agar ukuran batch tetap kecil kecuali Anda menyukai lonjakan latensi.

Q3:Bisakah FastChat menangani beberapa model sekaligus? Ya—controller akan melacak beberapa worker dan model. Rute permintaan dengan sengaja; jangan berasumsi 'API yang sama' berarti 'hasil yang dapat dipertukarkan' di seluruh model.

Q4:Bagaimana cara mempercepat FastChat tanpa membeli perangkat keras baru? Kuantisasi model, aktifkan penggunaan kembali cache KV, streaming respons, dan sesuaikan ukuran max_tokens. Caching prompt umum membantu lebih dari kebanyakan pengaturan kenop.

Q5:Apakah FastChat bagus untuk pipeline RAG? Ini berfungsi dengan baik sebagai lapisan chat, tetapi kualitas RAG bergantung pada pengambilan yang bersih dan prompt yang disiplin. FastChat tidak akan memperbaiki konteks yang ceroboh; itu hanya menyajikan model lebih cepat.