How do I use FastChat with an OpenAI-compatible client?

Point your client’s base URL to the FastChat API server and keep the same chat/completions schema. The endpoint matches, but model behavior won’t—so test prompts and parameters against the actual model you’ll run.

What’s the best way to run FastChat on a single GPU?

Pick a model that fits your VRAM with room to spare, ideally quantized (4–8 bit) for comfort. Start one worker, stream tokens, and keep batch size tiny unless you like latency spikes.

Can FastChat handle multiple models at once?

Yes—the controller will track multiple workers and models. Route requests intentionally; don’t assume ‘same API’ means ‘interchangeable results’ across models.

How do I speed up FastChat without buying new hardware?

Quantize the model, enable KV cache reuse, stream responses, and right-size max_tokens. Caching common prompts helps more than most knob-twiddling.

Is FastChat good for RAG pipelines?

It works fine as the chat layer, but RAG quality depends on clean retrieval and disciplined prompts. FastChat won’t fix sloppy context; it just serves the model faster.

FastChat بدون ضجة: كيفية استخدامه كما لو كنت تعنيه

مقدمة: الأمر المتعلق بأطر عمل الدردشة "البسيطة"

الأمر المتعلق بأدوات المطورين التي تصف نفسها بأنها "بسيطة" هو أنها عادةً ليست كذلك. إنها بسيطة بنفس طريقة صعود الطائرة "البسيط". طوابير، ومناطق، وبطاقة صعود لا يمكنك العثور عليها لأن التطبيق قام بتسجيل خروجك عند البوابة. غالبًا ما يُطلق على FastChat، وهو إطار عمل الدردشة مفتوح المصدر الذي يربطه الأشخاص بـ LLMs، اسم بسيط. في الممارسة العملية؟ إنه بسيط إذا كنت تعرف بالضبط ما تفعله. إذا لم تكن تعرف، فهو عبارة عن تشابك من المنافذ والنماذج ورياضيات وحدة معالجة الرسومات (GPU) التي تبدو وكأنها تجري اختبار أداء لتقلبات حبكة فيلم لكريستوفر نولان.

هذا الدليل هو وجهة نظري الواضحة حول كيفية استخدام FastChat دون التعامل مع عطلة نهاية الأسبوع الخاصة بك على أنها ملاذ لتصحيح الأخطاء. سنتطرق إلى كيفية استخدام FastChat محليًا، وكيفية خدمة النماذج، وكيفية توصيل نقطة نهاية متوافقة مع OpenAI، وكيفية تشغيل واجهة مستخدم لا تنهار عند أول اتصال بالواقع. سأشير إلى ما هو هش، وما هو سريع، وما يتم تسويقه على أنه سريع. (غالبًا ما تكون هذه ثلاثة أشياء مختلفة.)

ما هو FastChat، حقًا؟

FastChat هو نظام مفتوح المصدر لخدمة نماذج اللغة الكبيرة والدردشة معها. فكر في "استنساخ OpenAI API"، ولكنك تحضر النماذج الخاصة بك. وهي تتضمن:

وحدة تحكم (شرطي المرور)،

عامل نموذج واحد أو أكثر (الأشخاص الذين يقومون بالعمل فعليًا)،

طبقة REST API متوافقة مع OpenAI،

واجهة مستخدم ويب أفضل من لا شيء وأسوأ من أي شيء مصمم لهذا الغرض.

إذا قمت بتشغيل LLM محليًا بسطر واحد وفكرت يومًا ما: لا توجد طريقة تجعل هذا جاهزًا للإنتاج - فأنت على حق. FastChat هو عكس ذلك: إنه يريد أن يكون أشبه بالإنتاج. تقوم بتوصيل المكونات، أشبه بـ LEGO Technic من LEGO Duplo. العائد هو المرونة. التكلفة هي معرفة ما تفعله.

كيفية استخدام FastChat: النسخة القصيرة

قم بتثبيت FastChat والتبعيات الخاصة به (Python، CUDA إذا كنت تهتم بالسرعة، وأوزان النموذج).

ابدأ وحدة التحكم.

ابدأ عامل نموذج واحد على الأقل ووجهه إلى وحدة التحكم.

(اختياري ولكنه مفيد) ابدأ خادم API المتوافق مع OpenAI.

(اختياري ولكنه يوفر العقل) ابدأ واجهة مستخدم الويب.

أرسل الطلبات إما عبر واجهة برمجة تطبيقات (API) بنمط OpenAI أو واجهة المستخدم المضمنة. كرر حتى تتوقف عن الشتم.

هذه هي الحلقة الأساسية. الباقي يتعلق بفعل ذلك دون حرق وحدة معالجة الرسومات (GPU) أو صبرك.

الإعداد: الأجزاء المملة التي توفر لك ساعات لاحقًا

Python: استخدم بيئة افتراضية لن تسممها. FastChat صعب الإرضاء بشأن الإصدارات. البرامج صعبة الإرضاء لا تعتذر.

وحدة معالجة الرسومات (GPU): إذا كان لديك أجهزة NVIDIA، فقم بتثبيت مجموعة أدوات CUDA التي تتطابق فعليًا مع برامج التشغيل الخاصة بك. إذا لم تفعل ذلك، فستعمل على وحدة المعالجة المركزية (CPU)، وهو ما يشبه قيادة حافلة صغيرة إلى قمة Pike's Peak - ممكن، أبطأ مما تعتقد، وستتساءل عن سبب محاولتك.

النماذج: FastChat لا يأتي مع نماذج. أنت توجهه إلى أوزان النموذج - متغيرات Llama، وMistral، وQwen، وما إلى ذلك. يمكنك أيضًا تشغيل نماذج كمية إذا كانت ذاكرة VRAM الخاصة بوحدة معالجة الرسومات (GPU) الخاصة بك أشبه بـ "MacBook" منها بـ "مركز البيانات".

التثبيت الأساسي: الحفاظ على نظافته

قم بإنشاء venv Python جديد.

pip install fastchat. إذا كنت بحاجة إلى PyTorch ممكنة لـ CUDA، فقم بتثبيتها أولاً. إذا كنت لا تعرف ما إذا كنت بحاجة إليها، فربما تفعل ذلك.

تحقق من أن torch يرى وحدة معالجة الرسومات (GPU) الخاصة بك: إذا لم يكن الأمر كذلك، فقم بإصلاح ذلك قبل أن تلوم FastChat. إلقاء اللوم على أطر العمل بسبب برامج التشغيل المفقودة هو النسخة DevOps من إلقاء اللوم على منظم الحرارة بسبب الشتاء.

ابدأ وحدة التحكم: برج المراقبة الجوية

قم بتشغيل وحدة التحكم. فهو يتتبع العاملين في النموذج ويوجه الطلبات. بدونه، لا شيء يتحدث إلى أي شيء. فكر في الأمر على أنه DNS لمزرعة الاستدلال الخاصة بك. ممل، ضروري، وغير مرئي عندما يعمل.

ابدأ عامل النموذج: حيث تحدث السحر فعليًا

اختر نموذجًا يمكنك تحمله في VRAM. يمكن لنموذج معلمة 7B في FP16 أن يدمر وحدة معالجة رسومات (GPU) متواضعة. جرب التكميم 4 بت أو 8 بت إذا كنت مقيدًا.

ابدأ عاملاً، ووجهه إلى وحدة التحكم، وقم بتعيين مسار النموذج. إذا فشل التحميل، فعادةً ما يكون ذلك بسبب أن دقة النموذج غير مناسبة أو أن أداة الترميز غير متطابقة. اقرأ السجلات. إنهم فظون بالطريقة التي يكون بها الجراحون فظين.

API متوافق مع OpenAI: الجزء المفيد

يعرض FastChat واجهة برمجة تطبيقات (API) بنمط OpenAI. وهذا يعني أن البرامج النصية والأدوات الحالية التي تتوقع نقاط نهاية OpenAI يمكن أن تعمل ببساطة من الناحية النظرية. من الناحية العملية، ستقوم بتعديل عناوين URL الأساسية وتراقب الميزات التي لا يمكن للنموذج القيام بها (استدعاء الوظائف، ومدخلات الصور) ما لم يكن العامل الخاص بك يدعمها. لكن شكل الشيء - JSON، ونقاط نهاية الدردشة / الإكمال - يتماشى. هذا هو الفرق بين مشروع عطلة نهاية الأسبوع وشيء يمكنك توصيله بخدمة.

واجهة مستخدم الويب: لأنك تريد النقر في بعض الأحيان

واجهة المستخدم المضمنة جيدة للاختبار. إنه ليس منتجًا؛ إنه نافذة. إذا كنت تريد فقط وحدة تحكم للمطورين لدماغك في صندوق، فهذا يكفي. إذا كنت تريد مساحات عمل أو سلاسل محادثات أو مدخلات متعددة الوسائط أو ميزات مدروسة لتحسين جودة الحياة، فسينتهي بك الأمر بكتابة برنامج تضمين خاص بك - أو باستخدام عميل اكتشف بالفعل الحالات الحافة.

كيفية استخدام FastChat للتطوير المحلي

قم بتشغيل وحدة التحكم وعامل في محطتين منفصلتين. لا تدفنهم في tmux حتى تثق بهم.

استخدم curl أو برنامج Python نصي صغير للوصول إلى نقطة النهاية المتوافقة مع OpenAI: أرسل مطالبة اختبارية قصيرة وغير غامضة.

اضبط معلمات الإنشاء: درجة الحرارة، top_p، max_tokens. ابدأ متحفظًا. يبالغ الأشخاص في ضبط العشوائية ثم يشتكون من الهلوسة كما لو أن النموذج استيقظ مؤذياً.

تأكد من أن سلوك الترميز يطابق توقعاتك. إذا كنت تستبدل النماذج بشكل متكرر، فستجد حالات حافة. هذا ليس خطأ FastChat. هذا هو "LLMs غريب".

كيفية استخدام FastChat للنماذج الأولية للفريق

قم بتشغيل وحدة التحكم على مضيف مستقر.

قم بتشغيل عمال متعددين بنفس النموذج لمحاكاة تجمع، أو اخلط النماذج حسب القدرة.

اعرض نقطة النهاية المتوافقة مع OpenAI داخليًا. امنح فريقك عنوان URL واحدًا ومفتاح API.

أضف التسجيل. ليست فكرة جديدة، ولكن عدد الفرق التي تعمل بشكل أعمى سيجعل وكيل مراهنات فيغاس يخجل. أنت بحاجة إلى مطالبات واستجابات لتصحيح الأخطاء؛ قم بتنقيح الأجزاء الحساسة إذا لزم الأمر.

الأداء: ما تعنيه كلمة "سريع" يعتمد عليك

يمنحك FastChat ما يكفي من الحبل لتكون سريعًا - أو لشنق نفسك بتكوينات طموحة بشكل مفرط. فحوصات الواقع:

VRAM: إذا لم يكن لديك ما يكفي، فقم بالتكميم. إذا كنت لا تزال لا تفعل ذلك، فاستخدم نماذج أصغر. لا يوجد إطار عمل يصلح الفيزياء.

حجم الدفعة: جيد للإنتاجية، وغالبًا ما يكون سيئًا لوقت الاستجابة. اختر واحدًا. إذا كنت بحاجة إلى كليهما، فأنت بحاجة إلى المزيد من العمال.

ذاكرة التخزين المؤقت KV: أعد استخدامها إذا كان العامل الخاص بك يدعمها. وإلا فإنك تدفع مقابل سياق دفعت مقابله بالفعل.

أخذ عينات الرمز المميز: تحصل مخططات فك التشفير الفاخرة على عوائد متضائلة بمجرد أن تكون جودة النموذج الأساسي هي العامل المحدد.

الأمان: إنه ليس لعبة

إذا وضعت FastChat على خادم حيث يمكن للبشر الآخرين لمسه:

أضف المصادقة. حتى مفتاح API الخام يتفوق على "الأمل".

تحديد المعدل. سيشكرك مستقبلك عندما ينتقل البرنامج النصي إلى التكرار في الساعة 2 صباحًا.

قسّم حركة المرور بين النماذج العامة والخاصة إذا قمت بخلط الأوزان المرخصة مع الأوزان المفتوحة. يحب المحامون الغموض؛ لا تطعمهم.

كيفية استخدام FastChat مع الأدوات الحقيقية

أجهزة الكمبيوتر المحمولة: وجه عميل OpenAI الخاص بك إلى عنوان URL الأساسي لـ FastChat وانطلق. إنه المسار الأقل إزعاجًا لعلماء البيانات.

CLI: احتفظ ببرنامج نصي صغير في متناول يدك لاختبارات الدخان. إذا لم تتمكن من الحصول على استجابة معقولة في 10 ثوانٍ، فتوقف وأصلح خط الأنابيب.

تطبيقات الويب: تعامل مع FastChat على أنه خدمة مصغرة داخلية. فحوصات الصحة، وعمليات إعادة المحاولة، والمهلات. أنت لا تحتاج إلى كتاب للقيام بذلك - أنت بحاجة إلى الانضباط.

اختيار النماذج: الجزء الذي يتجادل فيه الجميع

تبدأ كيفية استخدام FastChat بمسؤولية باختيار النموذج. بعض الاستدلالات السريعة:

دردشة قصيرة بإجابات واضحة: غالبًا ما تتجاوز النماذج الصغيرة المضبوطة على التعليمات وزنها.

مطالبات ثقيلة التعليمات البرمجية: استخدم النماذج التي تم تدريبها فعليًا على التعليمات البرمجية بتراخيص تساهلية. "قريب بما فيه الكفاية" ليس كذلك.

سياق طويل: إذا كنت بحاجة إلى 32 ألف رمز مميز أو أكثر، فخطط للأجهزة الخاصة بك أولاً. ثم اخفض توقعاتك.

متعدد الوسائط: تختلف توافق FastChat. إذا كنت بحاجة إلى صور أو صوت، فاختر عاملاً ونموذجًا يدعمهما صراحةً، وإلا فلا تتظاهر بذلك.

فخ التوافق مع OpenAI

الجزء الجيد في واجهة برمجة تطبيقات (API) متوافقة مع OpenAI هو أنه يمكنك التبديل بين الواجهات الخلفية. الجزء غير الجيد هو أن الناس يبدأون في معاملة جميع النماذج كما لو كانت متشابهة. إنهم ليسوا كذلك. يمكن لنقطة النهاية التي تبدو متطابقة أن تتصرف بشكل مختلف تمامًا عبر النماذج - المنطق، والإسهاب، وفلاتر الأمان، والشخصية بأكملها. لن يتكيف تطبيقك بطريقة سحرية لمجرد أن مخطط JSON متطابق. اختبر مع النماذج الفعلية التي ستشغلها. ثم اختبر مرة أخرى بعد تغيير أي شيء.

إمكانية الملاحظة: لا يمكنك إصلاح ما لا يمكنك رؤيته

سجل المطالبات والمعلمات وأوقات الاستجابة.

تتبع عدد الرموز المميزة وارفض المطالبات التي تتجاوز ميزانيتك.

احتفظ بلوحات معلومات لكل نموذج. نعم، هذا كثير بالنسبة إلى "خادم دردشة". إنه أيضًا الفرق بين الاستقرار والاهتزازات.

أوضاع الفشل: حيث يعض FastChat

يموت العامل تحت OOM: لقد خمنت قليلاً بشكل كبير جدًا بشأن الدقة. قم بخفضه أو احصل على وحدة معالجة رسومات (GPU) بها المزيد من VRAM - لا يوجد مقدار من السحر يضغط على FP16 13B في 8 جيجابايت بشكل موثوق.

وحدة التحكم تفقد مسار العمال: خلل في الشبكة. أضف عمليات إعادة المحاولة، ولا تنشر كل شيء على نفس شبكة Wi-Fi المتقطعة كما لو كنت في حفلة LAN في مقهى.

ارتفاعات زمن انتقال سيئة: دفعتك طموحة جدًا، أو أن وحدة المعالجة المركزية (CPU) الخاصة بك تعمل على اختناق الترميز. قم بالتحليل قبل التنظير.

كيفية استخدام FastChat لـ RAG دون خسارة أسبوع

يستمر الأشخاص في ربط FastChat بخطوط أنابيب الاسترجاع ويتفاجأون عندما يعزف النموذج بدلاً من الاستشهاد. نصائح:

قم بالاسترجاع في مكان آخر بشكل نظيف (قاعدة بيانات вектор، والتضمينات) وقم بتغذية النموذج بسياق قصير ومنظم.

حافظ على انضباط المطالبات. "أجب مع الاستشهادات" ليست تعويذة؛ إنه اقتراح. إذا كنت بحاجة إلى استشهادات، فقم بفرض هيكل في مرحلة ما بعد المعالجة أو استخدم نموذجًا تم تدريبه على التصرف.

قم بتخزين الإجابات على الاستعلامات المتكررة مؤقتًا. معظم قواعد المعرفة "الديناميكية" هي نفسها بنسبة 80٪ ستة أسئلة من زوايا مختلفة.

التكلفة: الوقت هو الجزء المكلف

تشغيل FastChat محليًا رخيص على الورق ومكلف من حيث الاهتمام. إذا كان هدفك هو التعلم، فهذا رائع. إذا كان هدفك هو الشحن، ففكر في المكان الذي يذهب إليه وقتك: التعبئة والتغليف، والترقيات، والمراقبة، والاحتياطات. لا يوجد عار في استخدام خدمة مُدارة إذا كان العمل الذي يتم الحكم عليك عليه فعليًا هو أي شيء بخلاف "تشغيل خادم دردشة".

أين Sider.AI تناسب - وأين لا تناسب

إذا كنت تريد تجربة عميل عاقلة - سلاسل محادثات، وإدارة المطالبات، وتبديل سريع بين النماذج المحلية والسحابية - فإن Sider.AI تعمل بالفعل دون أن تتوسل إليك لقراءة ثلاثة ملفات YAML أولاً. يمكنك توجيهه إلى نقطة نهاية متوافقة مع OpenAI (مثل FastChat) أو استخدام النماذج المستضافة عندما تبدأ وحدة معالجة الرسومات (GPU) الخاصة بك في الأزيز. إنه ليس بديلاً لـ FastChat؛ إنه الجزء الذي يحول حوافك الخشنة إلى شيء يمكن للأشخاص استخدامه دون وجود مطور يقف بجواره لشرح ذلك. إذا كانت أولويتك هي العبث بالعمال ووحدات التحكم، فابق في FastChat. إذا كان الأمر يتعلق بالقيام بعمل فعلي، فإن Sider الذي يجلس فوق نقطة نهاية FastChat الخاصة بك هو الجزء الذي لن تندم عليه.

كيفية استخدام FastChat، خطوة بخطوة (بدون التلويح باليد)

قم بتثبيت التبعيات: Python، CUDA إذا كان ذلك ممكنًا، PyTorch مع CUDA.

قم بتثبيت FastChat في بيئة جديدة.

ابدأ وحدة التحكم على منفذ يمكن التنبؤ به.

قم بتنزيل نموذج يمكنك تشغيله بالفعل. لا تبدأ بأكبر شيء في لوحة المتصدرين مثل مراهق يختار سيارة أولى.

قم بتشغيل عامل بهذا النموذج. تأكد من استخدام VRAM والرمز المميز الأول.

ابدأ خادم API المتوافق مع OpenAI.

اختبر بمطالبة معروفة جيدًا باستخدام عميل OpenAI الخاص بك الذي تم تعيينه على عنوان URL الأساسي المحلي الخاص بك.

اضبط معلمات فك التشفير، وقم بتعيين الإعدادات الافتراضية المعقولة، وقم بتأمينها في التكوين.

أضف التسجيل والمصادقة الأساسية وحدود المعدل قبل أن يلمسها أي شخص آخر.

اختياري: ابدأ واجهة مستخدم الويب أو قم بتوصيل عميل أفضل مثل Sider.AI.

المزالق الشائعة التي ستصادفها مرة واحدة بالضبط (إذا قرأت هذا)

إصدارات CUDA / PyTorch المختلطة: سيبدو الأمر على ما يرام حتى التحميل الحقيقي الأول. تطابق الإصدارات عن قصد.

عدم تطابق أداة الترميز: يؤدي انحراف نموذج Hugging Face مقابل أداة الترميز إلى إنشاء هراء دقيق. حافظ على مزامنتها.

مطالبات النظام الطويلة بشكل مفرط: أنت تدفع رموزًا مقابل محادثات التشجيع. اجعل مطالبة النظام قصيرة ومحددة ومملة.

تجاهل البث: قم بتشغيل البث للاستجابة. يربط المستخدمون النهائيون "يبدأ الكتابة بسرعة" بـ "ذكي"، وبصراحة، ليسوا مخطئين.

التحجيم: عندما لا يكون عامل واحد كافيًا

العمال الأفقيون: عمال متعددون مسجلون في وحدة التحكم. إنه ليس علم الصواريخ، لكنك تحتاج إلى خطة لأوزان النموذج على كل جهاز.

النماذج المختلطة: وجه الإجابات القصيرة إلى نماذج أصغر؛ أرسل الأسئلة الصعبة إلى الضارب الثقيل. ستحتاج إلى منطق التوجيه؛ لن تقوم وحدة التحكم بتأمين تطبيقك لك.

التخزين المؤقت: قم بتحويل المطالبات الشائعة إلى ذاكرة. لا شيء يبدو أسرع من تخطي العمل الذي قمت به بالفعل.

لماذا FastChat بدلاً من إطار عمل آخر؟

لأنك تريد التحكم دون بناء الكاتدرائية بأكملها. تقسيم وحدة التحكم / العامل أمر منطقي. واجهة برمجة تطبيقات (API) المتوافقة مع OpenAI عملية. ولا تتظاهر بأنها أكثر مما هي عليه. يمكنك الانتقال من "فكرة" إلى "قابلة للاستخدام" في فترة ما بعد الظهر إذا حافظت على طموحاتك ضمن قوانين الديناميكا الحرارية.

لكن لا تخدع نفسك

تعني كيفية استخدام FastChat جيدًا قبول المفاضلات:

ستتخلى عن بعض اللمسات الأخيرة مقابل المرونة.

ستقرأ السجلات، وستكون غير مفهومة مرة واحدة على الأقل.

سوف تميل إلى مطاردة تنانين القياس. قاوم. يعد اختيار النموذج أكثر أهمية من إطار العمل لمعظم الأعمال العملية.

إذا تذكرت خمسة أشياء فقط

ابدأ صغيرًا. نماذج أصغر، وتكوينات أصغر، وأجزاء متحركة أقل.

اختبر عبر واجهة برمجة تطبيقات (API) المتوافقة مع OpenAI مبكرًا. إذا كان هذا المسار يعمل، فالباقي هو السباكة.

قم بالتكميم قبل المساس بالاستقرار. لا تجعلك OOMs أسرع.

سجل كل ما لا تريد تخمينه لاحقًا.

استخدم عميلاً لائقًا. واجهة المستخدم الصحيحة تجعل النماذج المتواضعة تبدو مختصة والنماذج الجيدة تبدو رائعة. Sider.AI هي طبقة صلبة وخالية من المتاعب هنا.

ملخص: النظرة الصادقة

FastChat هو ما يحدث عندما يكبر المصدر المفتوح بما يكفي ليكون مفيدًا دون التظاهر بأنه SaaS. إنه معياري وعملي وغير مهتم بشكل واضح بإمساك يدك. إن كيفية استخدام FastChat هي في الغالب كيفية استخدام أي أداة تقدر المرونة على الاحتفال: ابدأ بهدف واضح، وقم بتوصيل خط الأنابيب القابل للتطبيق الأدنى، وتوقف عندما يعمل. الباقي - لوحات المعلومات، والعمال الموزعون، وحديقة النماذج - يمكن أن ينتظر حتى يطلب منك شخص ما رقم وقت التشغيل.

بالنسبة لمعظم الناس، فإن الخطوة الذكية هي تشغيل FastChat خلف عميل لا يضيع انتباهك. بالنسبة للمصلحين، فهو ملعب ذو حواف حادة. للجميع: إنه سريع إذا جعلته سريعًا، وبسيط إذا حافظت عليه بسيطًا، وجيد فقط مثل اختيارك للنموذج. وهي الطريقة التي يجب أن يكون عليها البرنامج، والطريقة التي نادرًا ما يكون عليها.

أسئلة وأجوبة

س 1: كيف يمكنني استخدام FastChat مع عميل متوافق مع OpenAI؟ وجّه عنوان URL الأساسي لعميلك إلى خادم FastChat API واحتفظ بنفس مخطط الدردشة / الإكمال. تتطابق نقطة النهاية، ولكن سلوك النموذج لن يتطابق - لذا اختبر المطالبات والمعلمات مقابل النموذج الفعلي الذي ستشغله.

س 2: ما هي أفضل طريقة لتشغيل FastChat على وحدة معالجة رسومات (GPU) واحدة؟ اختر نموذجًا يناسب VRAM الخاص بك مع مساحة احتياطية، ويفضل أن يكون محددًا كميًا (4-8 بت) للراحة. ابدأ عاملاً واحدًا، وقم ببث الرموز المميزة، واحتفظ بحجم الدفعة صغيرًا إلا إذا كنت تحب ارتفاعات زمن الانتقال.

س 3: هل يمكن لـ FastChat التعامل مع نماذج متعددة في وقت واحد؟ نعم - ستتتبع وحدة التحكم العديد من العمال والنماذج. قم بتوجيه الطلبات عن قصد؛ لا تفترض أن "نفس API" تعني "نتائج قابلة للتبديل" عبر النماذج.

س 4: كيف يمكنني تسريع FastChat دون شراء أجهزة جديدة؟ قم بتحديد النموذج الكمي، وتمكين إعادة استخدام ذاكرة التخزين المؤقت KV، وبث الاستجابات، وقم بتحديد حجم max_tokens بشكل صحيح. يساعد تخزين المطالبات الشائعة مؤقتًا أكثر من معظم عمليات تدوير المقبض.

س 5: هل FastChat جيد لخطوط أنابيب RAG؟ إنه يعمل بشكل جيد كطبقة دردشة، لكن جودة RAG تعتمد على الاسترجاع النظيف والمطالبات المنضبطة. لن يصلح FastChat السياق المهمل؛ إنه يخدم النموذج بشكل أسرع.