அறிமுகம்: “எளிமையான” சாட் கட்டமைப்புகளைப் பற்றிய விஷயம்
தங்களை “எளிமையானவை” என்று அழைத்துக் கொள்ளும் டெவலப்பர் கருவிகளைப் பற்றிய விஷயம் என்னவென்றால், அவை பொதுவாக அப்படி இருப்பதில்லை. ஏர்லைன் போர்டிங் “எளிமையானது” என்பதைப் போன்றதுதான் இதுவும். வரிசைகள், மண்டலங்கள், மற்றும் நீங்கள் கண்டுபிடிக்க முடியாத போர்டிங் பாஸ், ஏனென்றால் ஆப் உங்களை கேட்டில் சைன் அவுட் செய்துவிட்டது. FastChat, திறந்த-மூல சாட் கட்டமைப்பு, மக்கள் LLM-களில் இணைக்கிறார்கள், இது பெரும்பாலும் எளிமையானது என்று அழைக்கப்படுகிறது. நடைமுறையில்? நீங்கள் என்ன செய்கிறீர்கள் என்று உங்களுக்குத் தெரிந்தால் அது எளிமையானது. இல்லையென்றால், அது போர்ட்கள், மாதிரிகள் மற்றும் GPU கணிதத்தின் ஒரு சிக்கலாகும், இது கிறிஸ்டோபர் நோலன் சதி திருப்பத்திற்கு ஆடிஷன் செய்வது போல் தெரிகிறது.
FastChat-ஐ எவ்வாறு பயன்படுத்துவது என்பது பற்றிய எனது நேரடியான விளக்கம் இந்த வழிகாட்டி, உங்கள் வார இறுதியை பிழைத்திருத்தும் பின்வாங்கலாக மாற்றாமல். FastChat-ஐ உள்நாட்டில் எவ்வாறு பயன்படுத்துவது, மாதிரிகளை எவ்வாறு வழங்குவது, OpenAI-இணக்கமான எண்ட்பாயிண்ட்டை எவ்வாறு இணைப்பது மற்றும் முதல் தொடர்பில் சரிந்து விடாத UI-ஐ எவ்வாறு இயக்குவது என்பதைப் பார்ப்போம். எது உடையக்கூடியது, எது வேகமானது, எது வேகமானது என்று சந்தைப்படுத்தப்படுகிறது என்பதை நான் சுட்டிக்காட்டுகிறேன். (இவை பெரும்பாலும் மூன்று வேறுபட்ட விஷயங்கள்.)
FastChat என்றால் என்ன, உண்மையில்?
FastChat என்பது பெரிய மொழி மாதிரிகளை வழங்குவதற்கும், சாட் செய்வதற்கும் திறந்த-மூல அமைப்பு ஆகும். “OpenAI API குளோன்” என்று நினைத்துக் கொள்ளுங்கள், ஆனால் உங்கள் சொந்த மாதிரிகளை கொண்டு வாருங்கள். இதில் பின்வருவன அடங்கும்:
- ஒரு கட்டுப்படுத்தி (போக்குவரத்து காவலர்),
- ஒன்று அல்லது அதற்கு மேற்பட்ட மாதிரி பணியாளர்கள் (உண்மையில் வேலையைச் செய்பவர்கள்),
- OpenAI-இணக்கமான REST API அடுக்கு,
- எதுவுமே இல்லை என்பதை விட சிறந்த மற்றும் நோக்கத்திற்காக உருவாக்கப்பட்ட எதையும் விட மோசமான ஒரு வலை UI.
ஒரு லைனரில் உள்ளூர் LLM-ஐ இயக்கி, இது தயாரிப்புக்கு ஏற்றதாக இருக்க முடியாது என்று நீங்கள் நினைத்திருந்தால் - நீங்கள் சொல்வது சரிதான். FastChat அதற்கு நேர்மாறானது: அது தயாரிப்புக்கு ஏற்றதாக இருக்க விரும்புகிறது. நீங்கள் கூறுகளை இணைக்கிறீர்கள், LEGO Duplo-வை விட LEGO Technic போல. பலன் நெகிழ்வுத்தன்மை. விலை என்னவென்றால், நீங்கள் என்ன செய்கிறீர்கள் என்று தெரிந்து கொள்வது.
FastChat-ஐ எவ்வாறு பயன்படுத்துவது: சுருக்கமான பதிப்பு
- FastChat மற்றும் அதன் சார்புகளை நிறுவவும் (Python, CUDA வேகம் பற்றி நீங்கள் கவலைப்பட்டால், மாதிரி எடைகள்).
- கட்டுப்படுத்தியைத் தொடங்கவும்.
- குறைந்தது ஒரு மாதிரி பணியாளரையாவது தொடங்கி, அதை கட்டுப்படுத்தியில் சுட்டிக்காட்டவும்.
- (விரும்பினால் ஆனால் பயனுள்ளதாக இருக்கும்) OpenAI-இணக்கமான API சேவையகத்தைத் தொடங்கவும்.
- (விரும்பினால் ஆனால் மனதை காப்பாற்றும்) வலை UI-ஐ தொடங்கவும்.
- OpenAI-ஸ்டைல் API அல்லது உள்ளமைக்கப்பட்ட UI மூலம் கோரிக்கைகளை அனுப்பவும். நீங்கள் சபிப்பதை நிறுத்தும் வரை மீண்டும் செய்யவும்.
இதுதான் முக்கிய சுழற்சி. மீதமுள்ளவை உங்கள் GPU அல்லது உங்கள் பொறுமையை வறுக்காமல் இதைச் செய்வது பற்றியது.
அமைக்கவும்: சலிப்பான பாகங்கள், அவை பின்னர் உங்களுக்கு மணிநேரங்களைச் சேமிக்கின்றன
- Python: நீங்கள் விஷமாக்காத ஒரு மெய்நிகர் சூழலைப் பயன்படுத்தவும். FastChat பதிப்புகளைப் பற்றி கவலைப்படுகிறது. கவலைப்படும் மென்பொருள் மன்னிப்பு கேட்காது.
- GPU: உங்களிடம் NVIDIA வன்பொருள் இருந்தால், உங்கள் டிரைவர்களுக்கு உண்மையில் பொருந்தக்கூடிய CUDA கருவித்தொகுப்பை நிறுவவும். இல்லையென்றால், நீங்கள் CPU-இல் இயக்குவீர்கள், இது Pike's Peak வரை ஒரு மினிவேனை ஓட்டுவது போன்றது - சாத்தியம், நீங்கள் நினைப்பதை விட மெதுவாக, ஏன் முயற்சித்தீர்கள் என்று நீங்கள் ஆச்சரியப்படுவீர்கள்.
- மாதிரிகள்: FastChat மாதிரிகளுடன் அனுப்பப்படுவதில்லை. மாதிரி எடைகளுக்கு நீங்கள் அதை சுட்டிக்காட்டுகிறீர்கள் - Llama வகைகள், Mistral, Qwen போன்றவை. உங்கள் GPU VRAM “டேட்டா சென்டரை” விட “MacBook” ஆக இருந்தால், நீங்கள் குவாண்டிஸ் செய்யப்பட்ட மாதிரிகளையும் இயக்கலாம்.
அடிப்படை நிறுவல்: அதை சுத்தமாக வைத்திருத்தல்
- புதிய Python venv-ஐ உருவாக்கவும்.
- pip install fastchat. உங்களுக்கு CUDA-இயக்கப்பட்ட PyTorch தேவைப்பட்டால், அதை முதலில் நிறுவவும். உங்களுக்கு அது தேவையா என்று உங்களுக்குத் தெரியாவிட்டால், உங்களுக்கு அது தேவைப்படலாம்.
- torch உங்கள் GPU-ஐ பார்க்கிறதா என்பதை சரிபார்க்கவும்: இல்லையென்றால், FastChat-ஐ குற்றம் சாட்டுவதற்கு முன்பு அதை சரிசெய்யவும். காணாமல் போன டிரைவர்களுக்காக கட்டமைப்புகளை குற்றம் சாட்டுவது, குளிர்காலத்திற்காக தெர்மோஸ்டாட்டை குற்றம் சாட்டுவதன் டெவொப்ஸ் பதிப்பாகும்.
கட்டுப்படுத்தியைத் தொடங்கவும்: விமான போக்குவரத்து கோபுரம்
கட்டுப்படுத்தியை இயக்கவும். இது மாதிரி பணியாளர்களை கண்காணித்து கோரிக்கைகளை வழிநடத்துகிறது. அது இல்லாமல், எதுவும் எதனுடனும் பேசுவதில்லை. உங்கள் அனுமான பண்ணைக்கான DNS என்று நினைத்துப் பாருங்கள். சலிப்பான, அத்தியாவசியமான, அது வேலை செய்யும் போது தெரியாதது.
ஒரு மாதிரி பணியாளரைத் தொடங்கவும்: அங்குதான் மேஜிக் உண்மையில் நடக்கும்
- VRAM-இல் நீங்கள் வாங்கக்கூடிய ஒரு மாதிரியைத் தேர்ந்தெடுக்கவும். FP16-இல் உள்ள 7B அளவுரு மாதிரி ஒரு சாதாரண GPU-ஐ இன்னும் அழிக்க முடியும். நீங்கள் கட்டுப்படுத்தப்பட்டிருந்தால், 4-பிட் அல்லது 8-பிட் குவாண்டிசேஷனை முயற்சிக்கவும்.
- ஒரு பணியாளரைத் தொடங்கி, அதை கட்டுப்படுத்தியில் சுட்டிக்காட்டி, மாதிரி பாதையை அமைக்கவும். அது ஏற்றத் தவறினால், பொதுவாக மாதிரி துல்லியம் பொருந்தவில்லை அல்லது டோக்கனைசர் பொருந்தவில்லை என்று அர்த்தம். பதிவுகளைப் படிக்கவும். அறுவை சிகிச்சை நிபுணர்கள் மழுங்கலாக இருப்பது போல் அவை மழுங்கலாக உள்ளன.
OpenAI-இணக்கமான API: பயனுள்ள பிட்
FastChat OpenAI-ஸ்டைல் API-ஐ வெளிப்படுத்துகிறது. அதாவது OpenAI எண்ட்பாயிண்ட்களை எதிர்பார்க்கும் உங்கள் தற்போதைய ஸ்கிரிப்டுகள் மற்றும் கருவிகள், கோட்பாட்டில், வேலை செய்ய முடியும். நடைமுறையில், நீங்கள் அடிப்படை URL-களை சரிசெய்து, மாதிரி செய்ய முடியாத அம்சங்களைக் கவனிக்க வேண்டும் (செயல்பாடு அழைப்பு, பட உள்ளீடுகள்) உங்கள் பணியாளர் அவற்றை ஆதரிக்காவிட்டால். ஆனால் விஷயத்தின் வடிவம் - JSON, சாட்/நிறைவு எண்ட்பாயிண்ட்கள் - வரிசையாக உள்ளன. இது ஒரு வார இறுதி திட்டம் மற்றும் நீங்கள் ஒரு சேவையில் இணைக்கக்கூடிய ஒன்றுக்கு இடையிலான வேறுபாடு.
வலை UI: ஏனென்றால் சில நேரங்களில் நீங்கள் கிளிக் செய்ய விரும்புகிறீர்கள்
உள்ளமைக்கப்பட்ட UI சோதனைக்கு நல்லது. இது ஒரு தயாரிப்பு அல்ல; இது ஒரு சாளரம். உங்கள் மூளைக்குள் இருக்கும் ஒரு டெவ் கன்சோலை மட்டுமே நீங்கள் விரும்பினால், இது போதுமானது. நீங்கள் பணி இடங்கள், திரிகள், மல்டிமாடல் உள்ளீடுகள் அல்லது சிந்தனைமிக்க வாழ்க்கை தர அம்சங்களை விரும்பினால், நீங்கள் இன்னும் உங்கள் சொந்த ரேப்பரை எழுதுவீர்கள் - அல்லது ஏற்கனவே எட்ஜ் கேஸ்களை கண்டுபிடித்த ஒரு கிளையண்டைப் பயன்படுத்துவீர்கள்.
உள்ளூர் மேம்பாட்டிற்கு FastChat-ஐ எவ்வாறு பயன்படுத்துவது
- தனித்தனி டெர்மினல்களில் கட்டுப்படுத்தி மற்றும் ஒரு பணியாளரை சுழற்றுங்கள். நீங்கள் அவர்களை நம்பும் வரை tmux-இல் புதைக்க வேண்டாம்.
- OpenAI-இணக்கமான எண்ட்பாயிண்ட்டை அடிக்க curl அல்லது ஒரு சிறிய Python ஸ்கிரிப்டைப் பயன்படுத்தவும்: குறுகிய மற்றும் தெளிவற்ற ஒரு சோதனை தூண்டுதலை அனுப்பவும்.
- உற்பத்தி அளவுருக்களில் டயல் செய்யவும்: வெப்பநிலை, top_p, max_tokens. பழமைவாதமாகத் தொடங்கவும். மக்கள் சீரற்ற தன்மையை அதிகமாக்கிவிட்டு, மாடல் குறும்புத்தனமாக எழுந்ததைப் போல பிரமைகளை பற்றி புகார் செய்கிறார்கள்.
- டோக்கனைசேஷன் நடத்தை உங்கள் எதிர்பார்ப்புகளுடன் பொருந்துவதை உறுதிப்படுத்தவும். நீங்கள் மாதிரிகளை அடிக்கடி மாற்றினால், நீங்கள் எட்ஜ் கேஸ்களைக் கண்டுபிடிப்பீர்கள். அது FastChat-இன் தவறு இல்லை. அது “LLM-கள் விசித்திரமானவை”.
குழு முன்மாதிரிக்கு FastChat-ஐ எவ்வாறு பயன்படுத்துவது
- ஒரு நிலையான ஹோஸ்டில் கட்டுப்படுத்தியை இயக்கவும்.
- ஒரு குளத்தை உருவகப்படுத்த அதே மாதிரியுடன் பல பணியாளர்களை இயக்கவும் அல்லது திறமையின் அடிப்படையில் மாதிரிகளை கலக்கவும்.
- OpenAI-இணக்கமான எண்ட்பாயிண்ட்டை உள்நாட்டில் வெளிப்படுத்தவும். உங்கள் குழுவுக்கு ஒரு URL மற்றும் ஒரு API விசையை வழங்கவும்.
- பதிவைச் சேர்க்கவும். ஒரு புதுமையான யோசனை அல்ல, ஆனால் குருட்டுத்தனமாக இயங்கும் குழுக்களின் எண்ணிக்கை ஒரு வேகாஸ் விளையாட்டு புத்தகம் சிவக்க வைக்கும். பிழைத்திருத்தத்திற்கு உங்களுக்கு தூண்டுதல்கள் மற்றும் பதில்கள் தேவை; நீங்கள் கட்டாயப்படுத்தினால், முக்கியமான பிட்களை ரத்து செய்யவும்.
செயல்திறன்: “வேகமாக” என்றால் என்ன என்பது உங்களைப் பொறுத்தது
வேகமாக இருக்க FastChat உங்களுக்கு போதுமான கயிறுகளை வழங்குகிறது - அல்லது அதிக லட்சிய உள்ளமைவுகளுடன் உங்களை நீங்களே தூக்கிலிடவும். உண்மை சோதனைகள்:
- VRAM: உங்களிடம் போதுமானதாக இல்லையென்றால், அளவிடவும். நீங்கள் இன்னும் செய்யவில்லை என்றால், சிறிய மாதிரிகளைப் பயன்படுத்தவும். எந்த கட்டமைப்பும் இயற்பியலை சரிசெய்யாது.
- பேட்ச் அளவு: த்ரூபுட்டுக்கு நல்லது, பெரும்பாலும் லேட்டன்சிக்கு கெட்டது. ஒன்றை எடு. உங்களுக்கு இரண்டும் தேவைப்பட்டால், உங்களுக்கு அதிக பணியாளர்கள் தேவை.
- KV கேச்: உங்கள் பணியாளர் அதை ஆதரித்தால் மீண்டும் பயன்படுத்தவும். இல்லையென்றால், நீங்கள் ஏற்கனவே செலுத்திய சூழலுக்கு பணம் செலுத்துகிறீர்கள்.
- டோக்கன் மாதிரி: உங்கள் அடிப்படை மாதிரி தரம் கட்டுப்படுத்தும் காரணியாக மாறியவுடன், ஆடம்பரமான டிகோடிங் திட்டங்கள் குறைந்துவிடும்.
பாதுகாப்பு: இது ஒரு பொம்மை அல்ல
மற்ற மனிதர்கள் தொடக்கூடிய ஒரு சேவையகத்தில் நீங்கள் FastChat-ஐ வைத்தால்:
- அதிகாரத்தைச் சேர்க்கவும். ஒரு கச்சா API விசை கூட “நம்பிக்கை”யை விட சிறந்தது.
- விகித வரம்பு. ஒரு ஸ்கிரிப்ட் அதிகாலை 2 மணிக்கு மீண்டும் மீண்டும் வரும்போது உங்கள் எதிர்கால சுய நன்றி தெரிவிக்கும்.
- நீங்கள் உரிமம் பெற்ற எடைகளை திறந்தவைகளுடன் கலந்தால், பொது மற்றும் தனியார் மாதிரிகளுக்கு இடையில் போக்குவரத்தை பிரிக்கவும். வழக்கறிஞர்கள் தெளிவின்மையை விரும்புகிறார்கள்; அவர்களுக்கு உணவளிக்க வேண்டாம்.
உண்மையான கருவிகளுடன் FastChat-ஐ எவ்வாறு பயன்படுத்துவது
- நோட்புக்குகள்: உங்கள் OpenAI கிளையண்டை FastChat அடிப்படை URL-இல் சுட்டிக்காட்டி செல்லுங்கள். தரவு விஞ்ஞானிகளுக்கு இது குறைந்த எரிச்சலூட்டும் பாதை.
- CLI: புகை சோதனைகளுக்கு ஒரு சிறிய ஸ்கிரிப்டை கையில் வைத்திருங்கள். 10 வினாடிகளில் ஒரு விவேகமான பதிலை நீங்கள் பெற முடியாவிட்டால், நிறுத்தி குழாயை சரிசெய்யவும்.
- வலை பயன்பாடுகள்: FastChat-ஐ ஒரு உள் மைக்ரோசர்வீஸ் போல நடத்துங்கள். சுகாதார சோதனைகள், மறுமுயற்சிகள், காலக்கெடு. இதைச் செய்ய உங்களுக்கு ஒரு புத்தகம் தேவையில்லை - உங்களுக்கு ஒழுக்கம் தேவை.
மாதிரிகளைத் தேர்ந்தெடுப்பது: அனைவரும் விவாதிக்கும் பகுதி
FastChat-ஐ பொறுப்புடன் எவ்வாறு பயன்படுத்துவது என்பது மாதிரி தேர்வில் தொடங்குகிறது. சில விரைவான ஹியூரிஸ்டிக்ஸ்:
- கூர்மையான பதில்களுடன் கூடிய குறுகிய வடிவ சாட்: சிறிய அறிவுறுத்தலுடன் சரிசெய்யப்பட்ட மாதிரிகள் பெரும்பாலும் தங்கள் எடையை விட அதிகமாக செயல்படுகின்றன.
- குறியீடு-கனமான தூண்டுதல்கள்: அனுமதி உரிமங்களுடன் குறியீட்டில் உண்மையில் பயிற்சி பெற்ற மாதிரிகளைப் பயன்படுத்தவும். “நெருக்கமாக போதுமானது” என்பது இல்லை.
- நீண்ட சூழல்: உங்களுக்கு 32K+ டோக்கன்கள் தேவைப்பட்டால், முதலில் உங்கள் வன்பொருளைத் திட்டமிடுங்கள். பின்னர் உங்கள் எதிர்பார்ப்புகளைக் குறைக்கவும்.
- மல்டிமாடல்: FastChat-இன் பொருந்தக்கூடிய தன்மை மாறுபடும். உங்களுக்கு படங்கள் அல்லது ஆடியோ தேவைப்பட்டால், அதை வெளிப்படையாக ஆதரிக்கும் ஒரு பணியாளர் மற்றும் மாதிரியைத் தேர்ந்தெடுக்கவும் அல்லது நீங்கள் செய்வது போல் நடிக்க வேண்டாம்.
OpenAI-இணக்கத்தன்மை பொறி
OpenAI-இணக்கமான API-இன் நல்ல பகுதி என்னவென்றால், நீங்கள் பின் முனைகளை மாற்றலாம். நல்லதல்லாத பகுதி என்னவென்றால், மக்கள் எல்லா மாதிரிகளையும் ஒரே மாதிரியாக நடத்தத் தொடங்குகிறார்கள். அவை இல்லை. ஒரே மாதிரியாகத் தோன்றும் ஒரு எண்ட்பாயிண்ட் மாதிரிகள் முழுவதும் காட்டுத்தனமாக வேறுபடும் - பகுத்தறிவு, சொற்கள், பாதுகாப்பு வடிப்பான்கள், முழு ஆளுமை. JSON ஸ்கீமா பொருந்துவதால் மட்டும் உங்கள் ஆப் மாயமாக பொருந்தாது. நீங்கள் இயக்கப் போகும் உண்மையான மாதிரிகள் மூலம் சோதிக்கவும். பின்னர் எதையும் மாற்றிய பிறகு மீண்டும் சோதிக்கவும்.
கண்காணிப்பு: நீங்கள் பார்க்க முடியாததை சரிசெய்ய முடியாது
- தூண்டுதல்கள், அளவுருக்கள் மற்றும் லேட்டன்சிகளைப் பதிவு செய்யுங்கள்.
- டோக்கன் எண்ணிக்கைகளைக் கண்காணித்து உங்கள் பட்ஜெட்டை மீறும் தூண்டுதல்களை நிராகரிக்கவும்.
- ஒரு மாதிரி டாஷ்போர்டுகளை வைத்திருங்கள். ஆம், இது ஒரு “சாட் சேவையகத்திற்கு” நிறைய. ஸ்திரத்தன்மைக்கும் அதிர்வுகளுக்கும் இடையிலான வேறுபாடும் இதுதான்.
தோல்வி முறைகள்: FastChat எங்கு திருப்பித் தாக்கும்
- பணியாளர் OOM-இன் கீழ் இறக்கிறார்: நீங்கள் துல்லியத்தில் கொஞ்சம் அதிகமாக யூகித்தீர்கள். அதை குறைக்கவோ அல்லது அதிக VRAM உடன் ஒரு GPU-ஐப் பெறவோ - எந்தவொரு சூனியமும் FP16 13B-ஐ 8GB-இல் நம்பத்தகுந்த வகையில் கசக்காது.
- கட்டுப்படுத்தி பணியாளர்களைக் கண்காணிக்கத் தவறுகிறது: நெட்வொர்க்கிங் ஹிக்கப். மறுமுயற்சிகளைச் சேர்க்கவும், மேலும் நீங்கள் ஒரு காபி கடை LAN பார்ட்டியில் இருப்பது போல் எல்லாவற்றையும் ஒரே மோசமான Wi‑Fi-இல் பயன்படுத்த வேண்டாம்.
- மோசமான லேட்டன்சி ஸ்பைக்குகள்: உங்கள் பேட்ச் மிகவும் லட்சியமானது அல்லது உங்கள் CPU டோக்கனைசேஷனை முடக்குகிறது. கோட்பாட்டிற்கு முன் சுயவிவரம்.
ஒரு வாரம் இழக்காமல் RAG-க்காக FastChat-ஐ எவ்வாறு பயன்படுத்துவது
மக்கள் FastChat-ஐ மீட்டெடுக்கும் குழாய்களில் தொடர்ந்து இணைத்து, மாதிரி மேற்கோள் காட்டுவதற்கு பதிலாக பல்லவித்தால் ஆச்சரியப்படுகிறார்கள். உதவிக்குறிப்புகள்:
- வேக்டர் DB, உட்பொதிவுகள் போன்ற வேறு இடத்தில் மீட்டெடுப்பைச் செய்து, மாதிரி குறுகிய, கட்டமைக்கப்பட்ட சூழலை ஊட்டுங்கள்.
- தூண்டுதல்களை ஒழுக்கமாக வைத்திருங்கள். “மேற்கோள்களுடன் பதிலளிக்கவும்” என்பது ஒரு மந்திரம் அல்ல; இது ஒரு ஆலோசனை. உங்களுக்கு மேற்கோள்கள் தேவைப்பட்டால், பிந்தைய செயலாக்கத்தில் கட்டமைப்பைச் செயல்படுத்தவும் அல்லது நடந்துகொள்ள பயிற்சி பெற்ற ஒரு மாதிரியைப் பயன்படுத்தவும்.
- திரும்பத் திரும்ப வரும் வினவல்களுக்கு பதில்களை கேச் செய்யவும். பெரும்பாலான “டைனமிக்” அறிவு தளங்கள் வெவ்வேறு கோணங்களில் இருந்து 80% ஒரே ஆறு கேள்விகள்.
செலவு: நேரம் என்பது விலையுயர்ந்த பகுதி
FastChat-ஐ உள்நாட்டில் இயக்குவது காகிதத்தில் மலிவானது மற்றும் கவனத்தில் விலையுயர்ந்தது. உங்கள் குறிக்கோள் கற்றுக்கொள்வது என்றால், நல்லது. உங்கள் குறிக்கோள் கப்பல் என்றால், உங்கள் நேரம் எங்கு செல்கிறது என்பதைக் கவனியுங்கள்: பேக்கேஜிங், மேம்படுத்தல்கள், கண்காணிப்பு, பின்வாங்கல்கள். நீங்கள் உண்மையில் தீர்ப்பளிக்கப்படும் வேலை “ஒரு சாட் சேவையகத்தை இயக்கியது” என்பதைத் தவிர வேறு ஏதாவது இருந்தால், ஒரு நிர்வகிக்கப்பட்ட சேவையைப் பயன்படுத்துவதில் எந்த அவமானமும் இல்லை.
Sider.AI எங்கு பொருந்துகிறது - மற்றும் எங்கு இல்லை உங்களுக்கு ஒரு விவேகமான கிளையன்ட் அனுபவம் தேவைப்பட்டால் - திரிகள், தூண்டுதல் மேலாண்மை, உள்ளூர் மற்றும் கிளவுட் மாதிரிகளுக்கு இடையில் வேகமாக மாறுதல் - Sider.AI உண்மையில் மூன்று YAML கோப்புகளை முதலில் படிக்க கெஞ்சாமல் வேலை செய்கிறது. உங்கள் GPU மூச்சுத்திணறத் தொடங்கும்போது, நீங்கள் OpenAI-இணக்கமான எண்ட்பாயிண்ட்டை (FastChat போன்றவை) சுட்டிக்காட்டலாம் அல்லது ஹோஸ்ட் செய்யப்பட்ட மாதிரிகளைப் பயன்படுத்தலாம். இது FastChat-க்கு மாற்றாக இல்லை; உங்கள் கரடுமுரடான விளிம்புகளை டெவலப்பர் அருகில் நின்று விளக்காமல் மக்கள் பயன்படுத்தக்கூடிய ஒன்றாக மாற்றும் பகுதி இது. உங்கள் முன்னுரிமை பணியாளர்கள் மற்றும் கட்டுப்படுத்திகளுடன் விளையாடுவது என்றால், FastChat-இல் தங்குங்கள். இது உண்மையான வேலையைச் செய்கிறது என்றால், உங்கள் FastChat எண்ட்பாயிண்ட்டின் மேலே இருக்கும் Sider நீங்கள் வருத்தப்பட மாட்டீர்கள். FastChat-ஐ எவ்வாறு பயன்படுத்துவது, படிப்படியாக (கை-அசைவு இல்லாமல்)
- சார்புகளை நிறுவவும்: Python, CUDA பொருந்தினால், CUDA உடன் PyTorch.
- புதிய சூழலில் FastChat-ஐ நிறுவவும்.
- கணிக்கக்கூடிய ஒரு போர்ட்டில் கட்டுப்படுத்தியைத் தொடங்கவும்.
- உண்மையில் நீங்கள் இயக்கக்கூடிய ஒரு மாதிரியைப் பதிவிறக்கவும். ஒரு டீனேஜர் முதல் காரை தேர்ந்தெடுப்பது போல் லீடர்போர்டில் மிகப்பெரிய விஷயத்துடன் தொடங்க வேண்டாம்.
- அந்த மாதிரியுடன் ஒரு பணியாளரை தொடங்கவும். VRAM பயன்பாடு மற்றும் முதல் டோக்கனை உறுதிப்படுத்தவும்.
- OpenAI-இணக்கமான API சேவையகத்தைத் தொடங்கவும்.
- உங்கள் உள்ளூர் அடிப்படை URL-இல் அமைக்கப்பட்ட உங்கள் OpenAI கிளையண்டைப் பயன்படுத்தி தெரிந்த-நல்ல தூண்டுதலுடன் சோதிக்கவும்.
- டிகோடிங் அளவுருக்களை சரிசெய்து, விவேகமான இயல்புநிலைகளை அமைத்து, அவற்றை உள்ளமைவில் பூட்டவும்.
- வேறு யாராவது தொடுவதற்கு முன்பு பதிவு, அடிப்படை auth மற்றும் விகித வரம்புகளைச் சேர்க்கவும்.
- விரும்பினால்: வலை UI-ஐத் தொடங்கவும் அல்லது Sider.AI போன்ற சிறந்த கிளையண்டை இணைக்கவும்.
பொதுவான கோட்சாக்கள் நீங்கள் சரியாக ஒரு முறை அடிப்பீர்கள் (நீங்கள் இதை படித்தால்)
- கலப்பு CUDA/PyTorch பதிப்புகள்: முதல் உண்மையான சுமை வரை அது நன்றாக இருக்கும் என்று தோன்றும். பதிப்புகளை வேண்டுமென்றே பொருத்தவும்.
- டோக்கனைசர் பொருத்தமின்மை: Hugging Face மாதிரி எதிராக டோக்கனைசர் டிரிஃப்ட் நுட்பமான முட்டாள்தனத்தை உருவாக்குகிறது. அவற்றை ஒத்திசைவாக வைத்திருங்கள்.
- அதிக நீளமான கணினி தூண்டுதல்கள்: நீங்கள் ஊக்க உரைகளுக்கு டோக்கன்களை செலுத்துகிறீர்கள். கணினி தூண்டுதலை குறுகியதாகவும், குறிப்பிட்டதாகவும், சலிப்பாகவும் ஆக்குங்கள்.
- ஸ்ட்ரீமிங்கை புறக்கணித்தல்: பதிலளிக்கக்கூடிய தன்மைக்காக ஸ்ட்ரீமிங்கை இயக்கவும். இறுதி பயனர்கள் “வேகமாக தட்டச்சு செய்யத் தொடங்குகிறது” என்பதை “ஸ்மார்ட்” உடன் ஒப்பிடுகிறார்கள், மேலும் நேர்மையாக அவர்கள் தவறாக இல்லை.
அளவிடுதல்: ஒரு பணியாளர் போதுமானதாக இல்லாதபோது
- கிடைமட்ட பணியாளர்கள்: கட்டுப்படுத்தியில் பதிவு செய்யப்பட்ட பல பணியாளர்கள். இது ராக்கெட் அறிவியல் அல்ல, ஆனால் ஒவ்வொரு இயந்திரத்திலும் மாதிரி எடைகளுக்கான ஒரு திட்டம் உங்களுக்குத் தேவை.
- கலப்பு மாதிரிகள்: குறுகிய பதில்களை சிறிய மாதிரிகளுக்கு திருப்பி விடுங்கள்; கடினமான கேள்விகளை கனமான அடிக்கும் வீரருக்கு அனுப்பவும். உங்களுக்கு ரூட்டிங் லாஜிக் தேவைப்படும்; கட்டுப்படுத்தி உங்களுக்காக உங்கள் ஆப்பை பெற்றோர் செய்யாது.
- சேமித்தல்: பொதுவான தூண்டுதல்களை நினைவில் கொள்ளுங்கள். நீங்கள் ஏற்கனவே செய்த வேலையைத் தவிர்ப்பதை விட எதுவும் வேகமாக உணரவில்லை.
இன்னும் ஒரு கட்டமைப்பிற்கு பதிலாக FastChat ஏன்?
ஏனென்றால் நீங்கள் முழு கதீட்ரலையும் கட்டாமல் கட்டுப்பாடு வேண்டும். கட்டுப்படுத்தி/பணியாளர் பிளவு விவேகமானது. OpenAI-இணக்கமான API நடைமுறைக்குரியது. அது என்ன என்பதை விட அதிகமாக இருக்க அது நடிக்கவில்லை. வெப்ப இயக்கவியலின் சட்டங்களுக்குள் உங்கள் லட்சியங்களை வைத்திருந்தால், “யோசனையிலிருந்து” “பயன்படுத்தக்கூடியது” வரை ஒரு மதியத்தில் நீங்கள் பெறலாம்.
ஆனால் உங்களை ஏமாற்றிக் கொள்ளாதீர்கள்
FastChat-ஐ நன்றாகப் பயன்படுத்துவது என்பது வர்த்தக பரிமாற்றங்களை ஏற்றுக்கொள்வதாகும்:
- நெகிழ்வுத்தன்மைக்காக நீங்கள் சில மெருகூட்டல்களை விட்டுக்கொடுப்பீர்கள்.
- நீங்கள் பதிவுகளைப் படிப்பீர்கள், அவை குறைந்தபட்சம் ஒரு முறையாவது புரிந்து கொள்ள முடியாததாக இருக்கும்.
- பெஞ்ச்மார்க் டிராகன்களை துரத்த நீங்கள் சோதிக்கப்படுவீர்கள். எதிர்க்கவும். பெரும்பாலான நடைமுறை வேலைகளுக்கு மாதிரி தேர்வு கட்டமைப்பை விட முக்கியமானது.
நீங்கள் ஐந்து விஷயங்களை மட்டும் நினைவில் வைத்திருந்தால்
- சிறியதாகத் தொடங்கவும். சிறிய மாதிரிகள், சிறிய உள்ளமைவுகள், குறைவான நகரும் பாகங்கள்.
- OpenAI-இணக்கமான API மூலம் ஆரம்பத்தில் சோதிக்கவும். அந்த பாதை வேலை செய்தால், மீதமுள்ளவை பிளம்பிங் ஆகும்.
- ஸ்திரத்தன்மையை சமரசம் செய்வதற்கு முன்பு அளவிடவும். OOM-கள் உங்களை வேகமாக ஆக்காது.
- பின்னர் நீங்கள் யூகிக்க விரும்பாத அனைத்தையும் பதிவு செய்யுங்கள்.
- ஒரு ஒழுக்கமான கிளையண்டைப் பயன்படுத்தவும். சரியான UI மோசமான மாதிரிகளைத் திறமையானதாக உணர வைக்கிறது மற்றும் நல்ல மாதிரிகள் அற்புதமாக உணர வைக்கின்றன. Sider.AI இங்கே ஒரு உறுதியான, தொந்தரவு இல்லாத அடுக்கு.
முடிவுரை: நேர்மையான டேக்
ஒரு SaaS என்று பாசாங்கு செய்யாமல் திறந்த மூல பயன்பாட்டிற்கு போதுமானதாக வளரும்போது FastChat நடக்கும். இது மட்டு, நடைமுறைக்குரியது மற்றும் உங்கள் கையை பிடிப்பதில் வெளிப்படையாக ஆர்வமற்றது. FastChat-ஐ எவ்வாறு பயன்படுத்துவது என்பது, பெரும்பாலும், நெகிழ்வுத்தன்மைக்கு முக்கியத்துவம் கொடுக்கும் எந்தவொரு கருவியையும் எவ்வாறு பயன்படுத்துவது: ஒரு தெளிவான குறிக்கோளுடன் தொடங்கவும், குறைந்தபட்ச சாத்தியமான குழாயை இணைக்கவும், அது வேலை செய்யும் போது நிறுத்தவும். மீதமுள்ளவை - டாஷ்போர்டுகள், விநியோகிக்கப்பட்ட பணியாளர்கள், மாதிரி மிருகக்காட்சி சாலை - யாராவது உங்களிடம் இயக்க நேர எண்ணைக் கேட்கும் வரை காத்திருக்கலாம்.
பெரும்பாலான மக்களுக்கு, புத்திசாலித்தனமான நடவடிக்கை என்னவென்றால், உங்கள் கவனத்தை வீணாக்காத ஒரு கிளையண்டிற்கு பின்னால் FastChat-ஐ இயக்குவது. டிங்கரர்களுக்கு, இது கூர்மையான விளிம்புகளைக் கொண்ட ஒரு விளையாட்டு மைதானம். அனைவருக்கும்: நீங்கள் அதை வேகமாக ஆக்கினால் அது வேகமானது, நீங்கள் அதை எளிமையாக வைத்திருந்தால் அது எளிமையானது, மேலும் உங்கள் மாதிரி தேர்வைப் போலவே நல்லது. அதுதான் மென்பொருள் இருக்க வேண்டும், அது அரிதாகவே இருக்கிறது.
அடிக்கடி கேட்கப்படும் கேள்விகள்
Q1:OpenAI-இணக்கமான கிளையண்ட்டுடன் FastChat-ஐ எவ்வாறு பயன்படுத்துவது?
உங்கள் கிளையண்டின் அடிப்படை URL-ஐ FastChat API சேவையகத்தில் சுட்டிக்காட்டி, அதே சாட்/நிறைவு ஸ்கீமாவை வைத்திருங்கள். எண்ட்பாயிண்ட் பொருந்துகிறது, ஆனால் மாதிரி நடத்தை இல்லை - எனவே நீங்கள் இயக்கப் போகும் உண்மையான மாதிரிக்கு எதிராக தூண்டுதல்களையும் அளவுருக்களையும் சோதிக்கவும்.
Q2:ஒற்றை GPU-இல் FastChat-ஐ இயக்க சிறந்த வழி எது?
வசதியாக இருப்பதற்கு இடமளித்து உங்கள் VRAM-க்கு பொருந்தக்கூடிய ஒரு மாதிரியைத் தேர்ந்தெடுக்கவும், சிறந்த முறையில் அளவிடப்பட்டது (4–8 பிட்). ஒரு பணியாளரைத் தொடங்கி, டோக்கன்களை ஸ்ட்ரீம் செய்து, லேட்டன்சி ஸ்பைக்குகளை நீங்கள் விரும்பவில்லை என்றால் பேட்ச் அளவை சிறியதாக வைத்திருங்கள்.
Q3:FastChat ஒரே நேரத்தில் பல மாதிரிகளைக் கையாள முடியுமா?
ஆம் - கட்டுப்படுத்தி பல பணியாளர்கள் மற்றும் மாதிரிகளைக் கண்காணிக்கும். கோரிக்கைகளை வேண்டுமென்றே திருப்பி விடுங்கள்; ‘ஒரே API’ என்பது மாதிரிகள் முழுவதும் ‘பரிமாற்றம் செய்யக்கூடிய முடிவுகள்’ என்று அர்த்தம் என்று நினைக்க வேண்டாம்.
Q4:புதிய வன்பொருளை வாங்காமல் FastChat-ஐ எவ்வாறு வேகப்படுத்துவது?
மாதிரியை அளவிடவும், KV கேச் மறுபயன்பாட்டை இயக்கவும், பதில்களை ஸ்ட்ரீம் செய்யவும் மற்றும் max_tokens-ஐ சரியாக அளவிடவும். பொதுவான தூண்டுதல்களை சேமிப்பது பெரும்பாலான நட்-ட்விடலிங்கை விட அதிகமாக உதவுகிறது.
Q5:RAG குழாய்களுக்கு FastChat நல்லதா?
இது சாட் அடுக்காக நன்றாக வேலை செய்கிறது, ஆனால் RAG தரம் சுத்தமான மீட்டெடுப்பு மற்றும் ஒழுக்கமான தூண்டுதல்களைப் பொறுத்தது. FastChat மோசமான சூழலை சரிசெய்யாது; அது மாதிரியை வேகமாக வழங்குகிறது.