அறிமுகம்
2023 முதல் lmarena ai பெரிய மொழி மாதிரி மோதல்களைப் பார்ப்பதற்கான பொது அரங்கமாக மாறியுள்ளது, இது UC Berkeley இல் உள்ள அசல் LMSYS சாட்போட் அரீனா சோதனையிலிருந்து உருவானது. முதல் முறையாக பார்வையிடுபவர்களுக்கு, lmarena ai என்பது AI முன்னேற்றத்தின் நேரடி பங்குச் சந்தை டிக்கர் போலத் தோன்றுகிறது, மேலும் அந்த உள்ளார்ந்த வடிவமைப்பு அதன் கவர்ச்சியின் ஒரு பகுதியாகும். மூன்று மில்லியனுக்கும் அதிகமான மாதாந்திர பார்வையாளர்கள் மற்றும் 100 000 ஐ தாண்டிய தினசரி வாக்குகளுடன், lmarena ai உண்மையான தூண்டுதல்கள், உண்மையான பயனர்கள் மற்றும் உண்மையான பங்குகளால் இயக்கப்படும் ஒரு வாழும் லீடர்போர்டை வழங்குகிறது. இந்த தளத்தின் வாக்குறுதி புத்துணர்ச்சியூட்டும் ஜனநாயகமாக உணர்கிறது: யார் வேண்டுமானாலும் ஒரு தூண்டுதலைச் சமர்ப்பிக்கலாம், இணைக்கப்பட்ட மாதிரி பதில்களைப் பார்க்கலாம் மற்றும் Elo மதிப்பெண்களைத் தூண்டும் ஒரு வாக்கைப் பதிவு செய்யலாம். இருப்பினும் அதே திறந்த தன்மை வழிமுறை கேள்விகளை அழைக்கிறது. இந்த வழிகாட்டி lmarena ai அதன் தரவரிசைகளை எவ்வாறு உருவாக்குகிறது, அதன் கூட்ட நெரிசல் ஏன் முக்கியமானது, மற்றும் வரம்புகள் - சூழல் சாளரங்கள், வாக்களிப்பு சார்பு மற்றும் புள்ளிவிவர இரைச்சல் - இன்னும் எங்கே கடிக்கின்றன என்பதைப் பற்றி விளக்குகிறது.
பின்புலம்
lmarena ai இன் கர்னல் எளிய A/B ஒப்பீடு ஆகும். ஒரு பயனர் ஒரு தூண்டுதலைத் தட்டச்சு செய்கிறார், இரண்டு அநாமதேய மாதிரி பதில்கள் பக்கத்தில் காட்டப்படும், மேலும் பயனர் விரும்பிய பதிலைக் கிளிக் செய்கிறார். உள் அமைப்பில், கிளிக்கானது வெற்றி-இழப்பு விளைவாகப் பதிவு செய்யப்பட்டு, செஸ்ஸிலிருந்து பெறப்பட்ட ஆனால் AI மாதிரிகளுக்காக மாற்றியமைக்கப்பட்ட Elo-பாணி மதிப்பீட்டு அமைப்புக்குள் தள்ளப்படுகிறது. உரை, குறியீடு, பார்வை மற்றும் பலவற்றில், lmarena ai வெற்றி விகிதங்களை வெளிப்படுத்துகிறது, இது நாள் தோறும் மாற்றங்களை உங்கள் கண்ணால் பார்க்க அனுமதிக்கிறது, இது தளத்தை ஸ்கோர்போர்டு மற்றும் ஆய்வகமாக ஆக்குகிறது. அந்த அகலம் "சிறந்த GPT‑4 மாற்றீட்டை" வேட்டையாடும் பொழுது போக்கு ஆர்வலர்களையும், பெஞ்ச்மார்க் பேப்பர் கூற்றுக்களைச் சரிபார்க்கும் ஆராய்ச்சியாளர்களையும் ஈர்க்கிறது. OpenAI, Google மற்றும் Meta போன்ற தொழில்நுட்ப ஜாம்பவான்கள் அமைதியாக போர்டைக் கண்காணிக்கின்றன, ஏனெனில் திடீர் சரிவு பெரும்பாலும் தலைமையகத்திற்குள் PR மற்றும் தயாரிப்பு விவாதங்களைத் தூண்டுகிறது.
செயல்பாட்டு ரீதியாக, lmarena ai ஒரு இலகுரக அடுக்கு முறையில் இயங்குகிறது. நீங்கள் "சமர்ப்பி" என்பதை அழுத்தும்போது, உங்கள் தூண்டுதல் மற்றும் வாக்கு சேமிக்கப்படும், பின்னர் தளம் வழங்கிய API விசைகள் மூலம் அல்லது சில சந்தர்ப்பங்களில், மாதிரி உரிமையாளர்களே நன்கொடையாக வழங்கிய விசைகள் மூலம் தேர்ந்தெடுக்கப்பட்ட மாதிரிகளுக்குப் பதிலி அனுப்பப்படும். இந்த கட்டமைப்பு lmarena ai ஐ மெலிதாக வைத்திருக்கிறது. உரையாடல்கள் பொது தரவுத்தொகுப்பை மேம்படுத்தப் பகிரப்படலாம் என்று தளத்தின் தனியுரிமை பேனர் பயனர்களுக்கு நினைவூட்டுகிறது, இது திட்டத்தின் அடிப்படையான ஆராய்ச்சி நெறிமுறையை அடிக்கோடிட்டுக் காட்டுகிறது. இப்போது மில்லியன் கணக்கான வரிசைகளைக் கொண்ட அந்த தரவுத்தொகுப்பு, திறந்த மூல பகுப்பாய்வு நோட்புக்குகளுக்கு உணவளிக்கிறது மற்றும் மாதிரி மதிப்பீட்டில் அவ்வப்போது ஆராய்ச்சி கட்டுரைகளுக்கு எரிபொருளாகிறது.
வழிமுறை
lmarena ai ஒரு மாற்றியமைக்கப்பட்ட Elo முறையை ஒரு லாஜிஸ்டிக் புதுப்பிப்பு செயல்பாட்டுடன் பயன்படுத்துகிறது:
ΔE = K × (Outcome − Expected)
இங்கு Outcome என்பது வெற்றிக்கு 1, இழப்புக்கு 0, சமநிலைக்கு 0.5, மற்றும் Expected என்பது போட்டிக்கு முந்தைய மதிப்பீடுகளிலிருந்து கணக்கிடப்படுகிறது. lmarena ai இன் மதிப்பீட்டு இயந்திரத்திற்குள், K-காரணி மாறும் தன்மை கொண்டது, மாதிரிகள் அதிக விளையாட்டுகளைக் குவிப்பதால், நிலையற்ற தன்மையைக் குறைக்கச் சுருங்குகிறது. ஒரு விருப்பமான Bayesian திறன் மதிப்பீடு (ஒரு Glicko‑2 மாறுபாடு) இடைவெளியில்லாத போட்டிகளில் நிச்சயமற்ற இடைவெளிகளைக் கணக்கிட உள்நாட்டில் சோதிக்கப்படுகிறது. முக்கியமாக, அரீனா களங்களை அடுக்குப்படுத்துகிறது, இதனால் Gemini 2.5 Flash போன்ற ஒரு பட மாதிரி உரை-சாட் தரவரிசைகளை விழுங்காது. ஸ்பேமைக் குறைக்க வாக்குகளுக்கு வடிகட்டி போடப்படுகிறது: IP விகித வரம்புகள், போக்குவரத்து அதிகரிப்பின் போது காப்ட்சா வெடிப்புகள் மற்றும் அதிக வாக்களிப்பவர்களுக்கான குறைந்தபட்ச கணக்கு வயது ஆகியவை கையாளுதல் அபாயத்தைக் குறைக்கின்றன.
தளம் மூல வாக்கு பதிவுகளை மாதந்தோறும் வெளியிடுகிறது, இது சுயாதீன புள்ளிவிவரவியலாளர்களுக்கு தரவரிசையை மீண்டும் உருவாக்க அனுமதிக்கிறது. lmarena ai Elo மதிப்பெண்கள் MMLU மற்றும் GSM‑Hard போன்ற தரப்படுத்தப்பட்ட அளவுகோல்களுடன் வலுவாக தொடர்பு கொண்டுள்ளன (ρ≈0.83) என்று ஆராய்ச்சியாளர்கள் உறுதிப்படுத்தியுள்ளனர், ஆனால் ஆக்கப்பூர்வமான பணிகளில் அதிக மாறுபாடு உள்ளது. அந்த மாறுபாடு ஓரளவு வேண்டுமென்றே: ஆக்கப்பூர்வமான தூண்டுதல்கள் அகநிலைத்தன்மை கொண்டவை, மேலும் lmarena ai அந்த அகநிலைத்தன்மையை இறுதிப் பயனர் திருப்திக்கான ஒரு ப்ராக்ஸியாக ஏற்றுக்கொள்கிறது.
பகுப்பாய்வு மற்றும் விவாதம்
பலங்கள். ஜனநாயக மாதிரி: தூண்டுதல்கள் பயனர் உருவாக்கியவை என்பதால், lmarena ai அற்பமான எண்கணிதம் முதல் விரிவான பாத்திர நடிப்பு வரை, உண்மையான வினவல்களின் காட்டு விநியோகத்தைப் பிடிக்கிறது, இது பதிவு செய்யப்பட்ட சோதனை தொகுப்புகள் அரிதாகவே செய்கின்றன. விரைவான மறு செய்கை: புதிய மாதிரிகள் வெளியான சில மணி நேரங்களில் போர்டில் தோன்றும், இது சமூகத்தை நேரடி மதிப்பீட்டு ஏற்றங்களைப் பார்க்க அனுமதிக்கிறது, ஆகஸ்ட் 2025 இல் Nano Banana (Gemini 2.5 Flash) பட லீடர்போர்டின் உச்சிக்கு வந்தபோது நடந்தது. இந்த பன்முகத்தன்மை பெரும்பாலும் நிலையான அளவுகோல்களுக்கு முரணானது. வெளிப்படைத்தன்மை: பதிவுகள் மற்றும் குறியீட்டைத் திறந்த மூலமாக்குவதன் மூலம், lmarena ai ஆய்வுக்கு அழைப்பு விடுக்கிறது, இது ஒளிபுகா சந்தைப்படுத்தல் கூற்றுக்களால் நிரம்பிய சந்தையில் ஒரு அரிதான நிலைப்பாடு.
வரம்புகள் இன்னும் உள்ளன. lmarena ai ஒரு தன்னார்வ தளம் என்பதை டெவலப்பர்கள் சில நேரங்களில் மறந்துவிடுகிறார்கள். முதலாவதாக, சூழல்-சாளர உச்சவரம்பு: மாதிரிகள் தற்போது செலவுக் காரணங்களுக்காக 32 k டோக்கன்களாக வெட்டப்பட்ட தூண்டுதல்களைப் பெறுகின்றன, இது 1 M-டோக்கன் சாளரங்களை விளம்பரப்படுத்தும் எல்லைப்புற மாதிரிகளுக்குத் தண்டனை விதிக்கிறது. இரண்டாவதாக, வாக்களிப்பு சார்பு: பார்வையாளர்கள் ஆங்கிலம் பேசும் தொழில்நுட்ப ஆர்வலர்களை நோக்கிச் சாய்கிறார்கள், எனவே மாண்டரின் அல்லது சட்ட வரைவு பணிகளில் உள்ள Elo இடைவெளிகள் குறைவாக இருக்கலாம். மூன்றாவதாக, தூண்டுதல் முரண்பாடு: ஒவ்வொரு சண்டையும் வெவ்வேறு தூண்டுதல்களைக் காண்பதால், நேருக்கு நேர் இனப்பெருக்கம் குறைவாக உள்ளது. இறுதியாக, கடத்தும் திறன் பற்றிய Elo அனுமானம் மாதிரிகள் சிறப்புறும்போது உடைந்து போகலாம்; ஒரு பார்வை மாதிரி குறியீட்டில் ஒரு உரை மாதிரிக்கு இழக்க நேரிடலாம், ஆனால் மல்டிமாடல் பணிகளில் வெற்றி பெறலாம், ஆனால் Elo இன்னும் ஒரு பரிமாண தரவரிசையை கட்டாயப்படுத்தும். இந்த எச்சரிக்கைகள் lmarena ai பணி-குறிப்பிட்ட மதிப்பீடுகளை நிரப்ப வேண்டும், மாற்றக்கூடாது என்று அர்த்தம்.
முடிவுரை
lmarena ai என்பது ஒரு வெள்ளி குண்டு அல்ல, வெறும் லீடர்போர்டு நாடகமும் அல்ல; இது காட்டுமிராண்டித்தனமான AI ஐ அளவிடுவதற்கான ஒரு வாழும் ஆய்வகம். கூட்ட நெரிசலான வாக்குகள், வெளிப்படையான தரவு மற்றும் விரைவான மறு செய்கை ஆகியவற்றை இணைப்பதன் மூலம், அரீனா கல்வி அளவுகோல்களை நிரப்புகிறது மற்றும் விற்பனையாளர் கூற்றுக்களை அழுத்த-சோதனை செய்கிறது. கொள்கை வகுப்பாளர்களுக்கும், lmarena ai பொது கருத்து பற்றிய ஒரு துடிப்பை வழங்குகிறது. அதன் வழிமுறை மற்றும் வரம்புகளைப் புரிந்துகொள்வது பயிற்சியாளர்கள் தரவரிசைகளை நுணுக்கத்துடன் படிக்க உதவுகிறது மற்றும் மதிப்பீடு என்பது ஒரு திறந்த பிரச்சினை என்பதை ஆராய்ச்சியாளர்களுக்கு நினைவூட்டுகிறது, அங்கு சமூகம் சார்ந்த கருவிகள் ஒரு அத்தியாவசியமான, குறைபாடுள்ள பங்கைக் கொண்டுள்ளன.
FAQ
Q1: lmarena ai என்றால் என்ன, அது பாரம்பரிய அளவுகோல்களிலிருந்து எவ்வாறு வேறுபடுகிறது?
பதில்: lmarena ai ஜோடி வாரியான பயனர் வாக்களிப்பு மூலம் மாதிரி மதிப்பீடுகளைக் கூட்ட நெரிசலாக்குகிறது, இது உண்மையான உலக தூண்டுதல் பன்முகத்தன்மையைப் பிரதிபலிக்கும் Elo மதிப்பெண்களை உருவாக்குகிறது, அதே நேரத்தில் நிலையான அளவுகோல்கள் நிலையான கேள்வித் தொகுப்புகள் மற்றும் ஆஃப்லைன் தரப்படுத்தலை நம்பியுள்ளன.
Q2: lmarena ai இல் Elo மதிப்பீடுகள் எவ்வாறு கணக்கிடப்படுகின்றன?
பதில்: ஒவ்வொரு A/B சண்டையும் மாதிரிகளின் மதிப்பீடுகளை ஒரு மாறும் K‑காரணியுடன் கூடிய லாஜிஸ்டிக் Elo சூத்திரத்தைப் பயன்படுத்தி புதுப்பிக்கிறது, மேலும் இந்த அமைப்பு இடைவெளிக்கு Bayesian Glicko‑2 சரிசெய்தல்களை இணைக்கலாம்.
Q3: lmarena ai இல் தரவரிசைகள் ஏன் அடிக்கடி மாறுகின்றன?
பதில்: புதிய மாதிரிகள் கிட்டத்தட்ட தினமும் அரீனாவில் நுழைகின்றன, அதே நேரத்தில் நடந்து கொண்டிருக்கும் பயனர் வாக்குகள் தொடர்ந்து Elo மதிப்பெண்களைப் புதுப்பிக்கின்றன; சிறிய K‑காரணிகள் காலப்போக்கில் நிலையற்ற தன்மையைக் குறைக்கின்றன, ஆனால் ஆரம்ப கட்டங்கள் இயற்கையாகவே திரவமாக இருக்கும்.
Q4: நிறுவனங்கள் lmarena ai ஐ நம்புவதற்கு முன்பு என்ன வரம்புகளைக் கருத்தில் கொள்ள வேண்டும்?
பதில்: சூழல்-சாளர வெட்டுதல், ஆங்கிலம் சார்ந்த வாக்களிப்பு சார்பு மற்றும் தூண்டுதல் மாறுபாடு ஆகியவை சிறப்பு அல்லது பன்மொழி வரிசைப்படுத்தல்களுக்கான செயல்திறன் சமிக்ஞைகளை சிதைக்கலாம்.
Q5: lmarena ai க்கு நான் எவ்வாறு பொறுப்புடன் பங்களிக்க முடியும்?
பதில்: மாறுபட்ட, களம் தொடர்பான தூண்டுதல்களைப் பயன்படுத்தவும், அனுமதிக்கப்படாத உள்ளடக்கத்தைத் தவிர்க்கவும், தொடர்ந்து வாக்களிக்கவும்; ஆக்கபூர்வமான பங்கேற்பு தளம் வெளியிட்ட பொது தரவுத்தொகுப்பை மேம்படுத்துகிறது.