Ievads

Kopš 2023. gada lmarena ai ir kļuvusi par galveno publisko arēnu, kur vērot lielo valodu modeļu cīņas, kas izaugusi no sākotnējā LMSYS Chatbot Arena eksperimenta UC Berkeley. Pirmajiem apmeklētājiem lmarena ai atgādina AI progresa tiešraides akciju tirgus ziņojumu, un šis spilgtais dizains ir daļa no tā pievilcības. Ar vairāk nekā trīs miljoniem apmeklētāju mēnesī un vairāk nekā 100 000 balsu dienā, lmarena ai piedāvā dzīvu līderu sarakstu, ko virza reāli aicinājumi, reāli lietotāji un reālas likmes. Platformas solījums šķiet atsvaidzinoši demokrātisks: ikviens var iesniegt aicinājumu, apskatīt modeļu atbildes pārī un nodot balsi, kas ietekmē Elo rādītājus. Tomēr šī pati atvērtība rosina metodoloģiskus jautājumus. Šis ceļvedis izskaidro, kā lmarena ai veido savus reitingus, kāpēc pūļa ieguldījums ir svarīgs un kur ierobežojumi – konteksta logi, balsošanas neobjektivitāte un statistiskais troksnis – joprojām ir aktuāli.

Fons

Lmarena ai pamatā ir vienkāršs A/B salīdzinājums. Lietotājs ieraksta aicinājumu, blakus tiek parādītas divas anonimizētas modeļa atbildes, un lietotājs noklikšķina uz vēlamās atbildes. Zem virsmas klikšķis tiek reģistrēts kā uzvaras un zaudējuma iznākums un ievietots Elo stila reitingu sistēmā, kas mantota no klasiskā šaha, bet pielāgota AI modeļiem. Teksta, koda, redzes un citās jomās lmarena ai parāda uzvaru koeficientus, kas ļauj novērot izmaiņas katru dienu, padarot vietni gan par rezultātu tablo, gan par laboratoriju. Šī daudzveidība piesaista hobijistu, kas meklē "labāko GPT‑4 alternatīvu", un pētniekus, kas pārbauda etalonpapīra apgalvojumus. Tehnoloģiju giganti, piemēram, OpenAI, Google un Meta, klusi uzrauga dēli, jo pēkšņs kritums bieži vien izraisa PR un produktu diskusijas iekšienē.

Operacionāli lmarena ai darbojas ar vieglu steku. Kad nospiežat "iesniegt", jūsu aicinājums un balss tiek saglabāti, pēc tam novirzīti uz atlasītajiem modeļiem, izmantojot API atslēgas, ko nodrošina platforma vai dažos gadījumos ziedo paši modeļu īpašnieki. Šī arhitektūra uztur lmarena ai efektīvu. Vietnes privātuma reklāmkarogs atgādina lietotājiem, ka sarunas var tikt kopīgotas, lai uzlabotu publisko datu kopu, uzsverot pētniecības ētiku, kas ir projekta pamatā. Šī datu kopa, kurā tagad ir miljoniem rindu, nodrošina atvērtā koda analīzes piezīmjdatorus un veicina periodiskus pētījumus par modeļu novērtēšanu.

Metodoloģija

lmarena ai izmanto modificētu Elo sistēmu ar loģistikas atjaunināšanas funkciju:

ΔE = K × (Iznākums − Paredzētais)

kur Iznākums ir 1 par uzvaru, 0 par zaudējumu, 0,5 par neizšķirtu un Paredzētais tiek aprēķināts no pirmsspēles reitingiem. Lmarena ai reitingu dzinējā K‑faktors ir dinamisks, samazinoties, modeļiem uzkrājot vairāk spēļu, lai mazinātu nepastāvību. Iekšēji tiek testēts izvēles Bayesian prasmju reitings (Glicko‑2 variants), lai ņemtu vērā nenoteiktības intervālus par retiem mačiem. Svarīgi, ka arēna stratificē domēnus, lai attēlu modelis, piemēram, Gemini 2.5 Flash, neietekmētu teksta tērzēšanas pozīcijas. Balsis tiek filtrētas, lai mazinātu surogātpastu: IP ātruma ierobežojumi, captcha uzliesmojumi satiksmes maksimumu laikā un minimālais konta vecums lielajiem balsotājiem samazina manipulāciju risku.

Platforma katru mēnesi publicē neapstrādātus balsošanas žurnālus, ļaujot neatkarīgiem statistiķiem reproducēt pozīcijas. Pētnieki ir apstiprinājuši, ka lmarena ai Elo rādītāji ir cieši saistīti (ρ≈0,83) ar standartizētiem etaloniem, piemēram, MMLU un GSM‑Hard, bet ar lielāku dispersiju radošos uzdevumos. Šī dispersija ir daļēji apzināta: radoši aicinājumi mēdz būt subjektīvi, un lmarena ai pieņem šo subjektivitāti kā starpnieku gala lietotāja apmierinātībai.

Analīze un diskusija

Stiprās puses. Demokrātiska izlase: tā kā aicinājumus ģenerē lietotāji, lmarena ai uztver plašu reālu vaicājumu sadalījumu, no triviālas aritmētikas līdz sarežģītai lomu spēlei, ko konservētas testu komplekti reti dara. Ātra atkārtošana: jauni modeļi parādās uz dēļa dažu stundu laikā pēc izlaišanas, ļaujot kopienai vērot tiešraides reitingu kāpumus, piemēram, kad Nano Banana (Gemini 2.5 Flash) 2025. gada augustā strauji iekaroja attēlu līderu saraksta augšgalu. Šī daudzveidība bieži vien ir pretrunā ar statiskiem etaloniem. Pārredzamība: atverot žurnālus un kodu, lmarena ai aicina uz pārbaudi, kas ir reta nostāja tirgū, kas ir pārpildīts ar necaurspīdīgiem mārketinga apgalvojumiem.

Ierobežojumi joprojām pastāv. Izstrādātāji dažreiz aizmirst, ka lmarena ai ir brīvprātīgo platforma. Pirmkārt, konteksta loga griesti: modeļi pašlaik saņem aicinājumus, kas saīsināti līdz 32 k marķieriem izmaksu dēļ, kas soda pierobežas modeļus, kas reklamē 1 M marķieru logus. Otrkārt, balsotāju neobjektivitāte: auditorija ir vērsta uz angliski runājošiem tehnoloģiju entuziastiem, tāpēc Elo atšķirības mandarīnu vai juridisko dokumentu izstrādes uzdevumos var būt nepietiekami novērtētas. Treškārt, aicinājumu neatbilstība: tā kā katrā duelī tiek izmantoti dažādi aicinājumi, galvas pret galvu reproducējamība ir zema. Visbeidzot, Elo pieņēmums par pārejošu prasmi var tikt pārkāpts, kad modeļi specializējas; redzes modelis var zaudēt teksta modelim kodā, bet uzvarēt multimodālos uzdevumos, tomēr Elo joprojām piespiedīs viendimensionālu reitingu. Šie brīdinājumi nozīmē, ka lmarena ai jāpapildina, nevis jāaizstāj uzdevumiem specifiski novērtējumi.

Secinājums

lmarena ai nav ne sudraba lode, ne tikai līderu saraksta teātris; tā ir dzīva laboratorija ģeneratīvā AI mērīšanai dabā. Apvienojot pūļa ieguldījumu balsis, pārredzamus datus un ātru atkārtošanu, arēna papildina akadēmiskos etalonus un pārbauda pārdevēju apgalvojumus. Arī politikas veidotājiem lmarena ai piedāvā pulsu par sabiedrības uztveri. Izpratne par tās metodoloģiju un ierobežojumiem palīdz praktiķiem lasīt reitingus ar niansēm un atgādina pētniekiem, ka novērtēšana joprojām ir atvērta problēma, kur kopienas vadītiem rīkiem ir būtiska, ja arī nepilnīga, loma.

BUJ

1. jautājums: Kas ir lmarena ai un kā tā atšķiras no tradicionālajiem etaloniem? Atbilde: lmarena ai pūļa ieguldījumu modeļu novērtējumus, izmantojot lietotāju balsošanu pa pāriem, iegūstot Elo rādītājus, kas atspoguļo reālās pasaules aicinājumu daudzveidību, savukārt statiskie etaloni paļaujas uz fiksētiem jautājumu kopumiem un bezsaistes vērtēšanu.

2. jautājums: Kā lmarena ai tiek aprēķināti Elo reitingi? Atbilde: Katrs A/B duelis atjaunina modeļu reitingus, izmantojot loģistikas Elo formulu ar dinamisku K‑faktoru, un sistēma var iekļaut Bayesian Glicko‑2 korekcijas par retumu.

3. jautājums: Kāpēc lmarena ai reitingi tik bieži mainās? Atbilde: Jauni modeļi arēnā ienāk gandrīz katru dienu, savukārt notiekošās lietotāju balsis nepārtraukti atjaunina Elo rādītājus; mazāki K‑faktori laika gaitā samazina nepastāvību, bet agrīnās fāzes ir dabiski plūstošas.

4. jautājums: Kādi ierobežojumi uzņēmumiem jāņem vērā, pirms paļauties uz lmarena ai? Atbilde: Konteksta loga saīsināšana, uz angļu valodu vērsta balsotāju neobjektivitāte un aicinājumu mainīgums var izkropļot veiktspējas signālus specializētiem vai daudzvalodu izvietojumiem.

5. jautājums: Kā es varu atbildīgi ieguldīt lmarena ai? Atbilde: Izmantojiet daudzveidīgus, domēnam atbilstošus aicinājumus, izvairieties no neatļauta satura un balsojiet konsekventi; konstruktīva dalība uzlabo platformas publicēto publisko datu kopu.

LMArena.ai ceļvedis: Chatbot Arena reitingi, metodoloģija un ierobežojumi

Ievads

Fons

Metodoloģija

Analīze un diskusija

Secinājums

BUJ