Įvadas

Nuo 2023 m. lmarena.ai tapo pagrindine vieša arena, kurioje galima stebėti didelių kalbos modelių kovas, išsivysčiusi iš pradinio LMSYS Chatbot Arena eksperimento UC Berkeley. Pirmą kartą apsilankiusiems, lmarena.ai atrodo kaip tiesioginė AI pažangos akcijų birža, ir tas aiškus dizainas yra dalis jos patrauklumo. Su daugiau nei trimis milijonais lankytojų per mėnesį ir daugiau nei 100 000 balsų per dieną, lmarena.ai siūlo gyvą lyderių lentelę, kurią lemia realūs raginimai, realūs vartotojai ir realios rizikos. Platformos pažadas atrodo gaiviai demokratiškas: kiekvienas gali pateikti raginimą, peržiūrėti suporuotus modelių atsakymus ir atiduoti balsą, kuris pastūmėja Elo balus. Tačiau tas pats atvirumas kelia metodologinių klausimų. Šis vadovas paaiškina, kaip lmarena.ai sudaro savo reitingus, kodėl svarbus jos sutelktinis finansavimas ir kur ribos – konteksto langai, balsavimo šališkumas ir statistinis triukšmas – vis dar jaučiasi.

Pagrindinė informacija

lmarena.ai esmė yra paprastas A/B palyginimas. Vartotojas įveda raginimą, du anonimizuoti modelių atsakymai rodomi vienas šalia kito, o vartotojas spusteli pageidaujamą atsakymą. Po gaubtu spustelėjimas įrašomas kaip laimėjimo-pralaimėjimo rezultatas ir perkeliamas į Elo stiliaus reitingų sistemą, paveldėtą iš klasikinio šachmatų, bet pritaikytą AI modeliams. Teksto, kodo, vaizdo ir kitose srityse lmarena.ai parodo laimėjimo rodiklius, leidžiančius stebėti pokyčius diena iš dienos, todėl svetainė yra ir rezultatų suvestinė, ir laboratorija. Šis platumas pritraukia entuziastus, ieškančius „geriausios GPT‑4 alternatyvos“, ir mokslininkus, tikrinančius etaloninių dokumentų teiginius. Technologijų gigantai, tokie kaip OpenAI, Google ir Meta, tyliai stebi lentą, nes staigus nuosmukis dažnai sukelia PR ir produktų diskusijas būstinėse.

Veiklos prasme, lmarena.ai veikia su lengva struktūra. Kai paspaudžiate „pateikti“, jūsų raginimas ir balsas yra saugomi, tada per tarpinį serverį siunčiami pasirinktiems modeliams per API raktus, kuriuos pateikia platforma arba, kai kuriais atvejais, paaukoja patys modelių savininkai. Ši architektūra palaiko lmarena.ai efektyvumą. Svetainės privatumo antraštė primena vartotojams, kad pokalbiai gali būti bendrinami siekiant patobulinti viešą duomenų rinkinį, pabrėžiant tyrimų dvasią, kuri slypi projekto pagrinde. Tas duomenų rinkinys, kuriame dabar yra milijonai eilučių, maitina atvirojo kodo analizės sąsiuvinius ir skatina periodinius mokslinius straipsnius apie modelių vertinimą.

Metodologija

lmarena.ai naudoja modifikuotą Elo sistemą su logistine atnaujinimo funkcija:

ΔE = K × (Rezultatas − Tikėtinas)

kur Rezultatas yra 1 už pergalę, 0 už pralaimėjimą, 0,5 už lygiąsias, o Tikėtinas apskaičiuojamas pagal reitingus prieš rungtynes. lmarena.ai reitingų sistemoje K faktorius yra dinamiškas, mažėjantis, kai modeliai sukaupia daugiau žaidimų, kad sumažėtų nepastovumas. Pasirenkamas Bayesian įgūdžių reitingas (Glicko‑2 variantas) yra bandomas viduje, kad būtų atsižvelgta į neapibrėžtumo intervalus retose rungtynėse. Svarbu tai, kad arena suskirsto sritis, kad vaizdo modelis, pvz., Gemini 2.5 Flash, nekenktų teksto pokalbių pozicijoms. Balsai filtruojami siekiant sumažinti šlamštą: IP greičio apribojimai, captcha sprogimai srauto šuolių metu ir minimalus paskyros amžius sunkiems balsuotojams sumažina manipuliavimo riziką.

Platforma kas mėnesį skelbia neapdorotus balsų žurnalus, leidžiančius nepriklausomiems statistikams atkurti pozicijas. Tyrėjai patvirtino, kad lmarena.ai Elo balai stipriai koreliuoja (ρ≈0,83) su standartizuotais etalonais, tokiais kaip MMLU ir GSM‑Hard, bet su didesne dispersija kūrybinėse užduotyse. Ta dispersija yra iš dalies tyčinė: kūrybiniai raginimai dažnai yra subjektyvūs, o lmarena.ai priima tą subjektyvumą kaip galutinio vartotojo pasitenkinimo pakaitalą.

Analizė ir Diskusija

Privalumai. Demokratinis atranka: kadangi raginimus generuoja vartotojai, lmarena.ai užfiksuoja platų realių užklausų pasiskirstymą, nuo trivialios aritmetikos iki sudėtingo vaidmenų žaidimo, ko retai daro konservuoti testų rinkiniai. Greita iteracija: nauji modeliai pasirodo lentoje per kelias valandas po išleidimo, leidžiant bendruomenei stebėti tiesioginius reitingų kilimus, kaip tada, kai Nano Banana (Gemini 2.5 Flash) 2025 m. rugpjūtį staigiai pakilo į vaizdo lyderių lentelės viršų. Ši įvairovė dažnai prieštarauja statiniams etalonams. Skaidrumas: atvirojo kodo žurnalus ir kodą, lmarena.ai kviečia atidžiai išnagrinėti, o tai yra retas požiūris rinkoje, užtvindytoje neaiškiais rinkodaros teiginiais.

Ribos išlieka. Kūrėjai kartais pamiršta, kad lmarena.ai yra savanorių platforma. Pirma, konteksto lango riba: modeliai šiuo metu gauna raginimus, apkarpytus iki 32 tūkst. žymenų dėl kainos priežasčių, o tai baudžia pažangiausius modelius, reklamuojančius 1 M žymenų langus. Antra, balsuotojų šališkumas: auditorija linkusi į angliškai kalbančius technologijų entuziastus, todėl Elo skirtumai mandarinų ar teisinių projektų užduotyse gali būti nepakankamai įvertinti. Trečia, raginimų nenuoseklumas: kadangi kiekvienoje dvikovoje matomi skirtingi raginimai, tiesioginis atkuriamumas yra mažas. Galiausiai, Elo prielaida apie tranzityvų įgūdį gali nutrūkti, kai modeliai specializuojasi; vaizdo modelis gali pralaimėti teksto modeliui koduojant, bet laimėti atliekant daugiarūšes užduotis, tačiau Elo vis tiek privers vienmatį reitingą. Šie įspėjimai reiškia, kad lmarena.ai turėtų papildyti, o ne pakeisti, konkrečioms užduotims skirtus vertinimus.

Išvada

lmarena.ai nėra nei sidabrinė kulka, nei vien tik lyderių lentelės teatras; tai yra gyva generatyvinio AI matavimo laboratorija laukinėje gamtoje. Derindama sutelktinius balsus, skaidrius duomenis ir greitą iteraciją, arena papildo akademinius etalonus ir spaudžia pardavėjų teiginius. Politikos formuotojams lmarena.ai taip pat siūlo visuomenės suvokimo pulsą. Supratimas apie jos metodologiją ir ribas padeda praktikams skaityti reitingus su niuansais ir primena tyrėjams, kad vertinimas išlieka atvira problema, kurioje bendruomenės valdomi įrankiai atlieka esminį, nors ir netobulą, vaidmenį.

DUK

K1: Kas yra lmarena.ai ir kuo ji skiriasi nuo tradicinių etalonų? Atsakymas: lmarena.ai sutelkia modelių vertinimus per porinį vartotojų balsavimą, generuodama Elo balus, kurie atspindi realaus pasaulio raginimų įvairovę, o statiniai etalonai remiasi fiksuotais klausimų rinkiniais ir vertinimu neprisijungus.

K2: Kaip Elo reitingai apskaičiuojami lmarena.ai? Atsakymas: Kiekviena A/B dvikova atnaujina modelių reitingus naudodama logistinę Elo formulę su dinaminiu K faktoriumi, o sistema gali įtraukti Bayesian Glicko‑2 koregavimus dėl retumo.

K3: Kodėl reitingai lmarena.ai keičiasi taip dažnai? Atsakymas: Nauji modeliai į areną patenka beveik kasdien, o nuolatiniai vartotojų balsai nuolat atnaujina Elo balus; mažesni K faktoriai mažina nepastovumą laikui bėgant, bet ankstyvosios fazės natūraliai yra sklandžios.

K4: Kokius apribojimus turėtų apsvarstyti įmonės prieš pasikliaudamos lmarena.ai? Atsakymas: Konteksto lango apkarpymai, į anglų kalbą orientuotas balsuotojų šališkumas ir raginimų kintamumas gali iškreipti specializuotų ar daugiakalbių diegimų našumo signalus.

K5: Kaip galiu atsakingai prisidėti prie lmarena.ai? Atsakymas: Naudokite įvairius, sričiai aktualius raginimus, venkite draudžiamo turinio ir balsuokite nuosekliai; konstruktyvus dalyvavimas pagerina viešą duomenų rinkinį, kurį skelbia platforma.

LMArena.ai Vadovas: Chatbot Arenos Reitingai, Metodologija ir Apribojimai

Įvadas

Pagrindinė informacija

Metodologija

Analizė ir Diskusija

Išvada

DUK