Вступ

З 2023 року lmarena ai стала головною публічною ареною для спостереження за протистояннями великих мовних моделей, еволюціонувавши з оригінального експерименту LMSYS Chatbot Arena в UC Berkeley. Для тих, хто відвідує lmarena ai вперше, вона виглядає як живий фондовий тікер прогресу в сфері штучного інтелекту, і цей візуальний дизайн є частиною її привабливості. З більш ніж трьома мільйонами відвідувачів на місяць і щоденними голосуваннями, що перевищують 100 000, lmarena ai пропонує живий лідерборд, керований реальними запитами, реальними користувачами та реальними ставками. Обіцянка платформи відчувається як надзвичайно демократична: будь-хто може подати запит, переглянути парні відповіді моделей і віддати голос, який впливає на показники Elo. Однак така ж відкритість викликає методологічні питання. Цей посібник розповідає про те, як lmarena ai будує свої рейтинги, чому її краудсорсинг має значення, і де обмеження – вікна контексту, упередження при голосуванні та статистичний шум – все ще даються взнаки.

Передумови

Ядром lmarena ai є просте A/B порівняння. Користувач вводить запит, дві анонімні відповіді моделі відображаються поруч, і користувач натискає на кращу відповідь. Під капотом клік записується як результат виграшу-програшу та передається в систему рейтингу в стилі Elo, успадковану від класичних шахів, але налаштовану для моделей штучного інтелекту. У різних сферах, таких як текст, код, зір та інше, lmarena ai показує коефіцієнти виграшу, які дозволяють вам щодня спостерігати за змінами, роблячи сайт одночасно табло та лабораторією. Така широта приваблює як любителів, які шукають «найкращу альтернативу GPT-4», так і дослідників, які перевіряють обґрунтованість заяв у наукових статтях. Технологічні гіганти, такі як OpenAI, Google і Meta, тихо стежать за дошкою, оскільки раптове падіння часто викликає PR і продуктові дискусії всередині штаб-квартири.

В операційному плані lmarena ai працює на легкому стеку. Коли ви натискаєте «submit», ваш запит і голос зберігаються, а потім проксуються до вибраних моделей через API-ключі, надані платформою або, в деяких випадках, пожертвувані самими власниками моделей. Ця архітектура робить lmarena ai економною. Банер конфіденційності сайту нагадує користувачам, що розмови можуть бути передані для покращення загальнодоступного набору даних, підкреслюючи дослідницький дух, який лежить в основі проєкту. Цей набір даних, який зараз містить мільйони рядків, живить блокноти аналізу з відкритим кодом і підживлює періодичні наукові статті з оцінки моделей.

Методологія

lmarena ai використовує модифіковану систему Elo з логістичною функцією оновлення:

ΔE = K × (Outcome − Expected)

де Outcome дорівнює 1 для виграшу, 0 для програшу, 0,5 для нічиєї, а Expected обчислюється на основі рейтингів перед матчем. У межах рейтингової системи lmarena ai K-фактор є динамічним, зменшуючись, коли моделі накопичують більше ігор, щоб зменшити волатильність. Додатковий байєсівський рейтинг навичок (варіант Glicko-2) тестується внутрішньо для врахування інтервалів невизначеності в рідкісних матчах. Важливо, що арена розшаровує домени, щоб модель зображень, як-от Gemini 2.5 Flash, не впливала на текстові чат-позиції. Голоси фільтруються для пом'якшення спаму: обмеження швидкості IP, сплески captcha під час пікових навантажень трафіку та мінімальний вік облікового запису для активних виборців – все це зменшує ризик маніпуляцій.

Платформа щомісяця публікує необроблені журнали голосування, дозволяючи незалежним статистикам відтворювати рейтинги. Дослідники підтвердили, що показники Elo lmarena ai сильно корелюють (ρ≈0,83) зі стандартизованими тестами, такими як MMLU та GSM-Hard, але з більшою дисперсією у творчих завданнях. Ця дисперсія частково навмисна: творчі запити, як правило, є суб'єктивними, і lmarena ai сприймає цю суб'єктивність як показник задоволеності кінцевого користувача.

Аналіз та обговорення

Переваги. Демократичний відбір: оскільки запити генеруються користувачами, lmarena ai фіксує широкий розподіл реальних запитів, від тривіальної арифметики до детальної рольової гри, чого рідко роблять готові набори тестів. Швидка ітерація: нові моделі з'являються на дошці протягом кількох годин після випуску, дозволяючи спільноті спостерігати за живим зростанням рейтингу, як, наприклад, коли Nano Banana (Gemini 2.5 Flash) блискавично вийшла на перше місце в таблиці лідерів зображень у серпні 2025 року. Це різноманіття часто суперечить статичним тестам. Прозорість: відкриваючи журнали та код, lmarena ai заохочує до ретельного вивчення, що є рідкісною позицією на ринку, переповненому непрозорими маркетинговими заявами.

Обмеження залишаються. Розробники іноді забувають, що lmarena ai — це волонтерська платформа. По-перше, обмеження контекстного вікна: моделі наразі отримують запити, обрізані до 32 тис. токенів із міркувань вартості, що карає передові моделі, які рекламують вікна в 1 млн токенів. По-друге, упередження виборців: аудиторія схиляється до англомовних ентузіастів технологій, тому прогалини Elo в завданнях з китайської мови або складання юридичних документів можуть бути занижені. По-третє, непослідовність запитів: оскільки в кожній дуелі використовуються різні запити, відтворюваність віч-на-віч низька. Нарешті, припущення Elo про транзитивні навички може порушуватися, коли моделі спеціалізуються; модель зору може програти текстовій моделі в коді, але виграти в мультимодальних завданнях, але Elo все одно змусить до одновимірного ранжування. Ці застереження означають, що lmarena ai має доповнювати, а не замінювати оцінки, специфічні для завдань.

Висновок

lmarena ai — це не срібна куля і не просто театралізований лідерборд; це жива лабораторія для вимірювання генеративного ШІ в дикій природі. Поєднуючи краудсорсингові голоси, прозорі дані та швидку ітерацію, арена доповнює академічні тести та перевіряє заяви постачальників. Для політиків lmarena ai також пропонує пульс суспільного сприйняття. Розуміння її методології та обмежень допомагає практикам читати рейтинги з нюансами та нагадує дослідникам, що оцінка залишається відкритою проблемою, де інструменти, керовані спільнотою, відіграють важливу, хоч і недосконалу, роль.

FAQ

Q1: Що таке lmarena ai і чим вона відрізняється від традиційних тестів? Відповідь: lmarena ai проводить краудсорсингову оцінку моделей за допомогою парного голосування користувачів, створюючи показники Elo, які відображають різноманітність запитів у реальному світі, тоді як статичні тести покладаються на фіксовані набори питань і офлайн-оцінювання.

Q2: Як розраховуються рейтинги Elo на lmarena ai? Відповідь: Кожна A/B дуель оновлює рейтинги моделей за допомогою логістичної формули Elo з динамічним K-фактором, і система може включати байєсівські коригування Glicko-2 для розрідженості.

Q3: Чому рейтинги на lmarena ai так часто змінюються? Відповідь: Нові моделі виходять на арену майже щодня, а поточні голосування користувачів постійно оновлюють показники Elo; менші K-фактори з часом зменшують волатильність, але ранні фази є природно плинними.

Q4: Які обмеження слід враховувати підприємствам, перш ніж покладатися на lmarena ai? Відповідь: Обрізання контекстного вікна, упередження виборців, орієнтованих на англійську мову, і мінливість запитів можуть спотворювати сигнали продуктивності для спеціалізованих або багатомовних розгортань.

Q5: Як я можу відповідально робити внесок у lmarena ai? Відповідь: Використовуйте різноманітні, релевантні для домену запити, уникайте забороненого вмісту та голосуйте послідовно; конструктивна участь покращує загальнодоступний набір даних, опублікований платформою.

Посібник LMArena.ai: Рейтинги Chatbot Arena, методологія та обмеження

Вступ

Передумови

Методологія

Аналіз та обговорення

Висновок

FAQ