LMArena
LMArena (ранее — Chatbot Arena) — общедоступная веб-платформа для оценки больших языковых моделей (LLM), основанная на анонимном парном сравнении с привлечением широкой аудитории. Пользователь задаёт вопрос двум модельным чат-ботам (их имена скрыты) и голосует за лучший ответ; только после этого раскрываются названия моделей. Также можно самостоятельно выбирать модели для тестирования[1][2].
Платформа LMArena популярна в индустрии искусственного интеллекта: ведущие компании предоставляют сюда свои большие языковые модели, такие как OpenAI — GPT-4o и o1, Google DeepMind — Gemini[3], и Anthropic — Claude[4]; компании используют полученные рейтинги для продвижения моделей.
Сайт также применяется для предварительного тестирования новых моделей. Так, китайская компания DeepSeek испытывала свои экспериментальные решения на LMArena за несколько месяцев до появления модели R1 в западных медиа[5]. Среди других примечательных примеров — тестирование прототипа GPT-5 от OpenAI под кодовым названием «summit» и модели Google DeepMind Gemini 2.5 Flash Image (генерация и редактирование изображений, кодовое имя «nano-banana»)[6][7].
Методология оценки больших языковых моделей на LMArena анализируется в академических публикациях: учёные выявили ряд ограничений площадки и предложили варианты совершенствования. Платформа активно участвует в экосистеме исследований ИИ, регулярно обновляя свои методики с учётом последних научных рекомендаций[8][9].
Что важно знать
| LMArena | |
|---|---|
| URL | lmarena.ai |
| Тип сайта | Искусственный интеллект |
| Регистрация | необязательная |
| Язык (-и) | английский |
| Владелец | LMSYS Org |
| Автор | Вэй-Лин Чианг, Анастасиос Н. Ангелопулос, Ион Стоика |
| Начало работы | 2023 |
| Текущий статус | активен |
| Страна | |
Примечания
Ссылки
- lmarena.ai — официальный сайт LMArena


