Pommerman Challenge

Pommerman Challenge — соревнование и игровая среда для тестирования мультиагентных автономных систем искусственного интеллекта. В Pommerman Challenge имитируется задача противостояния команд агентов с ограниченной информацией об окружающей среде, что используется для проверки и сравнения алгоритмов машинного обучения и принятия решений реального времени.

Структура игры

В Pommerman Challenge две команды, в каждой из которых по два агента, сражаются друг с другом на поле размером 11 x 11. Каждый агент может наблюдать только часть поля, а между агентами отсутствует возможность коммуникации. Главная цель — устранить противников с помощью размещения взрывчатки, разрушения стен и сбора усиливающих бонусов, появляющихся после разрушения стен. При этом игроки должны избегать гибели. Некоторые игровые объекты могут перемещаться случайным образом или под действием других агентов.

Геймплей

Игра требует принятия решений в режиме реального времени: каждый агент должен делать ход примерно за 0,1 секунды[1].

Алгоритмы

Требования к вычислениям в реальном времени ограничивают применение ресурсоёмких методов, таких как поиск Монте-Карло по дереву решений. В каждый ход размер дерева поиска может достигать 1296, поскольку четыре агента делают выбор одновременно, из шести возможных действий для каждого. Агенты при этом учитывают взрывы, которые длятся 10 ходов. Взрывы усложняют применение методов поиска по дереву: при глубине поиска менее 10 игнорируются взрывы, а при большей глубине число вариантов становится слишком велико из-за высокого разветвления.

Одна из эффективных стратегий — комбинация поиска по дереву на ограниченную глубину с анализом детерминированного или пессимистичного сценария. Ограничение глубины сдерживает рост дерева поиска, а «пессимистичный» подход позволяет предсказать последствия на большие промежутки времени, исключая ветвление. Наилучшие действия часто определяются как те, что срабатывают даже в самых неблагоприятных сценариях, особенно когда критична безопасность. Анализ наихудших последовательностей для объектов помогает выбирать место их перемещения.

Проанализировав пессимистичные сценарии, агент может оценить жизнеспособность каждого хода, то есть количество позиций, где он сможет выжить, не встретившись с другими агентами.

Соревнования

В период 2018—2019 годов было проведено три соревнования Pommerman Challenge с постепенно меняющимися правилами.

Онлайн-турнир — FFA

Первый этап проходил как онлайн-разминка, где каждый участник управлял только одним агентом. Результаты:[2]

  • 1 место: Agent47Agent (Ичэнь Гун)
  • 2 место: aiKiller (Мартон Гёрёг)

NeurIPS 2018 — командный турнир

Первый турнир Pommerman с очным финалом. Результаты:[2]

  • 1 место: hakozakijunctions (Тошихиро Такахаси)
  • 2 место: eisenach (Мартон Гёрёг)
  • 3 место: dypm (Такаяуки Осогами)

Три лучших решения использовали онлайн-поиск по дереву.

NeurIPS 2019 — Team Radio

Второй очный турнир, в котором были улучшены возможности коммуникации между агентами в команде. Результаты:

  • 1 место: Мартон Гёрёг
  • 2 место: Пауль Ясек
  • 3 место: Ифань Чжан

Примечания