Выбор действия

Выбор действия (англ. action selection) — концепция в информатике, описывающая одну из основных проблем интеллектуальных систем: определение того, какое действие совершить следующим. В области искусственного интеллекта и вычислительной когнитивной науки задача выбора действия обычно связывается с интеллектуальными агентами и аниматами — искусственными системами, проявляющими сложное поведение в рамках агентной среды. Термин также иногда используется в этологии или при изучении поведения животных.

Одной из проблем при анализе выбора действия является определение уровня абстракции, на котором задаётся «действие». На самом базовом уровне элементарным действием может быть как «сокращение мышечной клетки», так и «провоцирование войны». Обычно для любого механизма выбора действия набор возможных действий заранее определён и фиксирован.

Большинство исследователей в этой области предъявляют к создаваемым агентам серьёзные требования:

  • Агенту требуется выбирать действия в динамической и непредсказуемой среде;
  • Агенты действуют в условиях реального времени, поэтому решения должны приниматься своевременно;
  • Агенты обычно проектируются для выполнения различных задач, которые могут конфликтовать между собой при распределении ресурсов (например, может ли агент одновременно тушить пожар и приносить кофе?);
  • Окружающая среда может включать людей, которые могут осложнять задачу агенту (как сознательно, так и невольно);
  • Зачастую агенты предназначены для моделирования животных или человека, а поведение животных и людей крайне сложное.

По этим причинам задача выбора действия является нетривиальной и остаётся предметом интенсивных исследований.

Особенности проблемы выбора действия

Ключевая сложность задачи выбора действия — сложность (complexity). Поскольку любое вычисление требует затрат времени и памяти, агенты не могут рассматривать все возможные варианты действий в каждый момент времени. Следовательно, агент должен иметь внутренние смещения и как-то ограничивать область поиска. Для искусственного интеллекта основной вопрос — «каким образом лучше всего ограничивать поиск?». В биологии и этологии вопросы формулируются как «каким образом различные животные ограничивают выбор возможных действий? Используют ли все животные одинаковые подходы? Почему выбирают именно их?».

Один из фундаментальных вопросов: существует ли задача выбора действия как таковая для агента, либо это просто описание эмерджентного свойства поведения интеллектуального агента. Однако, если рассматривать задачу построения искусственного агента, становится очевидно, что должен существовать некоторый механизм выбора действия. Такой механизм может быть сильно распределённым (как, например, у распределённых систем — колонии насекомых или слизистых грибов) либо специализированным модулем.

Механизм выбора действия (МВД, англ. action selection mechanism, ASM) определяет не только внешние действия агента, но также управляет его перцептивным вниманием и обновляет память. Эти эгоцентрические действия могут изменять основные поведенческие возможности агента — в частности, обновление памяти делает возможным машинное обучение. В идеале механизм выбора действия должен уметь учиться и адаптироваться, однако существует множество проблем комбинаторной сложности и вычислительной разрешимости, которые вынуждают ограничивать пространство поиска при обучении.

В искусственном интеллекте механизм выбора действия также рассматривают как разновидность архитектуры агента или её существенную часть.

Механизмы искусственного интеллекта

Механизмы выбора действия в искусственных системах обычно подразделяются на несколько категорий: символьные системы («классическое» планирование), распределённые решения и реактивные или динамические системы планирования. Некоторые подходы не укладываются ни в одну из этих категорий. Другие в первую очередь представляют собой научные модели, а не практические ИИ-системы; они описаны в следующем разделе.

Символьные подходы

В ранней истории ИИ предполагалось, что лучший способ выбора действия для агента — вычислить (вероятно) оптимальный план, а затем его выполнить. Это привело к формулировке гипотезы физической символьной системы, утверждающей, что агент, способный оперировать символами, является необходимым и достаточным условием интеллекта. Многие программные агенты по-прежнему используют такой подход к выбору действия. Метод обычно требует описания всех сенсорных данных, состояния мира, всех возможных действий и целей в форме предикатной логики. Критики отмечают, что этот подход слишком медленный для планирования в реальном времени и что, несмотря на формальные доказательства, он в реальности редко выдаёт оптимальные планы из‑за неизбежных ошибок абстрагирования реальности к логическим описаниям.

Сатисфицирование (англ. satisficing) — стратегия принятия решений, при которой цель состоит в поиске достаточного по критериям решения вместо оптимального; такая стратегия может быть практически оптимальной, если учесть издержки самого процесса поиска и сбора информации.

Архитектуры, основанные на целях — в таких символических системах поведение агента описывается набором целей. Каждая цель достигается с помощью процесса или активности, описанных заранее заданным планом. Задача агента — выбрать, какой процесс реализовать для достижения цели. План может раскладываться на подцели (рекурсивно). Технически такие планы строятся на правилах-условиях. Эти архитектуры могут быть реактивными или гибридными. Классические примеры: реализации архитектуры желаний, верований и намерений (BDI), такие как JAM или IVE.

Распределённые подходы

В отличие от символьных систем, распределённые механизмы выбора действия не предполагают наличия единого «блока», принимающего решение о следующем действии. В идеализированном случае множество модулей работают параллельно и выбирают лучшее действие на основе локальной экспертизы. Ожидается, что согласованность поведения возникает как результат грамотного проектирования взаимодействия между модулями. Такой подход часто вдохновлён исследованиями искусственных нейронных сетей. На практике почти всегда присутствует централизованный элемент, определяющий, какой модуль наиболее активен или значим (salience). Существуют свидетельства того, что и реальные биологические мозги используют исполнительные системы, оценивающие, какой из конкурирующих модулей заслуживает большего внимания или, точнее, чьи действия должны быть дезингибированы.

  • ASMO — архитектура, основанная на внимании, разработанная Мэри-Энн Уильямс, Бенджамином Джонстоном и их аспирантом Рони Новианто[1]. Архитектура координирует множество модульных распределённых процессов, которые используют собственные представления и методы для восприятия среды, обработки информации, планирования и предложения действий.
  • Разнообразные варианты архитектур типа «победитель получает всё», когда выбранное действие полностью захватывает управление исполняющей системой.
  • Распространение активации, включая Maes Nets (ANA).
  • Extended Rosenblatt & Payton — архитектура с распространением активации, предложенная Тоби Тайреллом в 1993 году. Поведение агента реализовано в виде иерархической коннекционистской сети, названной free-flow hierarchy. Недавно использована, например, de Sevin & Thalmann (2005), Kadleček (2001).
  • Бихевиористский ИИ — реакция на медленную работу роботов с символическим выбором действия. Здесь отдельные модули реагируют на определённые стимулы и генерируют собственные ответы, зачастую с возможностью подавления или мониторинга друг друга — в оригинальной архитектуре субсумпции это разные уровни.
  • Creatures — виртуальные питомцы из одноимённой компьютерной игры, чьё поведение определяется трёхслойной адаптивной нейронной сетью. Механизм реактивный: на каждом такте сеть определяет требуемое действие питомца. См. подробное описание у Grand и др. (1997) и на The Creatures Developer Resources, а также на Creatures Wiki.

Динамическое планирование

Поскольку реализовать чисто распределённые системы сложно, многие исследователи используют явно заданные планы для определения приоритетов.

Динамические или реактивные методы планирования вычисляют только следующее действие на каждом такте на основе текущего контекста и заранее заданных планов. В отличие от классического планирования, такие подходы не страдают от комбинаторного взрыва, однако часто считаются недостаточно гибкими для сильного ИИ, поскольку планы фиксированы. В то же время даже естественный интеллект в отдельных задачах демонстрирует жёсткость и ограниченность.

Примеры механизмов динамического планирования:

  • Конечные автоматы — реактивные архитектуры, обычно применяемые для агентов компьютерных игр, особенно ботов в шутерах от первого лица или виртуальных актёров в фильмах. Автоматы часто иерархичны. Практические примеры — ИИ в Halo 2 (Isla, 2005) и магистерская работа по ботам Quake III (van Waveren, 2001); для кино — Softimage.
  • Другие структурированные реактивные планы фигурируют как аналоги обычных планов, но с возможностью представления иерархии и последовательности действий. Некоторые системы, например «acts» системы PRS, поддерживают частичное планирование. Многие агентные архитектуры середины 1990-х реализовывали такие планы в качестве «среднего слоя», связывавшего низкоуровневые модули поведения с высокоуровневыми планировщиками. Несмотря на заявленную возможность взаимодействовать с автоматическими планировщиками, большинство таких планов разрабатываются вручную (Bryson, 2001, гл. 3). Среди примеров — система RAP и телереактивные планы Н. Нильссона. Системы PRS, RAP и TRP более не поддерживаются; единственный активный (на 2006) потомок — Parallel-rooted Ordered Slip-stack Hierarchical (POSH), часть Behaviour Oriented Design Джоанны Брайсон.

Для повышения гибкости динамического планирования иногда применяются гибридные методы: в такие системы интегрируют классическое ИИ-планирование, которое при наличии свободных ресурсов обновляет библиотеку реактивных планов. Важно, чтобы у агента всегда был под рукой действующий план («anytime algorithm»).

Другие подходы

  • CogniTAO — механизм принятия решений, основанный на архитектуре BDI и поддерживающий коллективную работу.
  • Soarсимволическая когнитивная архитектура, основанная на правилах «условие-действие» (продукционная система). Набор инструментов Soar позволяет строить как реактивных, так и планирующих агентов.
  • Excalibur — исследовательский проект (Александр Нарейек): агенты с планированием в любой момент времени для видеоигр; архитектура построена на структурном разрешении ограничений.
  • ACT-R — архитектура, схожая с Soar и использующая байесовский механизм для приоритизации правил.
  • ABL/Hap
  • Нечёткие архитектуры. Нечёткая логика позволяет формировать более «плавное» поведение, чем архитектуры с булевыми правилами типа Soar или POSH; по своей природе архитектуры в основном реактивны и символичны.

Теории выбора действия в природе

Многие динамические модели искусственного выбора действия были вдохновлены этологическими исследованиями. В частности, Конрад Лоренц и Нико Тинберген предложили концепцию врождённого механизма высвобождения для объяснения инстинктивного поведения (фиксированный комплекс действий). Под влиянием идей Уильяма Макдугалла Лоренц развил модель психогидравлики мотивационного регулирования поведения. В 1960-х эта модель была влиятельной, однако теперь считается устаревшей, поскольку рассматривает управление поведением как энергетический поток, а современные биологические модели делают акцент на передаче информации через нервную систему. Динамическое планирование и нейросети ближе к концепции информационного потока, а распространение активации — аналог диффузного управления эмоциями или гормональными системами.

Стан Франклин предложил рассматривать задачу выбора действия как правильную перспективу для понимания роли и эволюции разума. См. его страницу парадигма выбора действия Action selection paradigm (англ.). University of Memphis. Дата обращения: 1 июня 2024. Архивировано 9 октября 2006 года..

Модели нейронного выбора действия в ИИ

Существуют детальные модели нейронных механизмов выбора действия, например:

Электронный транспорт в катехоламинергических нейронах (CNET)

Голубое пятно (locus coeruleus, LC) — один из основных источников норадреналина в мозге, связанный с выбором когнитивных процессов, таких как внимание и поведенческие задачи[2]. Компактная часть чёрной субстанции (SNc) — главный источник дофамина в мозге, также связанный с выбором действия, главным образом как часть базальных ганглиев[3].

CNET — гипотетический механизм нейронной передачи сигналов в SNc и LC (катехоламинергические нейроны), который может помогать выбору действия за счёт маршрутизации энергии между нейронами в рамках активации, обеспечивая достижение потенциала действия[4]. Механизм предложен в 2018 году и учитывает ряд физических параметров этих нейронов, которые можно разделить на три компонента:

1) Ферритин и нейромеланин присутствуют в высоких концентрациях, однако до 2018 года было неизвестно, способны ли их структуры передавать электроны на расстояния порядка микронов между крупными нейронами — и способны ли они обеспечивать функцию коммутации (маршрутизации). Доказательства возможности и переноса, и маршрутизации были позднее получены[5].

2) Аксональные ветвления крупных нейронов SNc обширны, но до недавнего времени было неясно, приводит ли постсинаптическая активность к изменению мембранного потенциала так, чтобы электроны направлялись к нейронам с наибольшей активностью для целей выбора действия. Ранее считалось, что эти нейроны не участвуют в выборе действия и имеют только модулирующее действие. Однако П. Кэзер (Гарвард) показал, что нейроны SNc могут обеспечивать пространственно и временно специфичное управление выбором действия[6]. Есть свидетельства аналогичных свойств крупных аксонов LC.

3) Гипотетические источники электронов или экситонов для обеспечения работы механизма в 2018 году ещё не были подтверждены. Было предположено, что расщепление диоксетанов, возможное при метаболизме дофамина через деградацию меланина, способно обеспечивать электроны с высокой энергией (триплетное состояние) — гипотеза профессора Д. Браша (Йельский университет)[7].

Хотя многие физические предсказания гипотезы CNET были подтверждены, её корректность полностью не проверялась. Одним из способов проверки механизма может быть использование квантовых флуорофоров и оптических проб для выявления эффекта туннелирования электронов, связанных с ферритином в нейронах, при исполнении определённых действий[8].

Примечания

Литература

Ссылки

Категории