Объяснимый искусственный интеллект

Объяснимый искусственный интеллект (англ. explainable artificial intelligence, XAI; также встречаются термины интерпретируемый искусственный интеллект, объяснимая машинная обучаемость, англ. explainable machine learning, XML) — область исследований на стыке искусственного интеллекта, разрабатывающая методы, предоставляющие человеку возможность интеллектуального контроля и анализа алгоритмов ИИ[1]. В центре внимания — логика рассуждений, лежащая в основе решений и предсказаний систем ИИ, что повышает их прозрачность и делаемость понятными для человека[2][3]. Объяснимый ИИ позволяет обеспечить пользователям возможность оценивать безопасность решений и критически анализировать автоматизированные механизмы принятия решений. XAI противостоит феномену «чёрного ящика» в машинном обучении, когда даже разработчики не могут объяснить, почему система пришла к тому или иному выводу[4][5].

XAI помогает пользователям эффективнее использовать системы на базе искусственного интеллекта, углубляя понимание их способов рассуждения[6]. XAI может быть реализации права на объяснение[7]. Даже при отсутствии такого юридического права или регуляторного требования объяснимый ИИ может повысить опыт конечного пользователя, усиливая доверие к качеству принимаемых системой решений[8]. XAI ставит целью объяснять, что сделано, что сейчас происходит и что будет дальше, а также раскрыть, на какой информации основаны эти действия[9]. Это позволяет подтверждать существующие знания, ставить их под сомнение и формулировать новые гипотезы[10].

Предпосылки

Машинное обучение (МО) в системах ИИ обычно делят на белый ящик и чёрный ящик[11]. Модели типа «белый ящик» дают результаты, понятные эксперту в области применения, тогда как «чёрные ящики» зачастую не поддаются объяснению даже для специалистов[12]. Алгоритмы XAI основываются на принципах прозрачности, интерпретируемости и объяснимости.

  • Прозрачность означает возможность объяснить, как параметры модели извлекаются из обучающих данных и как она формирует предсказания на тестовых данных[13].
  • Интерпретируемость характеризует возможность понять, как работает модель МО, и представить основания для её решений в понятной человеку форме[14].
  • Объяснимость — важное, но всё ещё формализуемое понятие; одна из трактовок — совокупность признаков предметной области, которые привели к выделенному решению (например, к конкретной классификации или регрессии)[15].

В целом, интерпретируемость — способность пользователя понять результат модели; прозрачность — это симулируемость (воспроизводимость предсказаний), декомпозируемость (интуитивное объяснение параметров) и алгоритмическая прозрачность (понимание работы самого алгоритма). Функциональность модели включает текстовые описания, визуализацию, локальные объяснения и направлена на повышение удобства и понятности для пользователя[16].

Использование интерпретируемых моделей («белых ящиков») допустимо даже в задачах с высокой точностью, особенно когда важна возможность объяснить решения: например, концептуальные модели «бутылочного горлышка» позволяют объяснять выводы модели на уровне понятий[17]. Это принципиально важно для областей вроде медицины, обороны, финансов и права. Многие исследователи подчёркивают, что в обучении с учителем перспективно направление символьной регрессии, как способ поиска объяснимых математических моделей[18].

Системы ИИ оптимизируют своё поведение согласно математически заданной цели. Тем не менее, такие системы могут выявлять неочевидные и даже нежелательные закономерности, требующие аудита человеком для оценки их генерализуемости[19].

Цели

Сотрудничество между агентами — людьми и алгоритмами — основывается на доверии. Промежуточные цели на пути к формализованному доверию — прозрачность, интерпретируемость, объяснимость[20]. Это особенно важно в медицине, где врачам нужна уверенность в обоснованности решений систем[21][22].

Реальные примеры показывают, что иногда ИИ учится применять «трюки», которые оптимизируют заданные метрики, но не соответствуют ожиданиям людей и несут риск переноса знаний за пределы обучающей выборки[5][23][24].

Проект XAI Агентства перспективных исследовательских проектов Министерства обороны США (DARPA) направлен на создание так называемых моделей «стеклянного ящика», понятных человеку при минимальных потерях точности[25]. Другие применения XAI — извлечение знаний из «чёрных ящиков», сравнение моделей[26]. Понятие «стеклянного ящика» также применяется для инструментов аудита соблюдения этики и законности ИИ-систем[27].

Техники объяснимости и интерпретируемости

Существует различие между терминами объяснимость и интерпретируемость:

Термин Определение Источник
Интерпретируемость «Степень понимания того, как работает (ИИ-)технология» ISO/IEC TR 29119-11:2020(en), 3.1.42
Объяснимость «Степень понимания того, как (ИИ-)система пришла к данному результату» ISO/IEC TR 29119-11:2020(en), 3.1.31

Некоторые техники объяснимости не требуют понимания внутреннего устройства модели и могут работать для разных ИИ-систем. Например, анализируют зависимость результата от изменений во входных данных.

Объяснимость

Объяснимость нужна для проверки того, что системы ИИ не принимают решения на основе нерелевантных или несправедливых признаков. В задачах классификации и регрессии популярны следующие методы:

  • Графики частных зависимостей: показывают влияние одного признака на выход.
  • SHAP (Shapley Additive Explanations): визуализирует вклад каждого входного признака посредством расчёта значений Шепли[28].
  • Важность признаков : оценивает, насколько важен признак для модели. Чаще всего используется перестановочная важность.
  • LIME (Local Interpretable Model-Agnostic Explanations): локальное аппроксимирование сложной модели простой интерпретируемой моделью[29].
  • Многозадачное обучение: дополнительные выходы, которые помогают понять, чему научилась сеть[30].

В задачах компьютерного зрения используются карты значимости, визуализирующие части изображения, ключевые для предсказания модели[31].

Экспертные системы, как программные комплексы, созданные экспертами и реализующие знания через продукционные правила, предоставляют объяснения через систему построения обоснований.

Однако эти подходы слабо применимы к языковым моделям типа GPT, которые могут генерировать не всегда достоверные объяснения. Дополнительно используются анализ внимания, методы зондирования, причинный трейсинг и поиск ключевых подсетей; эти исследования тесно пересекаются с задачами выравнивания ИИ[32].

Интерпретируемость

Термин «механистическая интерпретируемость» применяется к анализу внутренних механизмов нейросетей[33]. Исследования интерпретируемости особенно актуальны для современных базовых моделей, где задача — автоматизировать поиск признаков; улучшение этих методов ожидаемо повысит безопасность фронтирных ИИ-систем[34][35].

undefined

В свёрточных сетях инструмент DeepDream позволяет визуализировать, что активируют отдельные нейроны[37].

История и методы

В 1970—1990-х годах символические экспертные системы (например, MYCIN, GUIDON, SOPHIE, PROTOS) умели объяснять свои рассуждения[38][39]. В конце 1980-х—начале 1990-х развитие получили системы поддержания истинности (truth maintenance systems, TMS) и логический трейсинг рассуждений[40].

С 1990-х и особенно с развитием глубокого обучения возникает задача извлечения интерпретируемых правил из обученных «чёрных ящиков»[41]. Современные методы, такие как layerwise relevance propagation (LRP), позволяют оценить вклад отдельных признаков во входных данных[42]. Для локальной интерпретируемости — LIME, SHAP, а также подход к объяснению через наиболее близкие обучающие примеры[43].

Регулирование

По мере распространения ИИ-систем растёт нормативная потребность в прозрачности автоматизированных решений. Первая глобальная конференция по XAI состоялась в 2017 году[44]. В Евросоюзе «право на объяснение» в рамках Общего регламента по защите данных распространяется на отдельные автоматизированные решения. В США, например, страховые компании обязаны объяснить причины тарифных и страховых решений[45]. Во Франции «Закон о цифровой республике» гарантирует право граждан запрашивать объяснение принципов работы применяемых к их данным алгоритмов.

Ограничения

Несмотря на развитие XAI, существуют присущие ограничения:

  • Вредоносные акторы. Объяснимость раскрывает внутренние закономерности — конкуренты или злоумышленники могут использовать это для обхода защитных механизмов[46].
  • Адаптивность объяснений. Стандартные объяснения не учитывают уровень знаний пользователя: эксперты могут считать их слишком поверхностными, новички — сложными[47].
  • Техническая сложность. Большинство современных методов объяснения сложны для непрофессионалов, что затрудняет реальное понимание конечными пользователями процесса принятия решений[46].
  • Понимание и доверие. Цель XAI — не столько повысить доверие, сколько привести его к адекватному уровню, так как даже при понимании процесса пользователь может остаться настороженным к ИИ[48].

Критика

Ряд исследователей рассматривают объяснимость как второстепенную по сравнению с эффективностью ИИ[49]. С другой стороны, рекомендуется использовать изначально интерпретируемые модели вместо пост-хок объяснений.

Объяснимость в социальных науках

Идея объяснимости используется и в социальной теории решений, например, через аксиоматические обоснования, позволяющие прозрачнее конструировать или объяснять коллективные выборы[50].

Голосование

Получены методы объяснения правил голосования на основе используемых в них аксиом[51].

Партисипаторное бюджетирование

Показано влияние вида объяснений (индивидуальных, групповых, механистических) на восприятие честности и доверия к бюджетному алгоритму[52].

Распределение выплат

Разработан алгоритм для объяснения распределения по значению Шепли через разложение на подигры[53].

Примечания

Ссылки