Объяснимый искусственный интеллект

Объяснимый искусственный интеллект (англ. explainable artificial intelligence, XAI; также встречаются термины интерпретируемый искусственный интеллект, объяснимая машинная обучаемость, англ. explainable machine learning, XML) — область исследований на стыке искусственного интеллекта, разрабатывающая методы, предоставляющие человеку возможность интеллектуального контроля и анализа алгоритмов ИИ^[1]. В центре внимания — логика рассуждений, лежащая в основе решений и предсказаний систем ИИ, что повышает их прозрачность и делаемость понятными для человека^[2]^[3]. Объяснимый ИИ позволяет обеспечить пользователям возможность оценивать безопасность решений и критически анализировать автоматизированные механизмы принятия решений. XAI противостоит феномену «чёрного ящика» в машинном обучении, когда даже разработчики не могут объяснить, почему система пришла к тому или иному выводу^[4]^[5].

XAI помогает пользователям эффективнее использовать системы на базе искусственного интеллекта, углубляя понимание их способов рассуждения^[6]. XAI может быть реализации права на объяснение^[7]. Даже при отсутствии такого юридического права или регуляторного требования объяснимый ИИ может повысить опыт конечного пользователя, усиливая доверие к качеству принимаемых системой решений^[8]. XAI ставит целью объяснять, что сделано, что сейчас происходит и что будет дальше, а также раскрыть, на какой информации основаны эти действия^[9]. Это позволяет подтверждать существующие знания, ставить их под сомнение и формулировать новые гипотезы^[10].

Машинное обучение (МО) в системах ИИ обычно делят на белый ящик и чёрный ящик^[11]. Модели типа «белый ящик» дают результаты, понятные эксперту в области применения, тогда как «чёрные ящики» зачастую не поддаются объяснению даже для специалистов^[12]. Алгоритмы XAI основываются на принципах прозрачности, интерпретируемости и объяснимости.

Прозрачность означает возможность объяснить, как параметры модели извлекаются из обучающих данных и как она формирует предсказания на тестовых данных^[13].
Интерпретируемость характеризует возможность понять, как работает модель МО, и представить основания для её решений в понятной человеку форме^[14].
Объяснимость — важное, но всё ещё формализуемое понятие; одна из трактовок — совокупность признаков предметной области, которые привели к выделенному решению (например, к конкретной классификации или регрессии)^[15].

В целом, интерпретируемость — способность пользователя понять результат модели; прозрачность — это симулируемость (воспроизводимость предсказаний), декомпозируемость (интуитивное объяснение параметров) и алгоритмическая прозрачность (понимание работы самого алгоритма). Функциональность модели включает текстовые описания, визуализацию, локальные объяснения и направлена на повышение удобства и понятности для пользователя^[16].

Использование интерпретируемых моделей («белых ящиков») допустимо даже в задачах с высокой точностью, особенно когда важна возможность объяснить решения: например, концептуальные модели «бутылочного горлышка» позволяют объяснять выводы модели на уровне понятий^[17]. Это принципиально важно для областей вроде медицины, обороны, финансов и права. Многие исследователи подчёркивают, что в обучении с учителем перспективно направление символьной регрессии, как способ поиска объяснимых математических моделей^[18].

Системы ИИ оптимизируют своё поведение согласно математически заданной цели. Тем не менее, такие системы могут выявлять неочевидные и даже нежелательные закономерности, требующие аудита человеком для оценки их генерализуемости^[19].

Сотрудничество между агентами — людьми и алгоритмами — основывается на доверии. Промежуточные цели на пути к формализованному доверию — прозрачность, интерпретируемость, объяснимость^[20]. Это особенно важно в медицине, где врачам нужна уверенность в обоснованности решений систем^[21]^[22].

Реальные примеры показывают, что иногда ИИ учится применять «трюки», которые оптимизируют заданные метрики, но не соответствуют ожиданиям людей и несут риск переноса знаний за пределы обучающей выборки^[5]^[23]^[24].

Проект XAI Агентства перспективных исследовательских проектов Министерства обороны США (DARPA) направлен на создание так называемых моделей «стеклянного ящика», понятных человеку при минимальных потерях точности^[25]. Другие применения XAI — извлечение знаний из «чёрных ящиков», сравнение моделей^[26]. Понятие «стеклянного ящика» также применяется для инструментов аудита соблюдения этики и законности ИИ-систем^[27].

Существует различие между терминами объяснимость и интерпретируемость:

Термин	Определение	Источник
Интерпретируемость	«Степень понимания того, как работает (ИИ-)технология»	ISO/IEC TR 29119-11:2020(en), 3.1.42
Объяснимость	«Степень понимания того, как (ИИ-)система пришла к данному результату»	ISO/IEC TR 29119-11:2020(en), 3.1.31

Некоторые техники объяснимости не требуют понимания внутреннего устройства модели и могут работать для разных ИИ-систем. Например, анализируют зависимость результата от изменений во входных данных.

Объяснимость

Объяснимость нужна для проверки того, что системы ИИ не принимают решения на основе нерелевантных или несправедливых признаков. В задачах классификации и регрессии популярны следующие методы:

Графики частных зависимостей: показывают влияние одного признака на выход.
SHAP (Shapley Additive Explanations): визуализирует вклад каждого входного признака посредством расчёта значений Шепли^[28].
Важность признаков : оценивает, насколько важен признак для модели. Чаще всего используется перестановочная важность.
LIME (Local Interpretable Model-Agnostic Explanations): локальное аппроксимирование сложной модели простой интерпретируемой моделью^[29].
Многозадачное обучение: дополнительные выходы, которые помогают понять, чему научилась сеть^[30].

В задачах компьютерного зрения используются карты значимости, визуализирующие части изображения, ключевые для предсказания модели^[31].

Экспертные системы, как программные комплексы, созданные экспертами и реализующие знания через продукционные правила, предоставляют объяснения через систему построения обоснований.

Однако эти подходы слабо применимы к языковым моделям типа GPT, которые могут генерировать не всегда достоверные объяснения. Дополнительно используются анализ внимания, методы зондирования, причинный трейсинг и поиск ключевых подсетей; эти исследования тесно пересекаются с задачами выравнивания ИИ^[32].

Интерпретируемость

Термин «механистическая интерпретируемость» применяется к анализу внутренних механизмов нейросетей^[33]. Исследования интерпретируемости особенно актуальны для современных базовых моделей, где задача — автоматизировать поиск признаков; улучшение этих методов ожидаемо повысит безопасность фронтирных ИИ-систем^[34]^[35].

В свёрточных сетях инструмент DeepDream позволяет визуализировать, что активируют отдельные нейроны^[37].

В 1970—1990-х годах символические экспертные системы (например, MYCIN, GUIDON, SOPHIE, PROTOS) умели объяснять свои рассуждения^[38]^[39]. В конце 1980-х—начале 1990-х развитие получили системы поддержания истинности (truth maintenance systems, TMS) и логический трейсинг рассуждений^[40].

С 1990-х и особенно с развитием глубокого обучения возникает задача извлечения интерпретируемых правил из обученных «чёрных ящиков»^[41]. Современные методы, такие как layerwise relevance propagation (LRP), позволяют оценить вклад отдельных признаков во входных данных^[42]. Для локальной интерпретируемости — LIME, SHAP, а также подход к объяснению через наиболее близкие обучающие примеры^[43].

По мере распространения ИИ-систем растёт нормативная потребность в прозрачности автоматизированных решений. Первая глобальная конференция по XAI состоялась в 2017 году^[44]. В Евросоюзе «право на объяснение» в рамках Общего регламента по защите данных распространяется на отдельные автоматизированные решения. В США, например, страховые компании обязаны объяснить причины тарифных и страховых решений^[45]. Во Франции «Закон о цифровой республике» гарантирует право граждан запрашивать объяснение принципов работы применяемых к их данным алгоритмов.

Несмотря на развитие XAI, существуют присущие ограничения:

Вредоносные акторы. Объяснимость раскрывает внутренние закономерности — конкуренты или злоумышленники могут использовать это для обхода защитных механизмов^[46].

Адаптивность объяснений. Стандартные объяснения не учитывают уровень знаний пользователя: эксперты могут считать их слишком поверхностными, новички — сложными^[47].

Техническая сложность. Большинство современных методов объяснения сложны для непрофессионалов, что затрудняет реальное понимание конечными пользователями процесса принятия решений^[46].

Понимание и доверие. Цель XAI — не столько повысить доверие, сколько привести его к адекватному уровню, так как даже при понимании процесса пользователь может остаться настороженным к ИИ^[48].

Ряд исследователей рассматривают объяснимость как второстепенную по сравнению с эффективностью ИИ^[49]. С другой стороны, рекомендуется использовать изначально интерпретируемые модели вместо пост-хок объяснений.

Идея объяснимости используется и в социальной теории решений, например, через аксиоматические обоснования, позволяющие прозрачнее конструировать или объяснять коллективные выборы^[50].

Голосование

Получены методы объяснения правил голосования на основе используемых в них аксиом^[51].

Партисипаторное бюджетирование

Показано влияние вида объяснений (индивидуальных, групповых, механистических) на восприятие честности и доверия к бюджетному алгоритму^[52].

Распределение выплат

Разработан алгоритм для объяснения распределения по значению Шепли через разложение на подигры^[53].

the World Conference on eXplainable Artificial Intelligence
ACM Conference on Fairness, Accountability, and Transparency (FAccT)
Mazumdar, Dipankar; Neto, Mário Popolin; Paulovich, Fernando V. (2021). “Random Forest similarity maps: A Scalable Visual Representation for Global and Local Interpretation”. Electronics. 10 (22): 2862. DOI:10.3390/electronics10222862.
Explaining How End-to-End Deep Learning Steers a Self-Driving Car
DARPA is funding projects that will try to open up AI’s black boxes

Alvarez-Melis, David & Jaakkola, Tommi S. (6 июля 2017), A causal framework for explaining the predictions of black-box sequence-to-sequence models, arΧiv:1707.01943 [cs.LG].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля Эффективный акселерационизм
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Видеоманипуляция Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ Применение ИИ в армии США Применение ИИ в армии Великобритании Применение ИИ в армии Китая
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Денис Димитров Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский
Компании	OpenAI Microsoft Stargate Project Apple Nvidia Meta Platforms Tesla IBM Palantir Mobileye SentinelOne DeepSeek OmniHuman Zhipu AI BuilderAI io Cacoon
Программы	YandexGPT YandexART Яндекс.Рефераты
Конкурсы	Miss AI
Другое	Временные меры по управлению сервисами генеративного ИИ Agentic AI Разметка данных

Объяснимый искусственный интеллект

Предпосылки

Цели

Техники объяснимости и интерпретируемости

Объяснимость

Интерпретируемость

История и методы

Регулирование

Ограничения

Критика

Объяснимость в социальных науках

Голосование

Партисипаторное бюджетирование

Распределение выплат

Примечания

Ссылки