Объяснимый искусственный интеллект
Объяснимый искусственный интеллект (англ. explainable artificial intelligence, XAI; также встречаются термины интерпретируемый искусственный интеллект, объяснимая машинная обучаемость, англ. explainable machine learning, XML) — область исследований на стыке искусственного интеллекта, разрабатывающая методы, предоставляющие человеку возможность интеллектуального контроля и анализа алгоритмов ИИ[1]. В центре внимания — логика рассуждений, лежащая в основе решений и предсказаний систем ИИ, что повышает их прозрачность и делаемость понятными для человека[2][3]. Объяснимый ИИ позволяет обеспечить пользователям возможность оценивать безопасность решений и критически анализировать автоматизированные механизмы принятия решений. XAI противостоит феномену «чёрного ящика» в машинном обучении, когда даже разработчики не могут объяснить, почему система пришла к тому или иному выводу[4][5].
XAI помогает пользователям эффективнее использовать системы на базе искусственного интеллекта, углубляя понимание их способов рассуждения[6]. XAI может быть реализации права на объяснение[7]. Даже при отсутствии такого юридического права или регуляторного требования объяснимый ИИ может повысить опыт конечного пользователя, усиливая доверие к качеству принимаемых системой решений[8]. XAI ставит целью объяснять, что сделано, что сейчас происходит и что будет дальше, а также раскрыть, на какой информации основаны эти действия[9]. Это позволяет подтверждать существующие знания, ставить их под сомнение и формулировать новые гипотезы[10].
Предпосылки
Машинное обучение (МО) в системах ИИ обычно делят на белый ящик и чёрный ящик[11]. Модели типа «белый ящик» дают результаты, понятные эксперту в области применения, тогда как «чёрные ящики» зачастую не поддаются объяснению даже для специалистов[12]. Алгоритмы XAI основываются на принципах прозрачности, интерпретируемости и объяснимости.
- Прозрачность означает возможность объяснить, как параметры модели извлекаются из обучающих данных и как она формирует предсказания на тестовых данных[13].
- Интерпретируемость характеризует возможность понять, как работает модель МО, и представить основания для её решений в понятной человеку форме[14].
- Объяснимость — важное, но всё ещё формализуемое понятие; одна из трактовок — совокупность признаков предметной области, которые привели к выделенному решению (например, к конкретной классификации или регрессии)[15].
В целом, интерпретируемость — способность пользователя понять результат модели; прозрачность — это симулируемость (воспроизводимость предсказаний), декомпозируемость (интуитивное объяснение параметров) и алгоритмическая прозрачность (понимание работы самого алгоритма). Функциональность модели включает текстовые описания, визуализацию, локальные объяснения и направлена на повышение удобства и понятности для пользователя[16].
Использование интерпретируемых моделей («белых ящиков») допустимо даже в задачах с высокой точностью, особенно когда важна возможность объяснить решения: например, концептуальные модели «бутылочного горлышка» позволяют объяснять выводы модели на уровне понятий[17]. Это принципиально важно для областей вроде медицины, обороны, финансов и права. Многие исследователи подчёркивают, что в обучении с учителем перспективно направление символьной регрессии, как способ поиска объяснимых математических моделей[18].
Системы ИИ оптимизируют своё поведение согласно математически заданной цели. Тем не менее, такие системы могут выявлять неочевидные и даже нежелательные закономерности, требующие аудита человеком для оценки их генерализуемости[19].
Цели
Сотрудничество между агентами — людьми и алгоритмами — основывается на доверии. Промежуточные цели на пути к формализованному доверию — прозрачность, интерпретируемость, объяснимость[20]. Это особенно важно в медицине, где врачам нужна уверенность в обоснованности решений систем[21][22].
Реальные примеры показывают, что иногда ИИ учится применять «трюки», которые оптимизируют заданные метрики, но не соответствуют ожиданиям людей и несут риск переноса знаний за пределы обучающей выборки[5][23][24].
Проект XAI Агентства перспективных исследовательских проектов Министерства обороны США (DARPA) направлен на создание так называемых моделей «стеклянного ящика», понятных человеку при минимальных потерях точности[25]. Другие применения XAI — извлечение знаний из «чёрных ящиков», сравнение моделей[26]. Понятие «стеклянного ящика» также применяется для инструментов аудита соблюдения этики и законности ИИ-систем[27].
Техники объяснимости и интерпретируемости
Существует различие между терминами объяснимость и интерпретируемость:
| Термин | Определение | Источник |
|---|---|---|
| Интерпретируемость | «Степень понимания того, как работает (ИИ-)технология» | ISO/IEC TR 29119-11:2020(en), 3.1.42 |
| Объяснимость | «Степень понимания того, как (ИИ-)система пришла к данному результату» | ISO/IEC TR 29119-11:2020(en), 3.1.31 |
Некоторые техники объяснимости не требуют понимания внутреннего устройства модели и могут работать для разных ИИ-систем. Например, анализируют зависимость результата от изменений во входных данных.
Объяснимость нужна для проверки того, что системы ИИ не принимают решения на основе нерелевантных или несправедливых признаков. В задачах классификации и регрессии популярны следующие методы:
- Графики частных зависимостей: показывают влияние одного признака на выход.
- SHAP (Shapley Additive Explanations): визуализирует вклад каждого входного признака посредством расчёта значений Шепли[28].
- Важность признаков : оценивает, насколько важен признак для модели. Чаще всего используется перестановочная важность.
- LIME (Local Interpretable Model-Agnostic Explanations): локальное аппроксимирование сложной модели простой интерпретируемой моделью[29].
- Многозадачное обучение: дополнительные выходы, которые помогают понять, чему научилась сеть[30].
В задачах компьютерного зрения используются карты значимости, визуализирующие части изображения, ключевые для предсказания модели[31].
Экспертные системы, как программные комплексы, созданные экспертами и реализующие знания через продукционные правила, предоставляют объяснения через систему построения обоснований.
Однако эти подходы слабо применимы к языковым моделям типа GPT, которые могут генерировать не всегда достоверные объяснения. Дополнительно используются анализ внимания, методы зондирования, причинный трейсинг и поиск ключевых подсетей; эти исследования тесно пересекаются с задачами выравнивания ИИ[32].
Термин «механистическая интерпретируемость» применяется к анализу внутренних механизмов нейросетей[33]. Исследования интерпретируемости особенно актуальны для современных базовых моделей, где задача — автоматизировать поиск признаков; улучшение этих методов ожидаемо повысит безопасность фронтирных ИИ-систем[34][35].
В свёрточных сетях инструмент DeepDream позволяет визуализировать, что активируют отдельные нейроны[37].
История и методы
В 1970—1990-х годах символические экспертные системы (например, MYCIN, GUIDON, SOPHIE, PROTOS) умели объяснять свои рассуждения[38][39]. В конце 1980-х—начале 1990-х развитие получили системы поддержания истинности (truth maintenance systems, TMS) и логический трейсинг рассуждений[40].
С 1990-х и особенно с развитием глубокого обучения возникает задача извлечения интерпретируемых правил из обученных «чёрных ящиков»[41]. Современные методы, такие как layerwise relevance propagation (LRP), позволяют оценить вклад отдельных признаков во входных данных[42]. Для локальной интерпретируемости — LIME, SHAP, а также подход к объяснению через наиболее близкие обучающие примеры[43].
Регулирование
По мере распространения ИИ-систем растёт нормативная потребность в прозрачности автоматизированных решений. Первая глобальная конференция по XAI состоялась в 2017 году[44]. В Евросоюзе «право на объяснение» в рамках Общего регламента по защите данных распространяется на отдельные автоматизированные решения. В США, например, страховые компании обязаны объяснить причины тарифных и страховых решений[45]. Во Франции «Закон о цифровой республике» гарантирует право граждан запрашивать объяснение принципов работы применяемых к их данным алгоритмов.
Ограничения
Несмотря на развитие XAI, существуют присущие ограничения:
- Вредоносные акторы. Объяснимость раскрывает внутренние закономерности — конкуренты или злоумышленники могут использовать это для обхода защитных механизмов[46].
- Адаптивность объяснений. Стандартные объяснения не учитывают уровень знаний пользователя: эксперты могут считать их слишком поверхностными, новички — сложными[47].
- Техническая сложность. Большинство современных методов объяснения сложны для непрофессионалов, что затрудняет реальное понимание конечными пользователями процесса принятия решений[46].
- Понимание и доверие. Цель XAI — не столько повысить доверие, сколько привести его к адекватному уровню, так как даже при понимании процесса пользователь может остаться настороженным к ИИ[48].
Критика
Ряд исследователей рассматривают объяснимость как второстепенную по сравнению с эффективностью ИИ[49]. С другой стороны, рекомендуется использовать изначально интерпретируемые модели вместо пост-хок объяснений.
Объяснимость в социальных науках
Идея объяснимости используется и в социальной теории решений, например, через аксиоматические обоснования, позволяющие прозрачнее конструировать или объяснять коллективные выборы[50].
Получены методы объяснения правил голосования на основе используемых в них аксиом[51].
Показано влияние вида объяснений (индивидуальных, групповых, механистических) на восприятие честности и доверия к бюджетному алгоритму[52].
Разработан алгоритм для объяснения распределения по значению Шепли через разложение на подигры[53].
Примечания
Ссылки
- the World Conference on eXplainable Artificial Intelligence
- ACM Conference on Fairness, Accountability, and Transparency (FAccT)
- Mazumdar, Dipankar; Neto, Mário Popolin; Paulovich, Fernando V. (2021). “Random Forest similarity maps: A Scalable Visual Representation for Global and Local Interpretation”. Electronics. 10 (22): 2862. DOI:10.3390/electronics10222862.
- Explaining How End-to-End Deep Learning Steers a Self-Driving Car
- DARPA is funding projects that will try to open up AI’s black boxes
- Alvarez-Melis, David & Jaakkola, Tommi S. (6 июля 2017), A causal framework for explaining the predictions of black-box sequence-to-sequence models, arΧiv:1707.01943 [cs.LG].