Механистическая интерпретируемость

Механистическая интерпретируемость — это направление исследований в области объяснимого искусственного интеллекта, нацеленное на понимание внутренней работы нейронных сетей путём анализа механизмов их вычислений. Основной подход заключается в исследовании нейронных сетей аналогично тому, как двоичные компьютерные программы подвергаются реверс-инжинирингу для установления их функций[1].

История

Термин «механистическая интерпретируемость» был предложен Крисом Олой (Chris Olah)[2]. Ранние работы сочетали различные методы, такие как визуализация признаков, понижение размерности и атрибуция с методами человеко-компьютерного взаимодействия для анализа моделей, например, модели компьютерного зрения Inception v1[3]. В дальнейшем, в 2020 году вышла статья «Zoom In: An Introduction to Circuits», в которой предлагалась аналогия между компонентами нейронных сетей и биологическими нейронными контурами[4].

В последние годы механистическая интерпретируемость стала особенно актуальна в связи с изучением больших языковых моделей (LLM, large language models) и архитектур трансформеров. Область бурно развивается: проводятся специализированные мероприятия, например, тематический воркшоп «Mechanistic Interpretability Workshop» на ICML 2024[5].

Ключевые понятия

Механистическая интерпретируемость направлена на выявление структур, контуров и алгоритмов, закодированных в весах моделей машинного обучения[6]. Это отличается от более ранних методов интерпретации, сосредоточенных в основном на объяснениях вход–выход.

В литературе представлены различные определения термина: от узкоспециальных (изучение причинно-следственных механизмов внутри нейронных сетей) до широких культурных, охватывающих разные направления исследований объяснимого ИИ[2].

Гипотеза линейного представления

undefined

Данная гипотеза утверждает, что высокоуровневые понятия кодируются как линейные направления в пространстве активаций нейронных сетей. Эмпирические данные, полученные на векторных представлениях слов, а также более поздние исследования подтверждают это предположение, хотя оно не универсально[7][8].

Суперпозиция

Суперпозиция описывает механизм, при котором нейронная сеть может одновременно представлять множество несвязанных признаков в одних и тех же нейронах или подпространствах, что приводит к плотному и перекрывающемуся кодированию признаков[9].

Методы

Пробирование

Пробирование (от англ. probing) заключается в обучении простых классификаторов на активациях нейронной сети для проверки, действительно ли определённые признаки закодированы внутри сети[1].

Каузальные интервенции

В механистической интерпретируемости применяются причинно-следственные методы для выяснения, как внутренние компоненты модели влияют на выходные данные, часто с использованием формального аппарата теории причинности[10].

Разреженное разложение

Методы такие, как обучение разреженным словарям и разреженные автокодировщики, позволяют отделять сложные перекрывающиеся признаки посредством получения интерпретируемых разреженных представлений[11].

Применения и значение

Механистическая интерпретируемость считается ключевой в области безопасности искусственного интеллекта, поскольку позволяет понять и верифицировать поведение всё более сложных ИИ-систем. Она способствует идентификации потенциальных рисков и повышает прозрачность[12].

Примечания

  1. 1 2 Bereska, Leonard (2024). “Mechanistic Interpretability for AI Safety -- A Review”. TMLR [англ.]. arXiv:2404.14082. Дата обращения 2025-05-15. |access-date= требует |url= (справка)
  2. 1 2 Saphra, Naomi; Wiegreffe, Sarah (2024). “Mechanistic?”. BlackboxNLP workshop [англ.]. arXiv:2410.09087. Дата обращения 2025-05-15. |access-date= требует |url= (справка)
  3. Olah, Chris (2018). “The Building Blocks of Interpretability”. Distill [англ.]. 3 (3). DOI:10.23915/distill.00010. Дата обращения 2025-05-15.
  4. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). “Zoom In: An Introduction to Circuits”. Distill [англ.]. 5 (3). DOI:10.23915/distill.00024.001. Дата обращения 2025-05-15. |access-date= требует |url= (справка)
  5. ICML 2024 Mechanistic Interpretability Workshop. icml2024mi.pages.dev. Дата обращения: 12 мая 2025.
  6. “Towards automated circuit discovery for mechanistic interpretability”. NeurIPS [англ.]: 16318—16352. 2023. Дата обращения 2025-05-15.
  7. “Linguistic Regularities in Continuous Space Word Representations”. NAACL [англ.]: 746—751. 2013. Дата обращения 2025-05-15.
  8. Park, Kiho (2024). “The Linear Representation Hypothesis and the Geometry of Large Language Models”. ICML [англ.]. 235: 39643—39666. Дата обращения 2025-05-15.
  9. Elhage, Nelson; Hume, Tristan; Olsson, Catherine; Schiefer, Nicholas; Henighan, Tom Toy Models of Superposition (англ.). arXiv (2022). Дата обращения: 15 мая 2025. Архивировано 23 декабря 2022 года.
  10. “Investigating Gender Bias in Language Models Using Causal Mediation Analysis”. NeurIPS [англ.]: 12388—12401. 2020. ISBN 978-1-7138-2954-6. Дата обращения 2025-05-15.
  11. Cunningham, Hoagy Sparse Autoencoders Find Highly Interpretable Features in Language Models (англ.). OpenReview (2024). Дата обращения: 15 мая 2025. Архивировано 9 августа 2025 года.
  12. Sullivan, Mark This startup wants to reprogram the mind of AI—and just got $50 million to do it (англ.). Fast Company (22 апреля 2025). Дата обращения: 12 мая 2025. Архивировано 28 мая 2025 года.

Литература

Категории