Безопасность искусственного интеллекта

Безопасность искусственного интеллекта (англ. AI Safety) — это междисциплинарное направление, связанное с предотвращением аварий, злоупотреблений или иных опасных последствий, которые могут возникнуть при использовании систем искусственного интеллекта (ИИ). В понятие включаются этотика машин и согласование ИИ (англ. AI alignment), цель которых — сделать системы ИИ морально приемлемыми и полезными. Также затрагиваются технические вопросы, такие как контроль рисков и обеспечение высокой надёжности работы систем. Кроме исследований по ИИ, безопасность искусственного интеллекта предполагает разработку стандартов и политик, способствующих безопасному использованию технологий ИИ.

Исследователи в области искусственного интеллекта расходятся во мнениях относительно серьёзности и основных источников рисков, связанных с этой технологией^[1]^[2]^[3], однако опросы показывают, что эксперты серьёзно относятся к рискам крупных катастроф. В двух исследованиях респонденты были в целом оптимистичны относительно искусственного интеллекта, однако оценивали вероятность крайне негативного сценария («чрезвычайно неблагоприятный итог, например, гибель человечества») от развития передового ИИ в 5 %^[1]. В опросе 2022 года среди специалистов по обработке естественного языка (англ. NLP) 37 % согласились или частично согласились, что решения ИИ могут привести к катастрофе «по крайней мере не меньшей, чем последствия тотальной ядерной войны»^[4].

Учёные обсуждают существующие риски отказов в критически важных системах^[5], предвзятость (bias)^[6], слежку с помощью ИИ^[7], технологически обусловленную безработицу, цифровые манипуляции^[8], милитаризацию ИИ^[9] и гипотетические риски потери контроля над будущими агентами общего искусственного интеллекта^[10].

Некоторые специалисты, такие как профессор Стэнфордского университета Эндрю Ын, скептически относятся к опасениям относительно ОИИ, сравнивая их с «беспокойством о перенаселении Марса, на котором мы ещё даже не побывали»^[11]. Другие, например профессор Калифорнийского университета в Беркли Стюарт Дж. Рассел, призывают к осторожности: «лучше переоценить человеческую изобретательность, чем недооценить её»^[12].

Вопросы риска при создании искусственного интеллекта начали всерьёз обсуждаться уже в раннюю компьютерную эпоху. Например:

«Кроме того, если мы будем двигаться в направлении создания машин, способных к обучению, поведение которых модифицируется опытом, нам придётся признать, что каждая степень независимости, которую мы даём машине — это степень потенциального конфликта с нашими желаниями». — Норберт Винер, 1949^[13]

В 2008–2009 годах Ассоциация содействия развитию искусственного интеллекта (англ. AAAI) провела исследование для анализа долгосрочных социальных последствий развития ИИ. Комитет отнёсся скептически к радикальным версиям, популярным у авторов научной фантастики, но признал важность дальнейших исследований методов понимания и верификации поведения сложных вычислительных систем для минимизации неожиданных результатов^[14].

В 2011 году Роман Ямпольский ввёл термин «инженерия безопасности ИИ» (англ. AI safety engineering)^[15] на конференции по философии и теории искусственного интеллекта^[16], где был представлен перечень предыдущих сбоев систем ИИ и выдвинут тезис о неизбежном росте частоты и тяжести таких событий по мере совершенствования ИИ^[17].

В 2014 году философ Ник Бостром опубликовал книгу Superintelligence: Paths, Dangers, Strategies («Суперинтеллект: пути, опасности, стратегии»), где показал, что системы, способные к сверхчеловеческим способностям, могут нести экзистенциальную угрозу человечеству. После этого Илон Маск^[18], Билл Гейтс^[19] и Стивен Хокинг^[20] публично высказали схожие предупреждения.

В 2015 году десятки ведущих специалистов по искусственному интеллекту подписали Открытое письмо о развитии искусственного интеллекта, призывая к исследованию социальных последствий ИИ и обсуждая конкретные руководящие принципы^[21]. Это письмо позже подписали более 8000 человек, включая Яна Лекуна, Шейна Легга, Йошуа Бенджио и Стюарта Дж. Рассела.

В том же году в Беркли (США) был создан Центр исследований согласования искусственного интеллекта с человеческими ценностями, и Институт Future of Life выделил 6,5 млн долларов на исследования по обеспечению безопасности, этичности и пользы искусственного интеллекта^[22].

В 2016 году Белый дом США и Университет Карнеги — Меллон провели публичный семинар по вопросам безопасности и управлению ИИ^[23], а также ряд тематических семинаров по изучению преимуществ и сложностей использования ИИ^[24]. В этом же году опубликован отчёт Concrete Problems in AI Safety (Конкретные проблемы безопасности ИИ), ставший одной из первых технических и наиболее влиятельных повесток в данной области^[25].

В 2017 году при поддержке Future of Life Institute прошла конференция Asilomar по благоприятному искусственному интеллекту, где был сформулирован ряд принципов, включая «избегать гонки: команды, создающие ИИ, должны активно сотрудничать, чтобы не допустить снижения стандартов безопасности»^[26].

В 2018 году команда из DeepMind обозначила ключевые проблемы безопасности ИИ как вопросы спецификации, надёжности и проверки^[27]. В 2019 году исследователи организовали специальный семинар по этим темам на Международной конференции по обучению представлений (ICLR)^[28].

Ключевыми областями исследований по безопасности ИИ являются надёжность, мониторинг и согласование^[27]^[29]. Надёжность связана с обеспечением корректного поведения систем в нетипичных ситуациях, мониторинг — с предвидением и предотвращением сбоев, а согласование — с гарантией, что цели системы полезны для людей.

Надёжность

Вопросы надёжности в ИИ включают создание систем, устойчивых к редким или внезапным ситуациям («робастность к чёрным лебедям»), а также защиту от злонамеренных воздействий (адверсариальная надёжность).

Далее подробно рассматриваются подпроблемы:

Надёжность при «чёрных лебедях»: поведение системы при редких и ранее не встречавшихся сценариях.
Адверсариальная надёжность: устойчивость к специально сконструированным входным данным, вызывающим сбой.

Надёжность при чёрных лебедях

Редкие входные ситуации могут привести к катастрофическим сбоям. Например, во время Flash Crash 2010 года автоматизированные торговые системы необычно резко отреагировали на рыночные колебания, что привело к обрушению стоимости акций почти на триллион долларов за несколько минут^[30]. Для подобных аварий не обязателен полный сдвиг распределения данных. Такие отказы неизбежны из-за длинный хвост (распределение) в реальных данных^[31]. Так называемые «краевые случаи» затрудняют разработку беспилотников, когда, например, машина не распознаёт знак «Стоп», выполненный в виде светодиодной панели^[32]. Некоторые исследователи отмечают, что даже люди часто не справляются с беспрецедентными событиями (например, пандемия COVID-19), и робастность к чёрным лебедям останется актуальной проблемой^[29].

Парадокс доверия к ИИ

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

Безопасность искусственного интеллекта

Мотивация

История

Основные направления исследований

Надёжность

Надёжность при чёрных лебедях

Cм. также

Примечания