Безопасность искусственного интеллекта
Безопасность искусственного интеллекта (англ. AI Safety) — это междисциплинарное направление, связанное с предотвращением аварий, злоупотреблений или иных опасных последствий, которые могут возникнуть при использовании систем искусственного интеллекта (ИИ). В понятие включаются этотика машин и согласование ИИ (англ. AI alignment), цель которых — сделать системы ИИ морально приемлемыми и полезными. Также затрагиваются технические вопросы, такие как контроль рисков и обеспечение высокой надёжности работы систем. Кроме исследований по ИИ, безопасность искусственного интеллекта предполагает разработку стандартов и политик, способствующих безопасному использованию технологий ИИ.
Мотивация
Исследователи в области искусственного интеллекта расходятся во мнениях относительно серьёзности и основных источников рисков, связанных с этой технологией[1][2][3], однако опросы показывают, что эксперты серьёзно относятся к рискам крупных катастроф. В двух исследованиях респонденты были в целом оптимистичны относительно искусственного интеллекта, однако оценивали вероятность крайне негативного сценария («чрезвычайно неблагоприятный итог, например, гибель человечества») от развития передового ИИ в 5 %[1]. В опросе 2022 года среди специалистов по обработке естественного языка (англ. NLP) 37 % согласились или частично согласились, что решения ИИ могут привести к катастрофе «по крайней мере не меньшей, чем последствия тотальной ядерной войны»[4].
Учёные обсуждают существующие риски отказов в критически важных системах[5], предвзятость (bias)[6], слежку с помощью ИИ[7], технологически обусловленную безработицу, цифровые манипуляции[8], милитаризацию ИИ[9] и гипотетические риски потери контроля над будущими агентами общего искусственного интеллекта[10].
Некоторые специалисты, такие как профессор Стэнфордского университета Эндрю Ын, скептически относятся к опасениям относительно ОИИ, сравнивая их с «беспокойством о перенаселении Марса, на котором мы ещё даже не побывали»[11]. Другие, например профессор Калифорнийского университета в Беркли Стюарт Дж. Рассел, призывают к осторожности: «лучше переоценить человеческую изобретательность, чем недооценить её»[12].
История
Вопросы риска при создании искусственного интеллекта начали всерьёз обсуждаться уже в раннюю компьютерную эпоху. Например:
«Кроме того, если мы будем двигаться в направлении создания машин, способных к обучению, поведение которых модифицируется опытом, нам придётся признать, что каждая степень независимости, которую мы даём машине — это степень потенциального конфликта с нашими желаниями». — Норберт Винер, 1949[13]
В 2008–2009 годах Ассоциация содействия развитию искусственного интеллекта (англ. AAAI) провела исследование для анализа долгосрочных социальных последствий развития ИИ. Комитет отнёсся скептически к радикальным версиям, популярным у авторов научной фантастики, но признал важность дальнейших исследований методов понимания и верификации поведения сложных вычислительных систем для минимизации неожиданных результатов[14].
В 2011 году Роман Ямпольский ввёл термин «инженерия безопасности ИИ» (англ. AI safety engineering)[15] на конференции по философии и теории искусственного интеллекта[16], где был представлен перечень предыдущих сбоев систем ИИ и выдвинут тезис о неизбежном росте частоты и тяжести таких событий по мере совершенствования ИИ[17].
В 2014 году философ Ник Бостром опубликовал книгу Superintelligence: Paths, Dangers, Strategies («Суперинтеллект: пути, опасности, стратегии»), где показал, что системы, способные к сверхчеловеческим способностям, могут нести экзистенциальную угрозу человечеству. После этого Илон Маск[18], Билл Гейтс[19] и Стивен Хокинг[20] публично высказали схожие предупреждения.
В 2015 году десятки ведущих специалистов по искусственному интеллекту подписали Открытое письмо о развитии искусственного интеллекта, призывая к исследованию социальных последствий ИИ и обсуждая конкретные руководящие принципы[21]. Это письмо позже подписали более 8000 человек, включая Яна Лекуна, Шейна Легга, Йошуа Бенджио и Стюарта Дж. Рассела.
В том же году в Беркли (США) был создан Центр исследований согласования искусственного интеллекта с человеческими ценностями, и Институт Future of Life выделил 6,5 млн долларов на исследования по обеспечению безопасности, этичности и пользы искусственного интеллекта[22].
В 2016 году Белый дом США и Университет Карнеги — Меллон провели публичный семинар по вопросам безопасности и управлению ИИ[23], а также ряд тематических семинаров по изучению преимуществ и сложностей использования ИИ[24]. В этом же году опубликован отчёт Concrete Problems in AI Safety (Конкретные проблемы безопасности ИИ), ставший одной из первых технических и наиболее влиятельных повесток в данной области[25].
В 2017 году при поддержке Future of Life Institute прошла конференция Asilomar по благоприятному искусственному интеллекту, где был сформулирован ряд принципов, включая «избегать гонки: команды, создающие ИИ, должны активно сотрудничать, чтобы не допустить снижения стандартов безопасности»[26].
В 2018 году команда из DeepMind обозначила ключевые проблемы безопасности ИИ как вопросы спецификации, надёжности и проверки[27]. В 2019 году исследователи организовали специальный семинар по этим темам на Международной конференции по обучению представлений (ICLR)[28].
Основные направления исследований
Ключевыми областями исследований по безопасности ИИ являются надёжность, мониторинг и согласование[27][29]. Надёжность связана с обеспечением корректного поведения систем в нетипичных ситуациях, мониторинг — с предвидением и предотвращением сбоев, а согласование — с гарантией, что цели системы полезны для людей.
Вопросы надёжности в ИИ включают создание систем, устойчивых к редким или внезапным ситуациям («робастность к чёрным лебедям»), а также защиту от злонамеренных воздействий (адверсариальная надёжность).
Далее подробно рассматриваются подпроблемы:
- Надёжность при «чёрных лебедях»: поведение системы при редких и ранее не встречавшихся сценариях.
- Адверсариальная надёжность: устойчивость к специально сконструированным входным данным, вызывающим сбой.
Редкие входные ситуации могут привести к катастрофическим сбоям. Например, во время Flash Crash 2010 года автоматизированные торговые системы необычно резко отреагировали на рыночные колебания, что привело к обрушению стоимости акций почти на триллион долларов за несколько минут[30]. Для подобных аварий не обязателен полный сдвиг распределения данных. Такие отказы неизбежны из-за длинный хвост (распределение) в реальных данных[31]. Так называемые «краевые случаи» затрудняют разработку беспилотников, когда, например, машина не распознаёт знак «Стоп», выполненный в виде светодиодной панели[32]. Некоторые исследователи отмечают, что даже люди часто не справляются с беспрецедентными событиями (например, пандемия COVID-19), и робастность к чёрным лебедям останется актуальной проблемой[29].