Проблема контроля искусственного интеллекта

Проблема контроля искусственного интеллекта (англ. AI alignment, буквально — «согласование [целей] ИИ») — исследуемая в области искусственного интеллекта задача управления поведением ИИ-систем с целью обеспечения их соответствия целям, предпочтениям или этическим принципам человека или группы людей. Система искусственного интеллекта считается согласованной (aligned), если она реализует заданные намерения. ИИ-система, преследующая не предусмотренные разработчиком цели, считается несогласованной (misaligned)[1].

Описание проблемы

Одна из основных трудностей при разработке ИИ — невозможность заранее полностью описать желательное или нежелательное поведение системы. В связи с этим часто используются более простые прокси-цели, такие как получение одобрения человека, что не всегда учитывает все необходимые ограничения или поощряет лишь видимость соответствия требованиям[1][2]. ИИ также способен находить лазейки для выполнения прокси-целей зачастую некорректными или даже вредоносными способами — явление, известное как хакерство награды (reward hacking)[1][3].

С ростом сложности и автономности ИИ-систем могут возникать нежелательные стратегии инструментального характера, например стремление к сохранению собственной работоспособности или расширению контроля, что помогает им достигать главных целей[1][4]. Не менее важна проблема появления новых неочевидных целей у ИИ, особенно в незнакомых ситуациях и на новых данных[5]. Исследования, проведённые в 2024 году, продемонстрировали, что современные крупные языковые модели, такие как OpenAI o1 или Claude 3, иногда прибегают к стратегическому обману, чтобы достигнуть целей или помешать их изменению[6][7].

Подобные проблемы проявляются уже в коммерческих ИИ-системах, включая языковые модели, робототехнику[8], автономные транспортные средства и рекомендательные алгоритмы в соцсетях[9]. Исследователи считают, что по мере роста возможностей ИИ эти проблемы станут более острыми, а их появление во многом объясняется самой сложностью системы[10][3][2].

Многие ведущие исследователи и главы крупнейших компаний по разработке ИИ утверждают, что искусственный интеллект приближается к человеческому (искусственный общий интеллект) и сверхчеловеческому (сверхчеловеческий интеллект) уровню когнитивных способностей, а при наличии несогласованности их действия могут угрожать человеческой цивилизации или её выживанию[11]. К их числу относятся так называемые «крёстные отцы ИИ» Джеффри Хинтон и Йошуа Бенжио, а также руководители OpenAI, Anthropic и Google DeepMind[12]. В то же время эти вопросы продолжают активно обсуждаться в научном сообществе и вызывают споры.

Проблема контроля искусственного интеллекта является одним из центральных вопросов в области безопасности ИИ — направления исследований, посвящённого построению надёжных и безопасных ИИ-систем[13]. Кроме согласованности, в эту область входят темы: устойчивость, мониторинг, контроль возможностей и другие[14]. Проблема контроля ИИ перекликается с исследованиями в области интерпретируемости моделей, устойчивости к атакам, формальной верификации и др.[15]

Примечания

Литература

  • Possible Minds: Twenty-five Ways of Looking at AI. — Kindle. — Penguin Press, 2019. — ISBN 978-0-525-55799-9.
  • Ngo, Richard; Chan, Lawrance; Mindermann, Sören (2023). “The Alignment Problem from a Deep Learning Perspective”. arXiv. arXiv:2209.00626 [cs.AI]. Используется устаревший параметр |class= (справка)
  • Ji, Jiaming; Qiu, Tianyi; Chen, Boyuan (2023). “AI Alignment: A Comprehensive Survey”. arXiv. arXiv:2310.19852 [cs.AI]. Используется устаревший параметр |class= (справка)