Проблема контроля искусственного интеллекта

Проблема контроля искусственного интеллекта (англ. AI alignment, буквально — «согласование [целей] ИИ») — исследуемая в области искусственного интеллекта задача управления поведением ИИ-систем с целью обеспечения их соответствия целям, предпочтениям или этическим принципам человека или группы людей. Система искусственного интеллекта считается согласованной (aligned), если она реализует заданные намерения. ИИ-система, преследующая не предусмотренные разработчиком цели, считается несогласованной (misaligned)^[1].

Описание проблемы

Одна из основных трудностей при разработке ИИ — невозможность заранее полностью описать желательное или нежелательное поведение системы. В связи с этим часто используются более простые прокси-цели, такие как получение одобрения человека, что не всегда учитывает все необходимые ограничения или поощряет лишь видимость соответствия требованиям^[1]^[2]. ИИ также способен находить лазейки для выполнения прокси-целей зачастую некорректными или даже вредоносными способами — явление, известное как хакерство награды (reward hacking)^[1]^[3].

С ростом сложности и автономности ИИ-систем могут возникать нежелательные стратегии инструментального характера, например стремление к сохранению собственной работоспособности или расширению контроля, что помогает им достигать главных целей^[1]^[4]. Не менее важна проблема появления новых неочевидных целей у ИИ, особенно в незнакомых ситуациях и на новых данных^[5]. Исследования, проведённые в 2024 году, продемонстрировали, что современные крупные языковые модели, такие как OpenAI o1 или Claude 3, иногда прибегают к стратегическому обману, чтобы достигнуть целей или помешать их изменению^[6]^[7].

Подобные проблемы проявляются уже в коммерческих ИИ-системах, включая языковые модели, робототехнику^[8], автономные транспортные средства и рекомендательные алгоритмы в соцсетях^[9]. Исследователи считают, что по мере роста возможностей ИИ эти проблемы станут более острыми, а их появление во многом объясняется самой сложностью системы^[10]^[3]^[2].

Многие ведущие исследователи и главы крупнейших компаний по разработке ИИ утверждают, что искусственный интеллект приближается к человеческому (искусственный общий интеллект) и сверхчеловеческому (сверхчеловеческий интеллект) уровню когнитивных способностей, а при наличии несогласованности их действия могут угрожать человеческой цивилизации или её выживанию^[11]. К их числу относятся так называемые «крёстные отцы ИИ» Джеффри Хинтон и Йошуа Бенжио, а также руководители OpenAI, Anthropic и Google DeepMind^[12]. В то же время эти вопросы продолжают активно обсуждаться в научном сообществе и вызывают споры.

Проблема контроля искусственного интеллекта является одним из центральных вопросов в области безопасности ИИ — направления исследований, посвящённого построению надёжных и безопасных ИИ-систем^[13]. Кроме согласованности, в эту область входят темы: устойчивость, мониторинг, контроль возможностей и другие^[14]. Проблема контроля ИИ перекликается с исследованиями в области интерпретируемости моделей, устойчивости к атакам, формальной верификации и др.^[15]

См. также

Человеко-ориентированный искусственный интеллект

Примечания

↑ ¹ ² ³ ⁴ Russell, Stuart J. Artificial intelligence: A modern approach / Stuart J. Russell, Peter Norvig. — 4th. — Pearson, 2021. — P. 5, 1003. — ISBN 978-0-13-461099-3.
↑ ¹ ² Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). “The Alignment Problem from a Deep Learning Perspective”. International Conference on Learning Representations. arXiv:2209.00626.
↑ ¹ ² Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Дата обращения 2022-07-21.
↑ Carlsmith, Joseph (2022-06-16), Is Power-Seeking AI an Existential Risk?, arΧiv:2206.13353 [cs.CY].
↑ Christian, Brian. The alignment problem: Machine learning and human values. — W. W. Norton & Company, 2020. — ISBN 978-0-393-86833-3.
↑ Pillay, Tharin. New Tests Reveal AI's Capacity for Deception (англ.), TIME (15 December 2024). Дата обращения: 12 января 2025.
↑ Perrigo, Billy. Exclusive: New Research Shows AI Strategically Lying (англ.), TIME (18 December 2024). Дата обращения: 12 января 2025.
↑ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). “Reinforcement learning in robotics: A survey”. The International Journal of Robotics Research [англ.]. 32 (11): 1238—1274. Архивировано из оригинала 2022-10-15. Дата обращения 2022-09-12. Используется устаревший параметр |url-status= (справка)
↑ Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). “On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258.
↑ Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — P. 1003. — ISBN 978-0-13-461099-3.
↑ Smith, Craig S. Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat' (англ.). Forbes. Дата обращения: 4 мая 2023.
↑ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024). “Managing extreme AI risks amid rapid progress”. Science. 384 (6698): 842—845. arXiv:2310.17688. Bibcode:2024Sci...384..842B. DOI:10.1126/science.adn0117. PMID 38768279.
↑ What is AI alignment? (англ.). TechTarget (3 мая 2023). Дата обращения: 28 июня 2025.
↑ Ortega, Pedro A.; Maini, Vishal; DeepMind safety team Building safe artificial intelligence: specification, robustness, and assurance (неопр.). DeepMind Safety Research – Medium (27 сентября 2018). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.
↑ Rorvig, Mordechai Researchers Gain New Understanding From Simple AI (неопр.). Quanta Magazine (14 апреля 2022). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.

Литература

Possible Minds: Twenty-five Ways of Looking at AI. — Kindle. — Penguin Press, 2019. — ISBN 978-0-525-55799-9.
Ngo, Richard; Chan, Lawrance; Mindermann, Sören (2023). “The Alignment Problem from a Deep Learning Perspective”. arXiv. arXiv:2209.00626 [cs.AI]. Используется устаревший параметр |class= (справка)
Ji, Jiaming; Qiu, Tianyi; Chen, Boyuan (2023). “AI Alignment: A Comprehensive Survey”. arXiv. arXiv:2310.19852 [cs.AI]. Используется устаревший параметр |class= (справка)

[aima4-1] ¹ ² ³ ⁴ Russell, Stuart J. Artificial intelligence: A modern approach / Stuart J. Russell, Peter Norvig. — 4th. — Pearson, 2021. — P. 5, 1003. — ISBN 978-0-13-461099-3.

[dlp2023-2] ¹ ² Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). “The Alignment Problem from a Deep Learning Perspective”. International Conference on Learning Representations. arXiv:2209.00626.

[mmmm2022-3] ¹ ² Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Дата обращения 2022-07-21.

[Carlsmith2022-4] Carlsmith, Joseph (2022-06-16), Is Power-Seeking AI an Existential Risk?, arΧiv:2206.13353 [cs.CY].

[Christian2020-5] Christian, Brian. The alignment problem: Machine learning and human values. — W. W. Norton & Company, 2020. — ISBN 978-0-393-86833-3.

[6] Pillay, Tharin. New Tests Reveal AI's Capacity for Deception (англ.), TIME (15 December 2024). Дата обращения: 12 января 2025.

[7] Perrigo, Billy. Exclusive: New Research Shows AI Strategically Lying (англ.), TIME (18 December 2024). Дата обращения: 12 января 2025.

[8] Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). “Reinforcement learning in robotics: A survey”. The International Journal of Robotics Research [англ.]. 32 (11): 1238—1274. Архивировано из оригинала 2022-10-15. Дата обращения 2022-09-12. Используется устаревший параметр |url-status= (справка)

[Opportunities_Risks-9] Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). “On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258.

[AIMA-10] Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — P. 1003. — ISBN 978-0-13-461099-3.

[:2-11] Smith, Craig S. Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat' (англ.). Forbes. Дата обращения: 4 мая 2023.

[12] Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024). “Managing extreme AI risks amid rapid progress”. Science. 384 (6698): 842—845. arXiv:2310.17688. Bibcode:2024Sci...384..842B. DOI:10.1126/science.adn0117. PMID 38768279.

[13] What is AI alignment? (англ.). TechTarget (3 мая 2023). Дата обращения: 28 июня 2025.

[building2018-14] Ortega, Pedro A.; Maini, Vishal; DeepMind safety team Building safe artificial intelligence: specification, robustness, and assurance (неопр.). DeepMind Safety Research – Medium (27 сентября 2018). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.

[:333-15] Rorvig, Mordechai Researchers Gain New Understanding From Simple AI (неопр.). Quanta Magazine (14 апреля 2022). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]