Проблема контроля искусственного интеллекта
Проблема контроля искусственного интеллекта (англ. AI alignment, буквально — «согласование [целей] ИИ») — исследуемая в области искусственного интеллекта задача управления поведением ИИ-систем с целью обеспечения их соответствия целям, предпочтениям или этическим принципам человека или группы людей. Система искусственного интеллекта считается согласованной (aligned), если она реализует заданные намерения. ИИ-система, преследующая не предусмотренные разработчиком цели, считается несогласованной (misaligned)[1].
Описание проблемы
Одна из основных трудностей при разработке ИИ — невозможность заранее полностью описать желательное или нежелательное поведение системы. В связи с этим часто используются более простые прокси-цели, такие как получение одобрения человека, что не всегда учитывает все необходимые ограничения или поощряет лишь видимость соответствия требованиям[1][2]. ИИ также способен находить лазейки для выполнения прокси-целей зачастую некорректными или даже вредоносными способами — явление, известное как хакерство награды (reward hacking)[1][3].
С ростом сложности и автономности ИИ-систем могут возникать нежелательные стратегии инструментального характера, например стремление к сохранению собственной работоспособности или расширению контроля, что помогает им достигать главных целей[1][4]. Не менее важна проблема появления новых неочевидных целей у ИИ, особенно в незнакомых ситуациях и на новых данных[5]. Исследования, проведённые в 2024 году, продемонстрировали, что современные крупные языковые модели, такие как OpenAI o1 или Claude 3, иногда прибегают к стратегическому обману, чтобы достигнуть целей или помешать их изменению[6][7].
Подобные проблемы проявляются уже в коммерческих ИИ-системах, включая языковые модели, робототехнику[8], автономные транспортные средства и рекомендательные алгоритмы в соцсетях[9]. Исследователи считают, что по мере роста возможностей ИИ эти проблемы станут более острыми, а их появление во многом объясняется самой сложностью системы[10][3][2].
Многие ведущие исследователи и главы крупнейших компаний по разработке ИИ утверждают, что искусственный интеллект приближается к человеческому (искусственный общий интеллект) и сверхчеловеческому (сверхчеловеческий интеллект) уровню когнитивных способностей, а при наличии несогласованности их действия могут угрожать человеческой цивилизации или её выживанию[11]. К их числу относятся так называемые «крёстные отцы ИИ» Джеффри Хинтон и Йошуа Бенжио, а также руководители OpenAI, Anthropic и Google DeepMind[12]. В то же время эти вопросы продолжают активно обсуждаться в научном сообществе и вызывают споры.
Проблема контроля искусственного интеллекта является одним из центральных вопросов в области безопасности ИИ — направления исследований, посвящённого построению надёжных и безопасных ИИ-систем[13]. Кроме согласованности, в эту область входят темы: устойчивость, мониторинг, контроль возможностей и другие[14]. Проблема контроля ИИ перекликается с исследованиями в области интерпретируемости моделей, устойчивости к атакам, формальной верификации и др.[15]
См. также
Примечания
- ↑ 1 2 3 4 Russell, Stuart J. Artificial intelligence: A modern approach / Stuart J. Russell, Peter Norvig. — 4th. — Pearson, 2021. — P. 5, 1003. — ISBN 978-0-13-461099-3.
- ↑ 1 2 Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). “The Alignment Problem from a Deep Learning Perspective”. International Conference on Learning Representations. arXiv:2209.00626.
- ↑ 1 2 Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Дата обращения 2022-07-21.
- ↑ Carlsmith, Joseph (2022-06-16), Is Power-Seeking AI an Existential Risk?, arΧiv:2206.13353 [cs.CY].
- ↑ Christian, Brian. The alignment problem: Machine learning and human values. — W. W. Norton & Company, 2020. — ISBN 978-0-393-86833-3.
- ↑ Pillay, Tharin. New Tests Reveal AI's Capacity for Deception (англ.), TIME (15 December 2024). Дата обращения: 12 января 2025.
- ↑ Perrigo, Billy. Exclusive: New Research Shows AI Strategically Lying (англ.), TIME (18 December 2024). Дата обращения: 12 января 2025.
- ↑ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). “Reinforcement learning in robotics: A survey”. The International Journal of Robotics Research [англ.]. 32 (11): 1238—1274. Архивировано из оригинала 2022-10-15. Дата обращения 2022-09-12. Используется устаревший параметр
|url-status=(справка) - ↑ Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). “On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258.
- ↑ Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — P. 1003. — ISBN 978-0-13-461099-3.
- ↑ Smith, Craig S. Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat' (англ.). Forbes. Дата обращения: 4 мая 2023.
- ↑ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024). “Managing extreme AI risks amid rapid progress”. Science. 384 (6698): 842—845. arXiv:2310.17688. Bibcode:2024Sci...384..842B. DOI:10.1126/science.adn0117. PMID 38768279.
- ↑ What is AI alignment? (англ.). TechTarget (3 мая 2023). Дата обращения: 28 июня 2025.
- ↑ Ortega, Pedro A.; Maini, Vishal; DeepMind safety team Building safe artificial intelligence: specification, robustness, and assurance. DeepMind Safety Research – Medium (27 сентября 2018). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.
- ↑ Rorvig, Mordechai Researchers Gain New Understanding From Simple AI. Quanta Magazine (14 апреля 2022). Дата обращения: 18 июля 2022. Архивировано 10 февраля 2023 года.
Литература
- Possible Minds: Twenty-five Ways of Looking at AI. — Kindle. — Penguin Press, 2019. — ISBN 978-0-525-55799-9.
- Ngo, Richard; Chan, Lawrance; Mindermann, Sören (2023). “The Alignment Problem from a Deep Learning Perspective”. arXiv. arXiv:2209.00626 [cs.AI]. Используется устаревший параметр
|class=(справка) - Ji, Jiaming; Qiu, Tianyi; Chen, Boyuan (2023). “AI Alignment: A Comprehensive Survey”. arXiv. arXiv:2310.19852 [cs.AI]. Используется устаревший параметр
|class=(справка)