Безопасность искусственного интеллекта
Безопасность искусственного интеллекта (англ. AI Safety) — это междисциплинарное направление, связанное с предотвращением аварий, злоупотреблений или иных опасных последствий, которые могут возникнуть при использовании систем искусственного интеллекта (ИИ). В понятие включаются этотика машин и согласование ИИ (англ. AI alignment), цель которых — сделать системы ИИ морально приемлемыми и полезными. Также затрагиваются технические вопросы, такие как контроль рисков и обеспечение высокой надёжности работы систем. Кроме исследований по ИИ, безопасность искусственного интеллекта предполагает разработку стандартов и политик, способствующих безопасному использованию технологий ИИ.
Мотивация
Исследователи в области искусственного интеллекта расходятся во мнениях относительно серьёзности и основных источников рисков, связанных с этой технологией[1][2][3], однако опросы показывают, что эксперты серьёзно относятся к рискам крупных катастроф. В двух исследованиях респонденты были в целом оптимистичны относительно искусственного интеллекта, однако оценивали вероятность крайне негативного сценария («чрезвычайно неблагоприятный итог, например, гибель человечества») от развития передового ИИ в 5 %[1]. В опросе 2022 года среди специалистов по обработке естественного языка (англ. NLP) 37 % согласились или частично согласились, что решения ИИ могут привести к катастрофе «по крайней мере не меньшей, чем последствия тотальной ядерной войны»[4].
Учёные обсуждают существующие риски отказов в критически важных системах[5], предвзятость (bias)[6], слежку с помощью ИИ[7], технологически обусловленную безработицу, цифровые манипуляции[8], милитаризацию ИИ[9] и гипотетические риски потери контроля над будущими агентами общего искусственного интеллекта[10].
Некоторые специалисты, такие как профессор Стэнфордского университета Эндрю Ын, скептически относятся к опасениям относительно ОИИ, сравнивая их с «беспокойством о перенаселении Марса, на котором мы ещё даже не побывали»[11]. Другие, например профессор Калифорнийского университета в Беркли Стюарт Дж. Рассел, призывают к осторожности: «лучше переоценить человеческую изобретательность, чем недооценить её»[12].
История
Вопросы риска при создании искусственного интеллекта начали всерьёз обсуждаться уже в раннюю компьютерную эпоху. Например:
«Кроме того, если мы будем двигаться в направлении создания машин, способных к обучению, поведение которых модифицируется опытом, нам придётся признать, что каждая степень независимости, которую мы даём машине — это степень потенциального конфликта с нашими желаниями». — Норберт Винер, 1949[13]
В 2008–2009 годах Ассоциация содействия развитию искусственного интеллекта (англ. AAAI) провела исследование для анализа долгосрочных социальных последствий развития ИИ. Комитет отнёсся скептически к радикальным версиям, популярным у авторов научной фантастики, но признал важность дальнейших исследований методов понимания и верификации поведения сложных вычислительных систем для минимизации неожиданных результатов[14].
В 2011 году Роман Ямпольский ввёл термин «инженерия безопасности ИИ» (англ. AI safety engineering)[15] на конференции по философии и теории искусственного интеллекта[16], где был представлен перечень предыдущих сбоев систем ИИ и выдвинут тезис о неизбежном росте частоты и тяжести таких событий по мере совершенствования ИИ[17].
В 2014 году философ Ник Бостром опубликовал книгу Superintelligence: Paths, Dangers, Strategies («Суперинтеллект: пути, опасности, стратегии»), где показал, что системы, способные к сверхчеловеческим способностям, могут нести экзистенциальную угрозу человечеству. После этого Илон Маск[18], Билл Гейтс[19] и Стивен Хокинг[20] публично высказали схожие предупреждения.
В 2015 году десятки ведущих специалистов по искусственному интеллекту подписали Открытое письмо о развитии искусственного интеллекта, призывая к исследованию социальных последствий ИИ и обсуждая конкретные руководящие принципы[21]. Это письмо позже подписали более 8000 человек, включая Яна Лекуна, Шейна Легга, Йошуа Бенджио и Стюарта Дж. Рассела.
В том же году в Беркли (США) был создан Центр исследований согласования искусственного интеллекта с человеческими ценностями, и Институт Future of Life выделил 6,5 млн долларов на исследования по обеспечению безопасности, этичности и пользы искусственного интеллекта[22].
В 2016 году Белый дом США и Университет Карнеги — Меллон провели публичный семинар по вопросам безопасности и управлению ИИ[23], а также ряд тематических семинаров по изучению преимуществ и сложностей использования ИИ[24]. В этом же году опубликован отчёт Concrete Problems in AI Safety (Конкретные проблемы безопасности ИИ), ставший одной из первых технических и наиболее влиятельных повесток в данной области[25].
В 2017 году при поддержке Future of Life Institute прошла конференция Asilomar по благоприятному искусственному интеллекту, где был сформулирован ряд принципов, включая «избегать гонки: команды, создающие ИИ, должны активно сотрудничать, чтобы не допустить снижения стандартов безопасности»[26].
В 2018 году команда из DeepMind обозначила ключевые проблемы безопасности ИИ как вопросы спецификации, надёжности и проверки[27]. В 2019 году исследователи организовали специальный семинар по этим темам на Международной конференции по обучению представлений (ICLR)[28].
Основные направления исследований
Ключевыми областями исследований по безопасности ИИ являются надёжность, мониторинг и согласование[27][29]. Надёжность связана с обеспечением корректного поведения систем в нетипичных ситуациях, мониторинг — с предвидением и предотвращением сбоев, а согласование — с гарантией, что цели системы полезны для людей.
Вопросы надёжности в ИИ включают создание систем, устойчивых к редким или внезапным ситуациям («робастность к чёрным лебедям»), а также защиту от злонамеренных воздействий (адверсариальная надёжность).
Далее подробно рассматриваются подпроблемы:
- Надёжность при «чёрных лебедях»: поведение системы при редких и ранее не встречавшихся сценариях.
- Адверсариальная надёжность: устойчивость к специально сконструированным входным данным, вызывающим сбой.
Редкие входные ситуации могут привести к катастрофическим сбоям. Например, во время Flash Crash 2010 года автоматизированные торговые системы необычно резко отреагировали на рыночные колебания, что привело к обрушению стоимости акций почти на триллион долларов за несколько минут[30]. Для подобных аварий не обязателен полный сдвиг распределения данных. Такие отказы неизбежны из-за длинный хвост (распределение) в реальных данных[31]. Так называемые «краевые случаи» затрудняют разработку беспилотников, когда, например, машина не распознаёт знак «Стоп», выполненный в виде светодиодной панели[32]. Некоторые исследователи отмечают, что даже люди часто не справляются с беспрецедентными событиями (например, пандемия COVID-19), и робастность к чёрным лебедям останется актуальной проблемой[29].
Cм. также
Примечания
- ↑ 1 2 Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 июля 2018). “Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts”. Journal of Artificial Intelligence Research. 62: 729—754. DOI:10.1613/jair.1.11222. ISSN 1076-9757. Архивировано из оригинала 2023-02-10. Дата обращения 2022-11-28.
- ↑ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 мая 2021). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. arXiv:2105.02117.
- ↑ 2022 Expert Survey on Progress in AI (англ.). AI Impacts (4 августа 2022). Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 августа 2022). “What Do NLP Researchers Believe? Results of the NLP Community Metasurvey”. arXiv:2208.12852.
- ↑ De-Arteaga, Maria (13 мая 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) [англ.]. Carnegie Mellon University.
- ↑ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). “A Survey on Bias and Fairness in Machine Learning”. ACM Computing Surveys [англ.]. 54 (6): 1—35. DOI:10.1145/3457607. ISSN 0360-0300. Архивировано из оригинала 2022-11-23. Дата обращения 2022-11-28.
- ↑ Feldstein, Steven (2019), 'The Global Expansion of AI Surveillance', Carnegie Endowment for International Peace.
- ↑ “Risks from AI persuasion”. Lesswrong [англ.]. 2021. Архивировано из оригинала 2022-11-23. Дата обращения 2022-11-23.
- ↑ Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 апреля 2018). “The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation”. Apollo - University of Cambridge Repository. DOI:10.17863/cam.22520. Архивировано из оригинала 2022-11-23. Дата обращения 2022-11-28.
- ↑ Carlsmith, Joseph (16 июня 2022). “Is Power-Seeking AI an Existential Risk?” [англ.]. arXiv:2206.13353.
- ↑ Shermer, Michael Artificial Intelligence Is Not a Threat---Yet (англ.). Scientific American (2017). Дата обращения: 23 ноября 2022. Архивировано 1 декабря 2017 года.
- ↑ Dafoe, Allan Yes, We Are Worried About the Existential Risk of Artificial Intelligence (англ.). MIT Technology Review (2 ноября 2016). Дата обращения: 28 ноября 2022. Архивировано 28 ноября 2022 года.
- ↑ Markoff, John. In 1949, He Imagined an Age of Robots (англ.) (20 мая 2013). Архивировано 23 ноября 2022 года. Дата обращения: 23 ноября 2022.
- ↑ AAAI AAAI Presidential Panel on Long-Term AI Futures (англ.). Дата обращения: 23 ноября 2022. Архивировано 1 сентября 2022 года.
- ↑ Yampolskiy, Roman V.; Spellchecker, M. S. (25 октября 2016). “Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures” [англ.]. arXiv:1610.07997.
- ↑ PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011). Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ Yampolskiy, Roman V. Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach. — Springer Berlin Heidelberg, 2013. — Vol. 5. — P. 389–396. — ISBN 978-3-642-31673-9. — doi:10.1007/978-3-642-31674-6_29.
- ↑ Elon Musk [elonmusk]. Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes. [твит]. Твиттер (3 августа 2014).
- ↑ Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015.
- ↑ Cellan-Jones, Rory. Stephen Hawking warns artificial intelligence could end mankind, BBC News (2 декабря 2014). Архивировано 30 октября 2015 года. Дата обращения: 23 ноября 2022.
- ↑ Future of Life Institute Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter (англ.). Future of Life Institute. Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ Future of Life Institute AI Research Grants Program (англ.). Future of Life Institute. Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ SafArtInt 2016 (англ.). Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ Bach, Deborah UW to host first of four White House public workshops on artificial intelligence. UW News (2016). Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 июля 2016). “Concrete Problems in AI Safety”. arXiv:1606.06565.
- ↑ Future of Life Institute AI Principles (англ.). Future of Life Institute. Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ 1 2 DeepMind Safety Research Building safe artificial intelligence: specification, robustness, and assurance (англ.). Medium (27 сентября 2018). Дата обращения: 23 ноября 2022. Архивировано 10 февраля 2023 года.
- ↑ SafeML ICLR 2019 Workshop (англ.). Дата обращения: 23 ноября 2022. Архивировано 23 ноября 2022 года.
- ↑ 1 2 Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 июня 2022). “Unsolved Problems in ML Safety”. arXiv:2109.13916.
- ↑ Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017). “The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash”. The Journal of Finance. 72 (3): 967—998. DOI:10.1111/jofi.12498. Архивировано из оригинала 2022-11-24. Дата обращения 2022-11-28.
- ↑ Newman, Mej (2005). “Power laws, Pareto distributions and Zipf's law”. Contemporary Physics. 46: 323—351. arXiv:cond-mat/0412004. DOI:10.1080/00107510500052444. ISSN 0010-7514. Архивировано из оригинала 2022-11-16. Дата обращения 2022-11-28.
- ↑ Eliot, Lance Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars (англ.). Forbes. Дата обращения: 24 ноября 2022. Архивировано 24 ноября 2022 года.