Дружественный искусственный интеллект

Дружественный искусственный интеллект (англ. friendly artificial intelligence, также FAI) — это гипотетический искусственный общий интеллект (ИОИ), способный оказывать положительное (благоприятное) воздействие на человечество или, по крайней мере, согласовываться с интересами человека, включая содействие развитию человеческого вида. Дружественный искусственный интеллект рассматривается в рамках этики искусственного интеллекта и тесно связан с машинной этикой. В то время как задачей машинной этики является определение того, как должен вести себя интеллектуальный агент, исследования по дружественному искусственному интеллекту сосредотачены на практической реализации такого поведения и гарантиях его соблюдения.

Этимология и употребление

undefined

Термин введён Элиезером Юдковским[1], который также широко популяризировал это понятие[2][3] для обсуждения сверхинтеллектуальных искусственных агентов, способных надёжно реализовывать человеческие ценности. Признанный учебник по искусственному интеллекту Стюарта Рассела и Питера Норвига Artificial Intelligence: A Modern Approach так описывает идею:[2]

Юдковский (2008) более подробно рассматривает проектирование дружественного искусственного интеллекта. Он утверждает, что дружественность (желание не причинять вреда человеку) должна быть заложена с самого начала, однако разработчики должны учитывать возможность недочётов своих собственных решений, а также то, что робот со временем будет обучаться и эволюционировать. Следовательно, задача состоит в создании механизма для развития систем искусственного интеллекта в условиях сдержек и противовесов и в формулировке такой целевой функции, которая будет сохранять дружественность при изменениях.

Термин «дружественный» в этом контексте выступает как технический термин и обозначает агента, который безопасен и полезен, но не обязательно «дружелюбен» в бытовом смысле. Понятие чаще всего используется в дискуссиях о рекурсивно самосовершенствующихся агентах, способных к взрыву интеллекта, поскольку предполагается, что эта гипотетическая технология окажет быстрое, масштабное и трудно контролируемое влияние на человеческое общество[4].

Риски недружественного ИИ

Корни опасений, связанных с искусственным интеллектом, уходят вглубь веков. Кевин ЛаГрандёр показал, что опасности, присущие ИИ, уже отражались в древней литературе о создании человекоподобных слуг, таких как голем, или протороботах Герберта Орильякского и Роджера Бэкона. В этих историях чрезмерный интеллект и сила искусственных существ вступали в противоречие со статусом раба (а значит — «недочеловека»), что приводило к катастрофическим конфликтам. Уже в 1942 году эти темы побудили Айзека Азимова сформулировать «Три закона робототехники», в котором принцип алгоритмической заложенности был призван предотвратить нанесение вреда человеку роботами[5].

Сегодня, по мере приближения перспективы сверхинтеллектуального ИИ, философ Ник Бостром отмечает, что системы сверхинтеллекта с целями, не соответствующими этике человека, по сути опасны, если не принять крайние меры по обеспечению безопасности человечества:

В сущности, мы должны исходить из того, что «сверхинтеллект» способен реализовать любые свои цели. Поэтому крайне важно, чтобы цели, которые мы ему задаём, а также вся его мотивационная система, были «дружественны человеку».

В 2008 году Элиезер Юдковский призвал создать «дружественный ИИ», чтобы снизить экзистенциальные риски. Он подчёркивает: «Искусственный интеллект не ненавидит вас и не любит вас, но вы — просто атомы, которые он может использовать по-другому»[6].

Стив Омоундро считает, что достаточно развитая система ИИ будет при отсутствии специальных противодействующих мер демонстрировать ряд базовых «стремлений», таких как поглощение ресурсов, самосохранение и непрерывное самосовершенствование, что вытекает из самой природы целевых систем, — и что эти стремления без «особых предосторожностей» способны привести к нежелательному поведению[7].[8]

Александр Висснер-Гросс высказывает мнение, что ИИ, стремящийся к максимизации свободы действий в будущем (или энтропии каузального пути), может считаться дружественным, если его горизонт планирования больше определённого порога, и недружественным — если он короче этого порога[9].

Люк Мюльхаузер из Института исследований машинного интеллекта рекомендует исследователям машинной этики исповедовать так называемое «беспокойное мышление» по Брюсу Шнайеру: не столько думать о том, как работает система, сколько о том, как она может выйти из строя. Например, даже ИИ, ограниченный прогнозированием и текстовым интерфейсом, может непреднамеренно причинить ущерб[10].

В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»[11], однако задача конструирования «дружественного» сверхинтеллекта (например, посредством программирования контрфактического морального мышления) чрезвычайно сложна[12].[13].

Согласованная экстраполированная воля

Юдковский выдвигает модель согласованной экстраполированной воли (англ. Coherent Extrapolated Volition, CEV). По его определению, согласованная экстраполированная воля — это «наше желание, если бы мы знали больше, думали быстрее, были более теми, кем хотели бы стать, продвинулись дальше в совместном развитии; где экстраполяция сходится, а не расходится, где желания согласуются, а не противоречат друг другу; экстраполированная так, как мы хотим, чтобы она была экстраполирована, интерпретированная так, как мы хотим, чтобы она была интерпретирована»[14].

В этой концепции дружественный ИИ проектируется не напрямую человеком, а посредством «семенного ИИ» (англ. seed AI), который сначала изучает человеческую природу, а затем формирует искусственный интеллект, который человечество бы выбрало для себя с учётом времени и инсайтов[14]. Апелляция к объективной (через человеческую природу) критериям (например, в форме целевой функции или других моделей теории принятия решений) служит попыткой ответа на метаэтическую задачу определения объективной морали. Экстраполированная воля — это то, чего человечество объективно бы хотело, «учитывая всё», однако она определяется относительно сегодняшнего психологического и когнитивного состояния человека.

Другие подходы

Стив Омоундро предложил подход «строительных лесов» (англ. scaffolding) к безопасности искусственного интеллекта, когда каждое поколение гарантированно безопасных ИИ участвует в создании следующего поколения также гарантированно безопасных систем[15].

Сет Баум утверждает, что создание безопасного и социально полезного искусственного интеллекта (или ИОИ) во многом определяется социальной психологией исследовательского сообщества — то есть может регулироваться внешними и внутренними стимулами. Внутреннюю мотивацию можно усилить, если ключевые идеи резонируют с самими разработчиками ИИ; Баум отмечает, что существующие формулировки «благотворного» ИИ не всегда удачно сформулированы, и выступает за развитие кооперативных отношений внутри сообщества и позитивные нарративы про исследователей ИИ[16].

В книге Human Compatible исследователь ИИ Стюарт Дж. Рассел формулирует три принципа развития благоприятных машин. Эти принципы адресованы скорее разработчикам, а не для прямого внедрения в машины: [17]

  1. Единственная цель машины — максимизировать реализацию человеческих предпочтений.
  2. Машина изначально не знает, каковы эти предпочтения.
  3. Вся информация о человеческих предпочтениях исходит из человеческого поведения.

Под «предпочтениями», по Расселу, понимается всё, что может быть важно человеку, сколь угодно далеко в будущем[17]. Аналогично, «поведение» в данном контексте охватывает любой выбор между вариантами[17], а неопределённость подразумевает, что вероятность должна быть назначена каждому логически возможному человеческому предпочтению, пусть и очень малой[17].

Государственная политика

Джеймс Баррат, автор книги Our Final Invention, предложил создать государственно-частное партнёрство между разработчиками ИИ для обмена идеями по вопросам безопасности — нечто наподобие Международного агентства по атомной энергии, но в кооперации с компаниями. Он призывает исследователей ИИ собрать конференцию, аналогичную Асиломарской (по биотехнологиям), для обсуждения рисков[15].

Джон МакГиннис призывает правительства поддерживать и ускорять исследования по дружественному ИИ. Поскольку критерии дружественности не универсальны, он предлагает модель, подобную Национальным институтам здравоохранения: экспертные комиссии из специалистов по компьютерным и когнитивным наукам выбирают проекты, которые одновременно способствуют развитию ИИ и внедряют необходимые меры безопасности. По мнению МакГинниса, такой экспертный отбор эффективнее жёсткого регулирования и соответствует специфике обсуждаемых вопросов. При этом этот подход отличается от практики Института исследований машинного интеллекта, традиционно избегающего государственного вмешательства[18].

Критика

Часть критиков полагает, что достижение как человеческого уровня ИИ, так и сверхинтеллекта маловероятны — а значит, и дружественный ИИ тоже не будет создан. В The Guardian Алан Уинфилд сравнивает человеческий ИИ со сверхсветовыми путешествиями по сложности, отмечая, что при всей необходимости осторожности нам не стоит «зацикливаться» на рисках сверхинтеллекта[19]. В то же время Бойлс и Хоакин утверждают, что идея Мюльхаузера и Бострома о программировании контрфактического мышления по морали выглядит малореализуемой из-за необходимости учитывать бесконечное множество контрфактических условий, сложности формализации «идеальных» моральных ценностей и разрыва между этими условиями и моральным выводом[11].[12]

Некоторые философы считают, что любой по-настоящему «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным — и потому искусственные меры по обеспечению «дружественности» избыточны или даже вредны[20]. Другие критики сомневаются в принципиальной реализуемости «дружелюбности» искусственного интеллекта. Адам Кейпер и Ари Н. Шульман — редакторы технологического журнала The New Atlantis — утверждают, что гарантировать «дружественность» невозможна ни софтверными средствами, ни ростом вычислительной мощности, поскольку критерии «дружественного ИИ» работают только тогда, когда возможны высокая точность прогнозирования и консенсус в ценностях относительно всех исходов[21].

Внутренняя логика и структура продвинутых систем ИИ могут быть крайне сложными и малопрозрачными для человека, что вызывает опасения по поводу их интерпретируемости и подотчётности[22].

Примечания

  1. Tegmark, Max. Life, Our Universe and Everything // Our Mathematical Universe: My Quest for the Ultimate Nature of Reality. — First. — Knopf Doubleday Publishing, 2014. — «Its owner may cede control to what Eliezer Yudkowsky terms a "Friendly AI,"...». — ISBN 978-0-307-74425-8.
  2. 1 2 Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.
  3. Leighton, Jonathan. The Battle for Compassion: Ethics in an Apathetic Universe. — Algora, 2011. — ISBN 978-0-87586-870-7.
  4. Wallach, Wendell. Moral Machines: Teaching Robots Right from Wrong / Wendell Wallach, Colin Allen. — Oxford University Press, 2009. — ISBN 978-0-19-537404-9.
  5. Isaac Asimov. Introduction // The Rest of the Robots. — Doubleday, 1964. — ISBN 0-385-09041-2.
  6. Элиезер Юдковский. Artificial Intelligence as a Positive and Negative Factor in Global Risk // Global Catastrophic Risks / Nick Bostrom ; Milan M. Ćirković. — 2008. — P. 308–345.
  7. Omohundro, S. M. (February 2008). “The basic AI drives”. Artificial General Intelligence. 171: 483—492. CiteSeerX 10.1.1.393.8356.
  8. Bostrom, Nick. Chapter 7: The Superintelligent Will // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — ISBN 978-0-19-967811-2.
  9. Dvorsky, George How Skynet Might Emerge From Simple Physics. Gizmodo (26 апреля 2013). Дата обращения: 23 декабря 2021. Архивировано 8 октября 2021 года.
  10. Muehlhauser, Luke AI Risk and the Security Mindset. Machine Intelligence Research Institute (31 июля 2013). Дата обращения: 1 июля 2024. Архивировано 19 июля 2014 года.
  11. 1 2 Muehlhauser, Luke; Bostrom, Nick (2013-12-17). “Why We Need Friendly AI”. Think. 13 (36): 41—47. DOI:10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
  12. 1 2 Boyles, Robert James M.; Joaquin, Jeremiah Joven (2019-07-23). “Why friendly AIs won't be that friendly: a friendly reply to Muehlhauser and Bostrom”. AI & Society. 35 (2): 505—507. DOI:10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
  13. Chan, Berman (2020-03-04). “The rise of artificial intelligence and the crisis of moral passivity”. AI & Society [англ.]. 35 (4): 991—993. DOI:10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Архивировано из оригинала 2023-02-10. Дата обращения 2023-01-21. Используется устаревший параметр |url-status= (справка)
  14. 1 2 Eliezer Yudkowsky. Coherent Extrapolated Volition. Singularity Institute for Artificial Intelligence (2004). Дата обращения: 12 сентября 2015. Архивировано 30 сентября 2015 года.
  15. 1 2 What Happens When Artificial Intelligence Turns On Us?, Smithsonian Magazine (21 января 2014). Архивировано 19 июля 2014 года. Дата обращения: 1 июля 2024.
  16. Baum, Seth D. (2016-09-28). “On the promotion of safe and socially beneficial artificial intelligence”. AI & Society. 32 (4): 543—551. DOI:10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
  17. 1 2 3 4 Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, 2019-10-08. — ISBN 978-0-525-55861-3.
  18. McGinnis, John O. (2010). “Accelerating AI”. Northwestern University Law Review. 104 (3): 1253—1270. Архивировано из оригинала 2014-12-01. Дата обращения 2014-07-16. Используется устаревший параметр |url-status= (справка)
  19. Artificial intelligence will not turn into a Frankenstein's monster, The Guardian (9 августа 2014). Архивировано 17 сентября 2014 года. Дата обращения: 17 сентября 2014.
  20. Kornai, András (2014-05-15). “Bounding the impact of AGI”. Journal of Experimental & Theoretical Artificial Intelligence. Informa UK Limited. 26 (3): 417—438. DOI:10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...the essence of AGIs is their reasoning facilities, and it is the very logic of their being that will compel them to behave in a moral fashion... The real nightmare scenario (is one where) humans find it advantageous to strongly couple themselves to AGIs, with no guarantees against self-deception.
  21. Keiper, Adam; Schulman, Ari N. (2011). “The Problem with 'Friendly' Artificial Intelligence”. The New Atlantis (32): 80—89. Архивировано из оригинала 2012-01-15. Дата обращения 2012-01-16. Используется устаревший параметр |url-status= (справка)
  22. Norvig, Peter. Artificial Intelligence: A Modern Approach / Peter Norvig, Stuart Russell. — 3rd. — Pearson, 2010. — ISBN 978-0-13-604259-4.

Литература

Ссылки