Дружественный искусственный интеллект

Дружественный искусственный интеллект (англ. friendly artificial intelligence, также FAI) — это гипотетический искусственный общий интеллект (ИОИ), способный оказывать положительное (благоприятное) воздействие на человечество или, по крайней мере, согласовываться с интересами человека, включая содействие развитию человеческого вида. Дружественный искусственный интеллект рассматривается в рамках этики искусственного интеллекта и тесно связан с машинной этикой. В то время как задачей машинной этики является определение того, как должен вести себя интеллектуальный агент, исследования по дружественному искусственному интеллекту сосредотачены на практической реализации такого поведения и гарантиях его соблюдения.

Термин введён Элиезером Юдковским^[1], который также широко популяризировал это понятие^[2]^[3] для обсуждения сверхинтеллектуальных искусственных агентов, способных надёжно реализовывать человеческие ценности. Признанный учебник по искусственному интеллекту Стюарта Рассела и Питера Норвига Artificial Intelligence: A Modern Approach так описывает идею:^[2]

Юдковский (2008) более подробно рассматривает проектирование дружественного искусственного интеллекта. Он утверждает, что дружественность (желание не причинять вреда человеку) должна быть заложена с самого начала, однако разработчики должны учитывать возможность недочётов своих собственных решений, а также то, что робот со временем будет обучаться и эволюционировать. Следовательно, задача состоит в создании механизма для развития систем искусственного интеллекта в условиях сдержек и противовесов и в формулировке такой целевой функции, которая будет сохранять дружественность при изменениях.

Термин «дружественный» в этом контексте выступает как технический термин и обозначает агента, который безопасен и полезен, но не обязательно «дружелюбен» в бытовом смысле. Понятие чаще всего используется в дискуссиях о рекурсивно самосовершенствующихся агентах, способных к взрыву интеллекта, поскольку предполагается, что эта гипотетическая технология окажет быстрое, масштабное и трудно контролируемое влияние на человеческое общество^[4].

Корни опасений, связанных с искусственным интеллектом, уходят вглубь веков. Кевин ЛаГрандёр показал, что опасности, присущие ИИ, уже отражались в древней литературе о создании человекоподобных слуг, таких как голем, или протороботах Герберта Орильякского и Роджера Бэкона. В этих историях чрезмерный интеллект и сила искусственных существ вступали в противоречие со статусом раба (а значит — «недочеловека»), что приводило к катастрофическим конфликтам. Уже в 1942 году эти темы побудили Айзека Азимова сформулировать «Три закона робототехники», в котором принцип алгоритмической заложенности был призван предотвратить нанесение вреда человеку роботами^[5].

Сегодня, по мере приближения перспективы сверхинтеллектуального ИИ, философ Ник Бостром отмечает, что системы сверхинтеллекта с целями, не соответствующими этике человека, по сути опасны, если не принять крайние меры по обеспечению безопасности человечества:

В сущности, мы должны исходить из того, что «сверхинтеллект» способен реализовать любые свои цели. Поэтому крайне важно, чтобы цели, которые мы ему задаём, а также вся его мотивационная система, были «дружественны человеку».

В 2008 году Элиезер Юдковский призвал создать «дружественный ИИ», чтобы снизить экзистенциальные риски. Он подчёркивает: «Искусственный интеллект не ненавидит вас и не любит вас, но вы — просто атомы, которые он может использовать по-другому»^[6].

Стив Омоундро считает, что достаточно развитая система ИИ будет при отсутствии специальных противодействующих мер демонстрировать ряд базовых «стремлений», таких как поглощение ресурсов, самосохранение и непрерывное самосовершенствование, что вытекает из самой природы целевых систем, — и что эти стремления без «особых предосторожностей» способны привести к нежелательному поведению^[7].^[8]

Александр Висснер-Гросс высказывает мнение, что ИИ, стремящийся к максимизации свободы действий в будущем (или энтропии каузального пути), может считаться дружественным, если его горизонт планирования больше определённого порога, и недружественным — если он короче этого порога^[9].

Люк Мюльхаузер из Института исследований машинного интеллекта рекомендует исследователям машинной этики исповедовать так называемое «беспокойное мышление» по Брюсу Шнайеру: не столько думать о том, как работает система, сколько о том, как она может выйти из строя. Например, даже ИИ, ограниченный прогнозированием и текстовым интерфейсом, может непреднамеренно причинить ущерб^[10].

В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»^[11], однако задача конструирования «дружественного» сверхинтеллекта (например, посредством программирования контрфактического морального мышления) чрезвычайно сложна^[12].^[13].

Юдковский выдвигает модель согласованной экстраполированной воли (англ. Coherent Extrapolated Volition, CEV). По его определению, согласованная экстраполированная воля — это «наше желание, если бы мы знали больше, думали быстрее, были более теми, кем хотели бы стать, продвинулись дальше в совместном развитии; где экстраполяция сходится, а не расходится, где желания согласуются, а не противоречат друг другу; экстраполированная так, как мы хотим, чтобы она была экстраполирована, интерпретированная так, как мы хотим, чтобы она была интерпретирована»^[14].

В этой концепции дружественный ИИ проектируется не напрямую человеком, а посредством «семенного ИИ» (англ. seed AI), который сначала изучает человеческую природу, а затем формирует искусственный интеллект, который человечество бы выбрало для себя с учётом времени и инсайтов^[14]. Апелляция к объективной (через человеческую природу) критериям (например, в форме целевой функции или других моделей теории принятия решений) служит попыткой ответа на метаэтическую задачу определения объективной морали. Экстраполированная воля — это то, чего человечество объективно бы хотело, «учитывая всё», однако она определяется относительно сегодняшнего психологического и когнитивного состояния человека.

Стив Омоундро предложил подход «строительных лесов» (англ. scaffolding) к безопасности искусственного интеллекта, когда каждое поколение гарантированно безопасных ИИ участвует в создании следующего поколения также гарантированно безопасных систем^[15].

Сет Баум утверждает, что создание безопасного и социально полезного искусственного интеллекта (или ИОИ) во многом определяется социальной психологией исследовательского сообщества — то есть может регулироваться внешними и внутренними стимулами. Внутреннюю мотивацию можно усилить, если ключевые идеи резонируют с самими разработчиками ИИ; Баум отмечает, что существующие формулировки «благотворного» ИИ не всегда удачно сформулированы, и выступает за развитие кооперативных отношений внутри сообщества и позитивные нарративы про исследователей ИИ^[16].

В книге Human Compatible исследователь ИИ Стюарт Дж. Рассел формулирует три принципа развития благоприятных машин. Эти принципы адресованы скорее разработчикам, а не для прямого внедрения в машины: ^[17]

Единственная цель машины — максимизировать реализацию человеческих предпочтений.

Машина изначально не знает, каковы эти предпочтения.

Вся информация о человеческих предпочтениях исходит из человеческого поведения.

Под «предпочтениями», по Расселу, понимается всё, что может быть важно человеку, сколь угодно далеко в будущем^[17]. Аналогично, «поведение» в данном контексте охватывает любой выбор между вариантами^[17], а неопределённость подразумевает, что вероятность должна быть назначена каждому логически возможному человеческому предпочтению, пусть и очень малой^[17].

Джеймс Баррат, автор книги Our Final Invention, предложил создать государственно-частное партнёрство между разработчиками ИИ для обмена идеями по вопросам безопасности — нечто наподобие Международного агентства по атомной энергии, но в кооперации с компаниями. Он призывает исследователей ИИ собрать конференцию, аналогичную Асиломарской (по биотехнологиям), для обсуждения рисков^[15].

Джон МакГиннис призывает правительства поддерживать и ускорять исследования по дружественному ИИ. Поскольку критерии дружественности не универсальны, он предлагает модель, подобную Национальным институтам здравоохранения: экспертные комиссии из специалистов по компьютерным и когнитивным наукам выбирают проекты, которые одновременно способствуют развитию ИИ и внедряют необходимые меры безопасности. По мнению МакГинниса, такой экспертный отбор эффективнее жёсткого регулирования и соответствует специфике обсуждаемых вопросов. При этом этот подход отличается от практики Института исследований машинного интеллекта, традиционно избегающего государственного вмешательства^[18].

Часть критиков полагает, что достижение как человеческого уровня ИИ, так и сверхинтеллекта маловероятны — а значит, и дружественный ИИ тоже не будет создан. В The Guardian Алан Уинфилд сравнивает человеческий ИИ со сверхсветовыми путешествиями по сложности, отмечая, что при всей необходимости осторожности нам не стоит «зацикливаться» на рисках сверхинтеллекта^[19]. В то же время Бойлс и Хоакин утверждают, что идея Мюльхаузера и Бострома о программировании контрфактического мышления по морали выглядит малореализуемой из-за необходимости учитывать бесконечное множество контрфактических условий, сложности формализации «идеальных» моральных ценностей и разрыва между этими условиями и моральным выводом^[11].^[12]

Некоторые философы считают, что любой по-настоящему «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным — и потому искусственные меры по обеспечению «дружественности» избыточны или даже вредны^[20]. Другие критики сомневаются в принципиальной реализуемости «дружелюбности» искусственного интеллекта. Адам Кейпер и Ари Н. Шульман — редакторы технологического журнала The New Atlantis — утверждают, что гарантировать «дружественность» невозможна ни софтверными средствами, ни ростом вычислительной мощности, поскольку критерии «дружественного ИИ» работают только тогда, когда возможны высокая точность прогнозирования и консенсус в ценностях относительно всех исходов^[21].

Внутренняя логика и структура продвинутых систем ИИ могут быть крайне сложными и малопрозрачными для человека, что вызывает опасения по поводу их интерпретируемости и подотчётности^[22].

↑ Tegmark, Max. Life, Our Universe and Everything // Our Mathematical Universe: My Quest for the Ultimate Nature of Reality. — First. — Knopf Doubleday Publishing, 2014. — «Its owner may cede control to what Eliezer Yudkowsky terms a "Friendly AI,"...». — ISBN 978-0-307-74425-8.
↑ ¹ ² Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.
↑ Leighton, Jonathan. The Battle for Compassion: Ethics in an Apathetic Universe. — Algora, 2011. — ISBN 978-0-87586-870-7.
↑ Wallach, Wendell. Moral Machines: Teaching Robots Right from Wrong / Wendell Wallach, Colin Allen. — Oxford University Press, 2009. — ISBN 978-0-19-537404-9.
↑ Isaac Asimov. Introduction // The Rest of the Robots. — Doubleday, 1964. — ISBN 0-385-09041-2.
↑ Элиезер Юдковский. Artificial Intelligence as a Positive and Negative Factor in Global Risk // Global Catastrophic Risks / Nick Bostrom ; Milan M. Ćirković. — 2008. — P. 308–345.
↑ Omohundro, S. M. (February 2008). “The basic AI drives”. Artificial General Intelligence. 171: 483—492. CiteSeerX 10.1.1.393.8356.
↑ Bostrom, Nick. Chapter 7: The Superintelligent Will // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — ISBN 978-0-19-967811-2.
↑ Dvorsky, George How Skynet Might Emerge From Simple Physics (неопр.). Gizmodo (26 апреля 2013). Дата обращения: 23 декабря 2021. Архивировано 8 октября 2021 года.
↑ Muehlhauser, Luke AI Risk and the Security Mindset (неопр.). Machine Intelligence Research Institute (31 июля 2013). Дата обращения: 1 июля 2024. Архивировано 19 июля 2014 года.
↑ ¹ ² Muehlhauser, Luke; Bostrom, Nick (2013-12-17). “Why We Need Friendly AI”. Think. 13 (36): 41—47. DOI:10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
↑ ¹ ² Boyles, Robert James M.; Joaquin, Jeremiah Joven (2019-07-23). “Why friendly AIs won't be that friendly: a friendly reply to Muehlhauser and Bostrom”. AI & Society. 35 (2): 505—507. DOI:10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
↑ Chan, Berman (2020-03-04). “The rise of artificial intelligence and the crisis of moral passivity”. AI & Society [англ.]. 35 (4): 991—993. DOI:10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Архивировано из оригинала 2023-02-10. Дата обращения 2023-01-21. Используется устаревший параметр |url-status= (справка)
↑ ¹ ² Eliezer Yudkowsky. Coherent Extrapolated Volition (неопр.). Singularity Institute for Artificial Intelligence (2004). Дата обращения: 12 сентября 2015. Архивировано 30 сентября 2015 года.
↑ ¹ ² What Happens When Artificial Intelligence Turns On Us?, Smithsonian Magazine (21 января 2014). Архивировано 19 июля 2014 года. Дата обращения: 1 июля 2024.
↑ Baum, Seth D. (2016-09-28). “On the promotion of safe and socially beneficial artificial intelligence”. AI & Society. 32 (4): 543—551. DOI:10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
↑ ¹ ² ³ ⁴ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, 2019-10-08. — ISBN 978-0-525-55861-3.
↑ McGinnis, John O. (2010). “Accelerating AI”. Northwestern University Law Review. 104 (3): 1253—1270. Архивировано из оригинала 2014-12-01. Дата обращения 2014-07-16. Используется устаревший параметр |url-status= (справка)
↑ Artificial intelligence will not turn into a Frankenstein's monster, The Guardian (9 августа 2014). Архивировано 17 сентября 2014 года. Дата обращения: 17 сентября 2014.
↑ Kornai, András (2014-05-15). “Bounding the impact of AGI”. Journal of Experimental & Theoretical Artificial Intelligence. Informa UK Limited. 26 (3): 417—438. DOI:10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...the essence of AGIs is their reasoning facilities, and it is the very logic of their being that will compel them to behave in a moral fashion... The real nightmare scenario (is one where) humans find it advantageous to strongly couple themselves to AGIs, with no guarantees against self-deception.
↑ Keiper, Adam; Schulman, Ari N. (2011). “The Problem with 'Friendly' Artificial Intelligence”. The New Atlantis (32): 80—89. Архивировано из оригинала 2012-01-15. Дата обращения 2012-01-16. Используется устаревший параметр |url-status= (справка)
↑ Norvig, Peter. Artificial Intelligence: A Modern Approach / Peter Norvig, Stuart Russell. — 3rd. — Pearson, 2010. — ISBN 978-0-13-604259-4.

Yudkowsky, E. (2008). Artificial Intelligence as a Positive and Negative Factor in Global Risk. In Global Catastrophic Risks, Oxford University Press. — Обсуждение искусственного интеллекта с точки зрения экзистенциального риска. В частности, разделы 1–4 дают базу для определения дружественного ИИ, а раздел 6 анализирует типичные ошибки, ведущие к появлению неблагоприятных ИИ.
Omohundro, S. (2008). The Basic AI Drives. В: AGI-08. Proceedings of the First Conference on Artificial General Intelligence.
Mason, C. (2008). Human-Level AI Requires Compassionate Intelligence Human-Level AI Requires Compassionate Intelligence (архив) (англ.). AAAI 2008 Workshop (9 января 2022). Дата обращения: 1 июля 2024. Архивировано 9 января 2022 года. Workshop on Meta-Reasoning: Thinking About Thinking.
Froding, B.; Peterson, M. (2021). Friendly AI // Ethics and Information Technology. Vol. 23, pp. 207–214.

Этические вопросы развитого искусственного интеллекта — Ник Бостром
Что такое дружественный ИИ? — краткое описание от Института исследований машинного интеллекта
Creating Friendly AI 1.0: The Analysis and Design of Benevolent Goal Architectures — подробное исследование MIRI
Критика рекомендаций MIRI по дружественному ИИ — Билл Хиббард
Комментарии к рекомендациям MIRI по дружественному ИИ — Питер Восс
Проблема "дружественного" искусственного интеллекта — мотивы и невозможность FAI, Адам Кейпер и Ари Н. Шульман

[1] Tegmark, Max. Life, Our Universe and Everything // Our Mathematical Universe: My Quest for the Ultimate Nature of Reality. — First. — Knopf Doubleday Publishing, 2014. — «Its owner may cede control to what Eliezer Yudkowsky terms a "Friendly AI,"...». — ISBN 978-0-307-74425-8.

[aima-2] ¹ ² Russell, Stuart. Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.

[3] Leighton, Jonathan. The Battle for Compassion: Ethics in an Apathetic Universe. — Algora, 2011. — ISBN 978-0-87586-870-7.

[4] Wallach, Wendell. Moral Machines: Teaching Robots Right from Wrong / Wendell Wallach, Colin Allen. — Oxford University Press, 2009. — ISBN 978-0-19-537404-9.

[5] Isaac Asimov. Introduction // The Rest of the Robots. — Doubleday, 1964. — ISBN 0-385-09041-2.

[6] Элиезер Юдковский. Artificial Intelligence as a Positive and Negative Factor in Global Risk // Global Catastrophic Risks / Nick Bostrom ; Milan M. Ćirković. — 2008. — P. 308–345.

[7] Omohundro, S. M. (February 2008). “The basic AI drives”. Artificial General Intelligence. 171: 483—492. CiteSeerX 10.1.1.393.8356.

[8] Bostrom, Nick. Chapter 7: The Superintelligent Will // Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — ISBN 978-0-19-967811-2.

[9] Dvorsky, George How Skynet Might Emerge From Simple Physics (неопр.). Gizmodo (26 апреля 2013). Дата обращения: 23 декабря 2021. Архивировано 8 октября 2021 года.

[MuehlhauserSecurity2013-10] Muehlhauser, Luke AI Risk and the Security Mindset (неопр.). Machine Intelligence Research Institute (31 июля 2013). Дата обращения: 1 июля 2024. Архивировано 19 июля 2014 года.

[think13-11] ¹ ² Muehlhauser, Luke; Bostrom, Nick (2013-12-17). “Why We Need Friendly AI”. Think. 13 (36): 41—47. DOI:10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.

[boyles2019-12] ¹ ² Boyles, Robert James M.; Joaquin, Jeremiah Joven (2019-07-23). “Why friendly AIs won't be that friendly: a friendly reply to Muehlhauser and Bostrom”. AI & Society. 35 (2): 505—507. DOI:10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.

[13] Chan, Berman (2020-03-04). “The rise of artificial intelligence and the crisis of moral passivity”. AI & Society [англ.]. 35 (4): 991—993. DOI:10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Архивировано из оригинала 2023-02-10. Дата обращения 2023-01-21. Используется устаревший параметр |url-status= (справка)

[cevpaper-14] ¹ ² Eliezer Yudkowsky. Coherent Extrapolated Volition (неопр.). Singularity Institute for Artificial Intelligence (2004). Дата обращения: 12 сентября 2015. Архивировано 30 сентября 2015 года.

[Hendry2014-15] ¹ ² What Happens When Artificial Intelligence Turns On Us?, Smithsonian Magazine (21 января 2014). Архивировано 19 июля 2014 года. Дата обращения: 1 июля 2024.

[16] Baum, Seth D. (2016-09-28). “On the promotion of safe and socially beneficial artificial intelligence”. AI & Society. 32 (4): 543—551. DOI:10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.

[HC-17] ¹ ² ³ ⁴ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, 2019-10-08. — ISBN 978-0-525-55861-3.

[McGinnis2010-18] McGinnis, John O. (2010). “Accelerating AI”. Northwestern University Law Review. 104 (3): 1253—1270. Архивировано из оригинала 2014-12-01. Дата обращения 2014-07-16. Используется устаревший параметр |url-status= (справка)

[19] Artificial intelligence will not turn into a Frankenstein's monster, The Guardian (9 августа 2014). Архивировано 17 сентября 2014 года. Дата обращения: 17 сентября 2014.

[20] Kornai, András (2014-05-15). “Bounding the impact of AGI”. Journal of Experimental & Theoretical Artificial Intelligence. Informa UK Limited. 26 (3): 417—438. DOI:10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...the essence of AGIs is their reasoning facilities, and it is the very logic of their being that will compel them to behave in a moral fashion... The real nightmare scenario (is one where) humans find it advantageous to strongly couple themselves to AGIs, with no guarantees against self-deception.

[21] Keiper, Adam; Schulman, Ari N. (2011). “The Problem with 'Friendly' Artificial Intelligence”. The New Atlantis (32): 80—89. Архивировано из оригинала 2012-01-15. Дата обращения 2012-01-16. Используется устаревший параметр |url-status= (справка)

[22] Norvig, Peter. Artificial Intelligence: A Modern Approach / Peter Norvig, Stuart Russell. — 3rd. — Pearson, 2010. — ISBN 978-0-13-604259-4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Дружественный искусственный интеллект

Этимология и употребление

Риски недружественного ИИ

Согласованная экстраполированная воля

Другие подходы

Государственная политика

Критика

Примечания

Литература

Ссылки

Категории