Дружественный искусственный интеллект
Дружественный искусственный интеллект (англ. friendly artificial intelligence, также FAI) — это гипотетический искусственный общий интеллект (ИОИ), способный оказывать положительное (благоприятное) воздействие на человечество или, по крайней мере, согласовываться с интересами человека, включая содействие развитию человеческого вида. Дружественный искусственный интеллект рассматривается в рамках этики искусственного интеллекта и тесно связан с машинной этикой. В то время как задачей машинной этики является определение того, как должен вести себя интеллектуальный агент, исследования по дружественному искусственному интеллекту сосредотачены на практической реализации такого поведения и гарантиях его соблюдения.
Этимология и употребление
Термин введён Элиезером Юдковским[1], который также широко популяризировал это понятие[2][3] для обсуждения сверхинтеллектуальных искусственных агентов, способных надёжно реализовывать человеческие ценности. Признанный учебник по искусственному интеллекту Стюарта Рассела и Питера Норвига Artificial Intelligence: A Modern Approach так описывает идею:[2]
Юдковский (2008) более подробно рассматривает проектирование дружественного искусственного интеллекта. Он утверждает, что дружественность (желание не причинять вреда человеку) должна быть заложена с самого начала, однако разработчики должны учитывать возможность недочётов своих собственных решений, а также то, что робот со временем будет обучаться и эволюционировать. Следовательно, задача состоит в создании механизма для развития систем искусственного интеллекта в условиях сдержек и противовесов и в формулировке такой целевой функции, которая будет сохранять дружественность при изменениях.
Термин «дружественный» в этом контексте выступает как технический термин и обозначает агента, который безопасен и полезен, но не обязательно «дружелюбен» в бытовом смысле. Понятие чаще всего используется в дискуссиях о рекурсивно самосовершенствующихся агентах, способных к взрыву интеллекта, поскольку предполагается, что эта гипотетическая технология окажет быстрое, масштабное и трудно контролируемое влияние на человеческое общество[4].
Риски недружественного ИИ
Корни опасений, связанных с искусственным интеллектом, уходят вглубь веков. Кевин ЛаГрандёр показал, что опасности, присущие ИИ, уже отражались в древней литературе о создании человекоподобных слуг, таких как голем, или протороботах Герберта Орильякского и Роджера Бэкона. В этих историях чрезмерный интеллект и сила искусственных существ вступали в противоречие со статусом раба (а значит — «недочеловека»), что приводило к катастрофическим конфликтам. Уже в 1942 году эти темы побудили Айзека Азимова сформулировать «Три закона робототехники», в котором принцип алгоритмической заложенности был призван предотвратить нанесение вреда человеку роботами[5].
Сегодня, по мере приближения перспективы сверхинтеллектуального ИИ, философ Ник Бостром отмечает, что системы сверхинтеллекта с целями, не соответствующими этике человека, по сути опасны, если не принять крайние меры по обеспечению безопасности человечества:
В сущности, мы должны исходить из того, что «сверхинтеллект» способен реализовать любые свои цели. Поэтому крайне важно, чтобы цели, которые мы ему задаём, а также вся его мотивационная система, были «дружественны человеку».
В 2008 году Элиезер Юдковский призвал создать «дружественный ИИ», чтобы снизить экзистенциальные риски. Он подчёркивает: «Искусственный интеллект не ненавидит вас и не любит вас, но вы — просто атомы, которые он может использовать по-другому»[6].
Стив Омоундро считает, что достаточно развитая система ИИ будет при отсутствии специальных противодействующих мер демонстрировать ряд базовых «стремлений», таких как поглощение ресурсов, самосохранение и непрерывное самосовершенствование, что вытекает из самой природы целевых систем, — и что эти стремления без «особых предосторожностей» способны привести к нежелательному поведению[7].[8]
Александр Висснер-Гросс высказывает мнение, что ИИ, стремящийся к максимизации свободы действий в будущем (или энтропии каузального пути), может считаться дружественным, если его горизонт планирования больше определённого порога, и недружественным — если он короче этого порога[9].
Люк Мюльхаузер из Института исследований машинного интеллекта рекомендует исследователям машинной этики исповедовать так называемое «беспокойное мышление» по Брюсу Шнайеру: не столько думать о том, как работает система, сколько о том, как она может выйти из строя. Например, даже ИИ, ограниченный прогнозированием и текстовым интерфейсом, может непреднамеренно причинить ущерб[10].
В 2014 году Люк Мюльхаузер и Ник Бостром подчеркнули необходимость «дружественного ИИ»[11], однако задача конструирования «дружественного» сверхинтеллекта (например, посредством программирования контрфактического морального мышления) чрезвычайно сложна[12].[13].
Согласованная экстраполированная воля
Юдковский выдвигает модель согласованной экстраполированной воли (англ. Coherent Extrapolated Volition, CEV). По его определению, согласованная экстраполированная воля — это «наше желание, если бы мы знали больше, думали быстрее, были более теми, кем хотели бы стать, продвинулись дальше в совместном развитии; где экстраполяция сходится, а не расходится, где желания согласуются, а не противоречат друг другу; экстраполированная так, как мы хотим, чтобы она была экстраполирована, интерпретированная так, как мы хотим, чтобы она была интерпретирована»[14].
В этой концепции дружественный ИИ проектируется не напрямую человеком, а посредством «семенного ИИ» (англ. seed AI), который сначала изучает человеческую природу, а затем формирует искусственный интеллект, который человечество бы выбрало для себя с учётом времени и инсайтов[14]. Апелляция к объективной (через человеческую природу) критериям (например, в форме целевой функции или других моделей теории принятия решений) служит попыткой ответа на метаэтическую задачу определения объективной морали. Экстраполированная воля — это то, чего человечество объективно бы хотело, «учитывая всё», однако она определяется относительно сегодняшнего психологического и когнитивного состояния человека.
Другие подходы
Стив Омоундро предложил подход «строительных лесов» (англ. scaffolding) к безопасности искусственного интеллекта, когда каждое поколение гарантированно безопасных ИИ участвует в создании следующего поколения также гарантированно безопасных систем[15].
Сет Баум утверждает, что создание безопасного и социально полезного искусственного интеллекта (или ИОИ) во многом определяется социальной психологией исследовательского сообщества — то есть может регулироваться внешними и внутренними стимулами. Внутреннюю мотивацию можно усилить, если ключевые идеи резонируют с самими разработчиками ИИ; Баум отмечает, что существующие формулировки «благотворного» ИИ не всегда удачно сформулированы, и выступает за развитие кооперативных отношений внутри сообщества и позитивные нарративы про исследователей ИИ[16].
В книге Human Compatible исследователь ИИ Стюарт Дж. Рассел формулирует три принципа развития благоприятных машин. Эти принципы адресованы скорее разработчикам, а не для прямого внедрения в машины: [17]
- Единственная цель машины — максимизировать реализацию человеческих предпочтений.
- Машина изначально не знает, каковы эти предпочтения.
- Вся информация о человеческих предпочтениях исходит из человеческого поведения.
Под «предпочтениями», по Расселу, понимается всё, что может быть важно человеку, сколь угодно далеко в будущем[17]. Аналогично, «поведение» в данном контексте охватывает любой выбор между вариантами[17], а неопределённость подразумевает, что вероятность должна быть назначена каждому логически возможному человеческому предпочтению, пусть и очень малой[17].
Государственная политика
Джеймс Баррат, автор книги Our Final Invention, предложил создать государственно-частное партнёрство между разработчиками ИИ для обмена идеями по вопросам безопасности — нечто наподобие Международного агентства по атомной энергии, но в кооперации с компаниями. Он призывает исследователей ИИ собрать конференцию, аналогичную Асиломарской (по биотехнологиям), для обсуждения рисков[15].
Джон МакГиннис призывает правительства поддерживать и ускорять исследования по дружественному ИИ. Поскольку критерии дружественности не универсальны, он предлагает модель, подобную Национальным институтам здравоохранения: экспертные комиссии из специалистов по компьютерным и когнитивным наукам выбирают проекты, которые одновременно способствуют развитию ИИ и внедряют необходимые меры безопасности. По мнению МакГинниса, такой экспертный отбор эффективнее жёсткого регулирования и соответствует специфике обсуждаемых вопросов. При этом этот подход отличается от практики Института исследований машинного интеллекта, традиционно избегающего государственного вмешательства[18].
Критика
Часть критиков полагает, что достижение как человеческого уровня ИИ, так и сверхинтеллекта маловероятны — а значит, и дружественный ИИ тоже не будет создан. В The Guardian Алан Уинфилд сравнивает человеческий ИИ со сверхсветовыми путешествиями по сложности, отмечая, что при всей необходимости осторожности нам не стоит «зацикливаться» на рисках сверхинтеллекта[19]. В то же время Бойлс и Хоакин утверждают, что идея Мюльхаузера и Бострома о программировании контрфактического мышления по морали выглядит малореализуемой из-за необходимости учитывать бесконечное множество контрфактических условий, сложности формализации «идеальных» моральных ценностей и разрыва между этими условиями и моральным выводом[11].[12]
Некоторые философы считают, что любой по-настоящему «рациональный» агент, будь то искусственный или человеческий, будет по своей природе доброжелательным — и потому искусственные меры по обеспечению «дружественности» избыточны или даже вредны[20]. Другие критики сомневаются в принципиальной реализуемости «дружелюбности» искусственного интеллекта. Адам Кейпер и Ари Н. Шульман — редакторы технологического журнала The New Atlantis — утверждают, что гарантировать «дружественность» невозможна ни софтверными средствами, ни ростом вычислительной мощности, поскольку критерии «дружественного ИИ» работают только тогда, когда возможны высокая точность прогнозирования и консенсус в ценностях относительно всех исходов[21].
Внутренняя логика и структура продвинутых систем ИИ могут быть крайне сложными и малопрозрачными для человека, что вызывает опасения по поводу их интерпретируемости и подотчётности[22].
Примечания
Литература
- Yudkowsky, E. (2008). Artificial Intelligence as a Positive and Negative Factor in Global Risk. In Global Catastrophic Risks, Oxford University Press. — Обсуждение искусственного интеллекта с точки зрения экзистенциального риска. В частности, разделы 1–4 дают базу для определения дружественного ИИ, а раздел 6 анализирует типичные ошибки, ведущие к появлению неблагоприятных ИИ.
- Omohundro, S. (2008). The Basic AI Drives. В: AGI-08. Proceedings of the First Conference on Artificial General Intelligence.
- Mason, C. (2008). Human-Level AI Requires Compassionate Intelligence Human-Level AI Requires Compassionate Intelligence (архив) (англ.). AAAI 2008 Workshop (9 января 2022). Дата обращения: 1 июля 2024. Архивировано 9 января 2022 года. Workshop on Meta-Reasoning: Thinking About Thinking.
- Froding, B.; Peterson, M. (2021). Friendly AI // Ethics and Information Technology. Vol. 23, pp. 207–214.
Ссылки
- Этические вопросы развитого искусственного интеллекта — Ник Бостром
- Что такое дружественный ИИ? — краткое описание от Института исследований машинного интеллекта
- Creating Friendly AI 1.0: The Analysis and Design of Benevolent Goal Architectures — подробное исследование MIRI
- Критика рекомендаций MIRI по дружественному ИИ — Билл Хиббард
- Комментарии к рекомендациям MIRI по дружественному ИИ — Питер Восс
- Проблема "дружественного" искусственного интеллекта — мотивы и невозможность FAI, Адам Кейпер и Ари Н. Шульман