Согласованная экстраполированная воля

Согласованная экстраполированная воля — теоретическая концепция в области согласования искусственного интеллекта, предложенная Элиезером Юдковским (англ. Eliezer Yudkowsky) в 2004 году в рамках разработки дружественного искусственного интеллекта[1]. Концепция описывает подход, при котором сверхразумный искусственный интеллект (ASI) действует не согласно текущим индивидуальным или коллективным предпочтениям человечества, а на основе того, чего бы люди хотели, если бы были более информированы, более рациональны, обладали бы большим временем на размышления и прошли бы развитие как общество[2].

Концепция

Согласно CEV, продвинутая система искусственного интеллекта должна выводить свои цели, экстраполируя идеализированную волю человечества. Это означает агрегирование и проекцию человеческих предпочтений в согласованную целевую функцию, отражающую желания людей в идеальных эпистемологических и моральных условиях. Цель состоит в том, чтобы системы искусственного интеллекта были согласованы с истинными интересами человечества, а не с временными или плохо обоснованными предпочтениями[3].

В поэтических терминах, наша согласованная экстраполированная воля — это наше желание, если бы мы знали больше, думали быстрее, были бы ближе к тому, какими хотим быть, и дальше бы развились вместе; там, где экстраполяция сходится, а не расходится, где наши желания согласуются, а не мешают друг другу; экстраполировано, как мы бы хотели экстраполировать, интерпретировано, как мы бы хотели интерпретировать.

Элиезер Юдковский, Coherent Extrapolated Volition[1]

Дискуссия

Юдковский и Бостром отмечают, что CEV обладает рядом интересных свойств. Эта концепция задумана как гуманная и самокорректирующаяся: она фиксирует источник человеческих ценностей, а не пытается их исчерпывающе перечислить. Она позволяет избежать необходимости формулировать фиксированный перечень правил, включает возможность морального роста и предотвращает закрепление ошибочных нынешних моральных убеждений. CEV ограничивает влияние небольшой группы разработчиков на ценности, которые примет сверхразумный ИИ, тем самым снижая стимулы к стремлению построить ИИ-сверхразум первыми. Наконец, она сохраняет контроль за человеческой судьбой в руках общества[3][1]. Вместе с тем у CEV есть значительные теоретические и практические трудности.

Бостром отмечает, что у CEV «существует множество свободных параметров, которые можно задать различными способами, приводящими к разным вариантам этой концепции». Например, важный вопрос касается исходной базы экстраполяции: чья воля должна учитываться при CEV — включать ли людей с тяжёлой деменцией, пациентов в вегетативном состоянии, эмбрионов и плоды, и так далее. Кроме того, если база экстраполяции CEV ограничена только людьми, велик риск, что итоги окажутся неблагосклонными к другим животным или цифровым разумам. Одним из решений может быть механизм расширения базы экстраполяции[3].

Варианты и альтернативы

В качестве теоретической альтернативы CEV было предложено полагаться на превосходные когнитивные возможности сверхразумного искусственного интеллекта для самостоятельного определения того, что является морально правильным, и позволить ему действовать исходя из этого. Также возможен гибридный подход, при котором ИИ следует CEV, за исключением случаев, когда это противоречит морали[4].

В другом аналитическом обзоре рассматривается философское осмысление CEV через призму общественного доверия к автономным системам. Опираться предлагается на концепцию «активного доверия» Энтони Гидденса, а также развивать CEV в направлении «согласованной, экстраполированной и кластеризованной воли» (CECV), что позволяет учитывать моральные предпочтения различных культурных групп и формировать более прагматичную этическую рамку для проектирования ИИ, способного завоёвывать общественное доверие, сохраняя при этом разнообразие общества[5].

Позднейший взгляд Юдковского

Практически сразу после публикации концепции в 2004 году Элиезер Юдковский сам назвал идею устаревшей и предостерёг от отождествления её с практической стратегией согласования ИИ. Хотя CEV может служить философским идеалом, Юдковский подчёркивал, что реализация эффективных механизмов согласования требует более сложных решений, включая трудности с определением и реализацией экстраполированных ценностей на практике[6].

Примечания

  1. 1 2 3 Yudkowsky, Eliezer Coherent Extrapolated Volition (англ.). Machine Intelligence Research Institute (2004). Дата обращения: 17 мая 2025. Архивировано 6 октября 2025 года.
  2. Josifović, Saša (1 июня 2025). “Legal and administrative frameworks as foundations for AI alignment with human volition”. AI and Ethics [англ.]. 5 (3): 3057—3067. DOI:10.1007/s43681-024-00640-1. ISSN 2730-5961.
  3. 1 2 3 Bostrom, Nick. Coherent extrapolated volition // Superintelligence: paths, dangers, strategies : [англ.]. — Оксфорд, Великобритания : Oxford University Press, 2014. — ISBN 978-0-19-967811-2.
  4. Bostrom, Nick. Morality models // Superintelligence: paths, dangers, strategies : [англ.]. — Оксфорд, Великобритания : Oxford University Press, 2014. — ISBN 978-0-19-967811-2.
  5. Sołoducha, Krzysztof Analysis of the implications of the Moral Machine project as an implementation of the concept of coherent extrapolated volition for building clustered trust in autonomous machines (англ.). CEEOL. Copernicus Center Press. Дата обращения: 17 мая 2025.
  6. Coherent Extrapolated Volition (англ.). LessWrong (13 февраля 2025). Дата обращения: 17 мая 2025. Архивировано 5 февраля 2025 года.