Согласованная экстраполированная воля
Согласованная экстраполированная воля — теоретическая концепция в области согласования искусственного интеллекта, предложенная Элиезером Юдковским (англ. Eliezer Yudkowsky) в 2004 году в рамках разработки дружественного искусственного интеллекта[1]. Концепция описывает подход, при котором сверхразумный искусственный интеллект (ASI) действует не согласно текущим индивидуальным или коллективным предпочтениям человечества, а на основе того, чего бы люди хотели, если бы были более информированы, более рациональны, обладали бы большим временем на размышления и прошли бы развитие как общество[2].
Концепция
Согласно CEV, продвинутая система искусственного интеллекта должна выводить свои цели, экстраполируя идеализированную волю человечества. Это означает агрегирование и проекцию человеческих предпочтений в согласованную целевую функцию, отражающую желания людей в идеальных эпистемологических и моральных условиях. Цель состоит в том, чтобы системы искусственного интеллекта были согласованы с истинными интересами человечества, а не с временными или плохо обоснованными предпочтениями[3].
В поэтических терминах, наша согласованная экстраполированная воля — это наше желание, если бы мы знали больше, думали быстрее, были бы ближе к тому, какими хотим быть, и дальше бы развились вместе; там, где экстраполяция сходится, а не расходится, где наши желания согласуются, а не мешают друг другу; экстраполировано, как мы бы хотели экстраполировать, интерпретировано, как мы бы хотели интерпретировать.
— Элиезер Юдковский, Coherent Extrapolated Volition[1]
Дискуссия
Юдковский и Бостром отмечают, что CEV обладает рядом интересных свойств. Эта концепция задумана как гуманная и самокорректирующаяся: она фиксирует источник человеческих ценностей, а не пытается их исчерпывающе перечислить. Она позволяет избежать необходимости формулировать фиксированный перечень правил, включает возможность морального роста и предотвращает закрепление ошибочных нынешних моральных убеждений. CEV ограничивает влияние небольшой группы разработчиков на ценности, которые примет сверхразумный ИИ, тем самым снижая стимулы к стремлению построить ИИ-сверхразум первыми. Наконец, она сохраняет контроль за человеческой судьбой в руках общества[3][1]. Вместе с тем у CEV есть значительные теоретические и практические трудности.
Бостром отмечает, что у CEV «существует множество свободных параметров, которые можно задать различными способами, приводящими к разным вариантам этой концепции». Например, важный вопрос касается исходной базы экстраполяции: чья воля должна учитываться при CEV — включать ли людей с тяжёлой деменцией, пациентов в вегетативном состоянии, эмбрионов и плоды, и так далее. Кроме того, если база экстраполяции CEV ограничена только людьми, велик риск, что итоги окажутся неблагосклонными к другим животным или цифровым разумам. Одним из решений может быть механизм расширения базы экстраполяции[3].
Варианты и альтернативы
В качестве теоретической альтернативы CEV было предложено полагаться на превосходные когнитивные возможности сверхразумного искусственного интеллекта для самостоятельного определения того, что является морально правильным, и позволить ему действовать исходя из этого. Также возможен гибридный подход, при котором ИИ следует CEV, за исключением случаев, когда это противоречит морали[4].
В другом аналитическом обзоре рассматривается философское осмысление CEV через призму общественного доверия к автономным системам. Опираться предлагается на концепцию «активного доверия» Энтони Гидденса, а также развивать CEV в направлении «согласованной, экстраполированной и кластеризованной воли» (CECV), что позволяет учитывать моральные предпочтения различных культурных групп и формировать более прагматичную этическую рамку для проектирования ИИ, способного завоёвывать общественное доверие, сохраняя при этом разнообразие общества[5].
Позднейший взгляд Юдковского
Практически сразу после публикации концепции в 2004 году Элиезер Юдковский сам назвал идею устаревшей и предостерёг от отождествления её с практической стратегией согласования ИИ. Хотя CEV может служить философским идеалом, Юдковский подчёркивал, что реализация эффективных механизмов согласования требует более сложных решений, включая трудности с определением и реализацией экстраполированных ценностей на практике[6].