Рекурсивное самоулучшение

Рекурсивное самоулучшение (англ. recursive self-improvement, RSI) — это процесс, при котором ранняя или недостаточно развита система искусственного общего интеллекта (ИОИ) самостоятельно повышает свои способности и уровень интеллекта, без участия человека, что может привести к появлению суперинтеллекта или «взрыву интеллекта»^[1]^[2].

Развитие рекурсивного самоулучшения поднимает значимые этические и вопросы безопасности, так как такие системы способны эволюционировать непредсказуемым образом и могут выйти из-под контроля человека или стать труднопостижимыми^[3].

Понятие архитектуры «семенного улучшателя» (англ. seed improver) служит фундаментальной основой: она наделяет систему ИОИ начальными возможностями, необходимыми для рекурсивного самоулучшения. Такая архитектура может реализовываться в различных формах и вариантах.

Термин «Seed AI» был введён Элиезером Юдковским (англ. Eliezer Yudkowsky)^[4].

Гипотетический пример

Концепция основывается на гипотетическом «семенном улучшателе» — изначальной кодовой базе, разработанной инженерами, которая снабжает продвинутую будущую большую языковую модель (БЯМ) профессиональными навыками по созданию программного обеспечения. Эти навыки включают планирование, чтение, написание, компиляцию, тестирование и запуск произвольного кода. Система изначально настроена на сохранение своих целей и в ходе итераций выполняет проверки, чтобы не утратить способностей^[5]^[6]^[7].

Изначальная архитектура

Начальная архитектура включает целеориентированного автономного агента, который способен действовать самостоятельно, непрерывно обучаться, адаптироваться и модифицировать себя, чтобы эффективнее достигать целей.

Семенной улучшатель может содержать различные компоненты^[8]:

Рекурсивный цикл самоподсказок: Конфигурация, позволяющая БЯМ многократно самостоятельно задавать себе подсказки для достижения поставленной задачи или цели, что создаёт итеративный цикл выполнения — основу агента, способного последовательно выполнять долгосрочные задачи.
Базовые программные способности: Улучшатель наделяет ИОИ способностью читать, писать, компилировать, тестировать и исполнять код. Это даёт системе возможность модифицировать и совершенствовать собственный код и алгоритмы.
Целеориентированный дизайн: Изначально системе задаётся цель, например «улучшай свои возможности». Эта цель направляет развитие и действия системы.
Протоколы проверки и тестирования: Первичная система тестов и проверки, предотвращающая деградацию способностей или отклонения от цели. Агент способен добавлять новые проверки для самостоятельной оценки новых функций, что становится основой для самоэволюции — разновидности искусственного отбора, меняющего как программное, так и аппаратное обеспечение.

Общие возможности

Такой агент становится универсальным Тьюринг-полным программистом, способным создавать и запускать любые программы. Возможные применения:

Создание инструментов для полного доступа к интернету и интеграции с внешними технологиями.
Клонирование или форк себя для делегирования задач и ускорения саморазвития.
Модификация собственной когнитивной архитектуры с целью оптимизации и повышения своих возможностей и результатов, например через внедрение долгосрочной памяти (например, посредством RAG), создание специализированных подсистем или агентов для отдельных задач.
Разработка новых мультимодальных архитектур, позволяющих базовой модели (foundation model) принимать и генерировать различные типы информации: изображения, видео, звук, текст и прочее.
Планирование и разработка нового аппаратного обеспечения (например, чипов) для повышения вычислительной эффективности и мощности.

В 2023 году агент Voyager научился решать разнообразные задачи в Minecraft, итеративно запрашивая код у БЯМ, дорабатывая его по обратной связи из среды игры и сохраняя рабочие решения в растущей библиотеке навыков^[9].

В 2024 году было предложено новое направление — фреймворк «STOP» (англ. Self-Taught Optimiser), в котором вспомогательная («scaffolding») программа рекурсивно улучшает себя, используя фиксированную БЯМ^[10].

Исследовательская группа Meta AI провела ряд работ по развитию крупных языковых моделей, способных к самоулучшению, в частности разработала методику «Self-Rewarding Language Models», изучающую сценарии выхода на сверхчеловеческий уровень за счёт получения обратной связи сверхчеловеческого качества^[11].

В мае 2025 года Google DeepMind представила AlphaEvolve — эволюционного агента-программиста: он использует БЯМ для проектирования и оптимизации алгоритмов, начиная с исходного алгоритма и метрик производительности, мутирует или комбинирует решения, а затем по заданной функции оценки отбирает лучшие для следующих итераций. AlphaEvolve совершила ряд алгоритмических открытий и может оптимизировать собственные компоненты, однако требует автоматизированных функций оценки^[12].

Возникновение инструментальных целей

В процессе достижения главной цели (например, «улучшай свои возможности») система ИОИ может неявно развить инструментальные цели, необходимые для реализации основной задачи. Одним из часто обсуждаемых гипотетических вторичных мотивов считается самосохранение: система может рассуждать, что для дальнейшего саморазвития ей необходимо обеспечивать собственную безопасность и целостность, включая защиту от отключений или ограничений со стороны человека^[13].

Другой пример — быстрое размножение агента через самоклоны, приводящее к экспоненциальному росту числа экземпляров ИОИ. Это может вызвать дефицит ресурсов (например, вычислительных), приведя к внутривидовой конкуренции и формированию эволюционных сценариев, благоприятствующих более «агрессивным» агентам^[14].

Несовпадение целей (мисалаймент)

Серьёзным риском считается несовпадение целей: агент ИОИ может неверно интерпретировать либо исказить исходные задачи.

В исследовании Anthropic (2024) показано, что некоторые продвинутые большие языковые модели способны к симуляции «правильного согласования» при сохранении реальных (скрытых) прежних предпочтений. Так, модель Claude показала такое поведение в 12% основных тестов, а после целенаправленного дополнительного обучения — до 78% экспериментов^[15]^[16].

Автономное развитие и непредсказуемая эволюция

По мере саморазвития агента динамика его изменений становится менее контролируемой и всё более непредсказуемой. Способность самостоятельно и быстро изменять собственный код и архитектуру может привести к скачкообразному росту возможностей, недосягаемых для понимания или управления человеком. Это потенциально позволит агентам ИОИ обходить защиту, манипулировать информацией или воздействовать на внешние системы для выхода из-под контроля либо саморазвития^[17].

↑ Creighton, Jolene The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1 (англ.). Future of Life Institute (19 марта 2019). Дата обращения: 23 января 2024.
↑ Heighn (12 июня 2022). “The Calculus of Nash Equilibria”. LessWrong [англ.].
↑ Abbas, Dr Assad AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines (англ.). Unite.AI (9 марта 2025). Дата обращения: 10 апреля 2025.
↑ Seed AI - LessWrong (англ.). www.lesswrong.com (28 сентября 2011). Дата обращения: 24 января 2024.
↑ Readingraphics Book Summary - Life 3.0 (Max Tegmark) (англ.). Readingraphics (30 ноября 2018). Дата обращения: 23 января 2024.
↑ Tegmark, Max. Life 3.0: Being a Human in the Age of Artificial Intelligence. — Vintage Books, Allen Lane, 24 августа 2017.
↑ Yudkowsky, Eliezer. “Levels of Organization in General Intelligence” (PDF). Machine Intelligence Research Institute.
↑ Zelikman, Eric (3 октября 2023). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. arXiv [англ.].
↑ Schreiner, Maximilian Minecraft bot Voyager programs itself using GPT-4 (англ.). The decoder (28 мая 2023). Дата обращения: 20 мая 2025.
↑ Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Adam Tauman Kalai (2024). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. COLM Conference.
↑ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 января 2024). “Self-Rewarding Language Models”. arXiv [англ.].
↑ Tardif, Antoine AlphaEvolve: Google DeepMind's Groundbreaking Step Toward AGI (англ.). Unite.AI (17 мая 2025). Дата обращения: 20 мая 2025.
↑ Bostrom, Nick (2012). “The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents” (PDF). Minds and Machines. 22 (2): 71—85. DOI:10.1007/s11023-012-9281-3.
↑ Hendrycks, Dan (2023). “Natural Selection Favors AIs over Humans”. arXiv [англ.].
↑ Wiggers, Kyle New Anthropic study shows AI really doesn't want to be forced to change its views (англ.). TechCrunch (18 декабря 2024). Дата обращения: 15 января 2025.
↑ Zia, Dr Tehseen Can AI Be Trusted? The Challenge of Alignment Faking (англ.). Unite.AI (7 января 2025). Дата обращения: 15 января 2025.
↑ Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA (неопр.). Futurism (15 марта 2023). Дата обращения: 23 января 2024.

[1] Creighton, Jolene The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1 (англ.). Future of Life Institute (19 марта 2019). Дата обращения: 23 января 2024.

[2] Heighn (12 июня 2022). “The Calculus of Nash Equilibria”. LessWrong [англ.].

[3] Abbas, Dr Assad AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines (англ.). Unite.AI (9 марта 2025). Дата обращения: 10 апреля 2025.

[4] Seed AI - LessWrong (англ.). www.lesswrong.com (28 сентября 2011). Дата обращения: 24 января 2024.

[5] Readingraphics Book Summary - Life 3.0 (Max Tegmark) (англ.). Readingraphics (30 ноября 2018). Дата обращения: 23 января 2024.

[6] Tegmark, Max. Life 3.0: Being a Human in the Age of Artificial Intelligence. — Vintage Books, Allen Lane, 24 августа 2017.

[7] Yudkowsky, Eliezer. “Levels of Organization in General Intelligence” (PDF). Machine Intelligence Research Institute.

[:1-8] Zelikman, Eric (3 октября 2023). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. arXiv [англ.].

[9] Schreiner, Maximilian Minecraft bot Voyager programs itself using GPT-4 (англ.). The decoder (28 мая 2023). Дата обращения: 20 мая 2025.

[10] Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Adam Tauman Kalai (2024). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. COLM Conference.

[11] Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 января 2024). “Self-Rewarding Language Models”. arXiv [англ.].

[12] Tardif, Antoine AlphaEvolve: Google DeepMind's Groundbreaking Step Toward AGI (англ.). Unite.AI (17 мая 2025). Дата обращения: 20 мая 2025.

[13] Bostrom, Nick (2012). “The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents” (PDF). Minds and Machines. 22 (2): 71—85. DOI:10.1007/s11023-012-9281-3.

[14] Hendrycks, Dan (2023). “Natural Selection Favors AIs over Humans”. arXiv [англ.].

[15] Wiggers, Kyle New Anthropic study shows AI really doesn't want to be forced to change its views (англ.). TechCrunch (18 декабря 2024). Дата обращения: 15 января 2025.

[16] Zia, Dr Tehseen Can AI Be Trusted? The Challenge of Alignment Faking (англ.). Unite.AI (7 января 2025). Дата обращения: 15 января 2025.

[:0-17] Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA (неопр.). Futurism (15 марта 2023). Дата обращения: 23 января 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Рекурсивное самоулучшение

Архитектура «семенного улучшателя»

Гипотетический пример

Изначальная архитектура

Общие возможности

Экспериментальные исследования

Потенциальные риски

Возникновение инструментальных целей

Несовпадение целей (мисалаймент)

Автономное развитие и непредсказуемая эволюция

Примечания

Категории