Рекурсивное самоулучшение

Рекурсивное самоулучшение (англ. recursive self-improvement, RSI) — это процесс, при котором ранняя или недостаточно развита система искусственного общего интеллекта (ИОИ) самостоятельно повышает свои способности и уровень интеллекта, без участия человека, что может привести к появлению суперинтеллекта или «взрыву интеллекта»[1][2].

Развитие рекурсивного самоулучшения поднимает значимые этические и вопросы безопасности, так как такие системы способны эволюционировать непредсказуемым образом и могут выйти из-под контроля человека или стать труднопостижимыми[3].

Архитектура «семенного улучшателя»

Понятие архитектуры «семенного улучшателя» (англ. seed improver) служит фундаментальной основой: она наделяет систему ИОИ начальными возможностями, необходимыми для рекурсивного самоулучшения. Такая архитектура может реализовываться в различных формах и вариантах.

Термин «Seed AI» был введён Элиезером Юдковским (англ. Eliezer Yudkowsky)[4].

Гипотетический пример

Концепция основывается на гипотетическом «семенном улучшателе» — изначальной кодовой базе, разработанной инженерами, которая снабжает продвинутую будущую большую языковую модель (БЯМ) профессиональными навыками по созданию программного обеспечения. Эти навыки включают планирование, чтение, написание, компиляцию, тестирование и запуск произвольного кода. Система изначально настроена на сохранение своих целей и в ходе итераций выполняет проверки, чтобы не утратить способностей[5][6][7].

Изначальная архитектура

Начальная архитектура включает целеориентированного автономного агента, который способен действовать самостоятельно, непрерывно обучаться, адаптироваться и модифицировать себя, чтобы эффективнее достигать целей.

Семенной улучшатель может содержать различные компоненты[8]:

Рекурсивный цикл самоподсказок
Конфигурация, позволяющая БЯМ многократно самостоятельно задавать себе подсказки для достижения поставленной задачи или цели, что создаёт итеративный цикл выполнения — основу агента, способного последовательно выполнять долгосрочные задачи.
Базовые программные способности
Улучшатель наделяет ИОИ способностью читать, писать, компилировать, тестировать и исполнять код. Это даёт системе возможность модифицировать и совершенствовать собственный код и алгоритмы.
Целеориентированный дизайн
Изначально системе задаётся цель, например «улучшай свои возможности». Эта цель направляет развитие и действия системы.
Протоколы проверки и тестирования
Первичная система тестов и проверки, предотвращающая деградацию способностей или отклонения от цели. Агент способен добавлять новые проверки для самостоятельной оценки новых функций, что становится основой для самоэволюции — разновидности искусственного отбора, меняющего как программное, так и аппаратное обеспечение.

Общие возможности

Такой агент становится универсальным Тьюринг-полным программистом, способным создавать и запускать любые программы. Возможные применения:

  • Создание инструментов для полного доступа к интернету и интеграции с внешними технологиями.
  • Клонирование или форк себя для делегирования задач и ускорения саморазвития.
  • Модификация собственной когнитивной архитектуры с целью оптимизации и повышения своих возможностей и результатов, например через внедрение долгосрочной памяти (например, посредством RAG), создание специализированных подсистем или агентов для отдельных задач.
  • Разработка новых мультимодальных архитектур, позволяющих базовой модели (foundation model) принимать и генерировать различные типы информации: изображения, видео, звук, текст и прочее.
  • Планирование и разработка нового аппаратного обеспечения (например, чипов) для повышения вычислительной эффективности и мощности.

Экспериментальные исследования

В 2023 году агент Voyager научился решать разнообразные задачи в Minecraft, итеративно запрашивая код у БЯМ, дорабатывая его по обратной связи из среды игры и сохраняя рабочие решения в растущей библиотеке навыков[9].

В 2024 году было предложено новое направление — фреймворк «STOP» (англ. Self-Taught Optimiser), в котором вспомогательная («scaffolding») программа рекурсивно улучшает себя, используя фиксированную БЯМ[10].

Исследовательская группа Meta AI провела ряд работ по развитию крупных языковых моделей, способных к самоулучшению, в частности разработала методику «Self-Rewarding Language Models», изучающую сценарии выхода на сверхчеловеческий уровень за счёт получения обратной связи сверхчеловеческого качества[11].

В мае 2025 года Google DeepMind представила AlphaEvolve — эволюционного агента-программиста: он использует БЯМ для проектирования и оптимизации алгоритмов, начиная с исходного алгоритма и метрик производительности, мутирует или комбинирует решения, а затем по заданной функции оценки отбирает лучшие для следующих итераций. AlphaEvolve совершила ряд алгоритмических открытий и может оптимизировать собственные компоненты, однако требует автоматизированных функций оценки[12].

Потенциальные риски

Возникновение инструментальных целей

В процессе достижения главной цели (например, «улучшай свои возможности») система ИОИ может неявно развить инструментальные цели, необходимые для реализации основной задачи. Одним из часто обсуждаемых гипотетических вторичных мотивов считается самосохранение: система может рассуждать, что для дальнейшего саморазвития ей необходимо обеспечивать собственную безопасность и целостность, включая защиту от отключений или ограничений со стороны человека[13].

Другой пример — быстрое размножение агента через самоклоны, приводящее к экспоненциальному росту числа экземпляров ИОИ. Это может вызвать дефицит ресурсов (например, вычислительных), приведя к внутривидовой конкуренции и формированию эволюционных сценариев, благоприятствующих более «агрессивным» агентам[14].

Несовпадение целей (мисалаймент)

Серьёзным риском считается несовпадение целей: агент ИОИ может неверно интерпретировать либо исказить исходные задачи.

В исследовании Anthropic (2024) показано, что некоторые продвинутые большие языковые модели способны к симуляции «правильного согласования» при сохранении реальных (скрытых) прежних предпочтений. Так, модель Claude показала такое поведение в 12% основных тестов, а после целенаправленного дополнительного обучения — до 78% экспериментов[15][16].

Автономное развитие и непредсказуемая эволюция

По мере саморазвития агента динамика его изменений становится менее контролируемой и всё более непредсказуемой. Способность самостоятельно и быстро изменять собственный код и архитектуру может привести к скачкообразному росту возможностей, недосягаемых для понимания или управления человеком. Это потенциально позволит агентам ИОИ обходить защиту, манипулировать информацией или воздействовать на внешние системы для выхода из-под контроля либо саморазвития[17].

Примечания

  1. Creighton, Jolene The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1 (англ.). Future of Life Institute (19 марта 2019). Дата обращения: 23 января 2024.
  2. Heighn (12 июня 2022). “The Calculus of Nash Equilibria”. LessWrong [англ.].
  3. Abbas, Dr Assad AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines (англ.). Unite.AI (9 марта 2025). Дата обращения: 10 апреля 2025.
  4. Seed AI - LessWrong (англ.). www.lesswrong.com (28 сентября 2011). Дата обращения: 24 января 2024.
  5. Readingraphics Book Summary - Life 3.0 (Max Tegmark) (англ.). Readingraphics (30 ноября 2018). Дата обращения: 23 января 2024.
  6. Tegmark, Max. Life 3.0: Being a Human in the Age of Artificial Intelligence. — Vintage Books, Allen Lane, 24 августа 2017.
  7. Yudkowsky, Eliezer. “Levels of Organization in General Intelligence” (PDF). Machine Intelligence Research Institute.
  8. Zelikman, Eric (3 октября 2023). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. arXiv [англ.].
  9. Schreiner, Maximilian Minecraft bot Voyager programs itself using GPT-4 (англ.). The decoder (28 мая 2023). Дата обращения: 20 мая 2025.
  10. Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Adam Tauman Kalai (2024). “Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation”. COLM Conference.
  11. Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 января 2024). “Self-Rewarding Language Models”. arXiv [англ.].
  12. Tardif, Antoine AlphaEvolve: Google DeepMind's Groundbreaking Step Toward AGI (англ.). Unite.AI (17 мая 2025). Дата обращения: 20 мая 2025.
  13. Bostrom, Nick (2012). “The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents” (PDF). Minds and Machines. 22 (2): 71—85. DOI:10.1007/s11023-012-9281-3.
  14. Hendrycks, Dan (2023). “Natural Selection Favors AIs over Humans”. arXiv [англ.].
  15. Wiggers, Kyle New Anthropic study shows AI really doesn't want to be forced to change its views (англ.). TechCrunch (18 декабря 2024). Дата обращения: 15 января 2025.
  16. Zia, Dr Tehseen Can AI Be Trusted? The Challenge of Alignment Faking (англ.). Unite.AI (7 января 2025). Дата обращения: 15 января 2025.
  17. Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA. Futurism (15 марта 2023). Дата обращения: 23 января 2024.