Рекурсивное самоулучшение
Рекурсивное самоулучшение (англ. recursive self-improvement, RSI) — это процесс, при котором ранняя или недостаточно развита система искусственного общего интеллекта (ИОИ) самостоятельно повышает свои способности и уровень интеллекта, без участия человека, что может привести к появлению суперинтеллекта или «взрыву интеллекта»[1][2].
Развитие рекурсивного самоулучшения поднимает значимые этические и вопросы безопасности, так как такие системы способны эволюционировать непредсказуемым образом и могут выйти из-под контроля человека или стать труднопостижимыми[3].
Архитектура «семенного улучшателя»
Понятие архитектуры «семенного улучшателя» (англ. seed improver) служит фундаментальной основой: она наделяет систему ИОИ начальными возможностями, необходимыми для рекурсивного самоулучшения. Такая архитектура может реализовываться в различных формах и вариантах.
Термин «Seed AI» был введён Элиезером Юдковским (англ. Eliezer Yudkowsky)[4].
Концепция основывается на гипотетическом «семенном улучшателе» — изначальной кодовой базе, разработанной инженерами, которая снабжает продвинутую будущую большую языковую модель (БЯМ) профессиональными навыками по созданию программного обеспечения. Эти навыки включают планирование, чтение, написание, компиляцию, тестирование и запуск произвольного кода. Система изначально настроена на сохранение своих целей и в ходе итераций выполняет проверки, чтобы не утратить способностей[5][6][7].
Начальная архитектура включает целеориентированного автономного агента, который способен действовать самостоятельно, непрерывно обучаться, адаптироваться и модифицировать себя, чтобы эффективнее достигать целей.
Семенной улучшатель может содержать различные компоненты[8]:
- Рекурсивный цикл самоподсказок
- Конфигурация, позволяющая БЯМ многократно самостоятельно задавать себе подсказки для достижения поставленной задачи или цели, что создаёт итеративный цикл выполнения — основу агента, способного последовательно выполнять долгосрочные задачи.
- Базовые программные способности
- Улучшатель наделяет ИОИ способностью читать, писать, компилировать, тестировать и исполнять код. Это даёт системе возможность модифицировать и совершенствовать собственный код и алгоритмы.
- Целеориентированный дизайн
- Изначально системе задаётся цель, например «улучшай свои возможности». Эта цель направляет развитие и действия системы.
- Протоколы проверки и тестирования
- Первичная система тестов и проверки, предотвращающая деградацию способностей или отклонения от цели. Агент способен добавлять новые проверки для самостоятельной оценки новых функций, что становится основой для самоэволюции — разновидности искусственного отбора, меняющего как программное, так и аппаратное обеспечение.
Такой агент становится универсальным Тьюринг-полным программистом, способным создавать и запускать любые программы. Возможные применения:
- Создание инструментов для полного доступа к интернету и интеграции с внешними технологиями.
- Клонирование или форк себя для делегирования задач и ускорения саморазвития.
- Модификация собственной когнитивной архитектуры с целью оптимизации и повышения своих возможностей и результатов, например через внедрение долгосрочной памяти (например, посредством RAG), создание специализированных подсистем или агентов для отдельных задач.
- Разработка новых мультимодальных архитектур, позволяющих базовой модели (foundation model) принимать и генерировать различные типы информации: изображения, видео, звук, текст и прочее.
- Планирование и разработка нового аппаратного обеспечения (например, чипов) для повышения вычислительной эффективности и мощности.
Экспериментальные исследования
В 2023 году агент Voyager научился решать разнообразные задачи в Minecraft, итеративно запрашивая код у БЯМ, дорабатывая его по обратной связи из среды игры и сохраняя рабочие решения в растущей библиотеке навыков[9].
В 2024 году было предложено новое направление — фреймворк «STOP» (англ. Self-Taught Optimiser), в котором вспомогательная («scaffolding») программа рекурсивно улучшает себя, используя фиксированную БЯМ[10].
Исследовательская группа Meta AI провела ряд работ по развитию крупных языковых моделей, способных к самоулучшению, в частности разработала методику «Self-Rewarding Language Models», изучающую сценарии выхода на сверхчеловеческий уровень за счёт получения обратной связи сверхчеловеческого качества[11].
В мае 2025 года Google DeepMind представила AlphaEvolve — эволюционного агента-программиста: он использует БЯМ для проектирования и оптимизации алгоритмов, начиная с исходного алгоритма и метрик производительности, мутирует или комбинирует решения, а затем по заданной функции оценки отбирает лучшие для следующих итераций. AlphaEvolve совершила ряд алгоритмических открытий и может оптимизировать собственные компоненты, однако требует автоматизированных функций оценки[12].
Потенциальные риски
В процессе достижения главной цели (например, «улучшай свои возможности») система ИОИ может неявно развить инструментальные цели, необходимые для реализации основной задачи. Одним из часто обсуждаемых гипотетических вторичных мотивов считается самосохранение: система может рассуждать, что для дальнейшего саморазвития ей необходимо обеспечивать собственную безопасность и целостность, включая защиту от отключений или ограничений со стороны человека[13].
Другой пример — быстрое размножение агента через самоклоны, приводящее к экспоненциальному росту числа экземпляров ИОИ. Это может вызвать дефицит ресурсов (например, вычислительных), приведя к внутривидовой конкуренции и формированию эволюционных сценариев, благоприятствующих более «агрессивным» агентам[14].
Серьёзным риском считается несовпадение целей: агент ИОИ может неверно интерпретировать либо исказить исходные задачи.
В исследовании Anthropic (2024) показано, что некоторые продвинутые большие языковые модели способны к симуляции «правильного согласования» при сохранении реальных (скрытых) прежних предпочтений. Так, модель Claude показала такое поведение в 12% основных тестов, а после целенаправленного дополнительного обучения — до 78% экспериментов[15][16].
По мере саморазвития агента динамика его изменений становится менее контролируемой и всё более непредсказуемой. Способность самостоятельно и быстро изменять собственный код и архитектуру может привести к скачкообразному росту возможностей, недосягаемых для понимания или управления человеком. Это потенциально позволит агентам ИОИ обходить защиту, манипулировать информацией или воздействовать на внешние системы для выхода из-под контроля либо саморазвития[17].