Коллапс моды

Коллапс моды (англ. mode collapse) — это сбой в работе генеративной модели, впервые описанный при изучении генеративно-состязательных сетей (GAN). Является ситуацией, когда модель генерирует существенно менее разнообразные данные, чем ожидается, фактически «схлопываясь» до генерации лишь немногих мод распределения и игнорируя остальные. Это явление препятствует основной цели генеративных моделей — адекватно отражать всё разнообразие обучающей выборки^[1].

Обычно коллапс моды может возникать либо на стадии обучения модели, либо при последующей донастройке (finetuning).

К 2026 году термин стал применяться и к большим языковым моделям (LLM), охватывая как системную деградацию из-за обучения на синтетических данных, так и динамический сбой при авторегрессионной генерации длинных текстов^[2].^[3]

Коллапс моды снижает практическую полезность генеративных моделей, например:

при синтезе изображений (множество одинаковых или очень похожих картинок);
в задачах увеличения обучающей выборки (ограниченное разнообразие синтетических данных);
в научном моделировании (проблемы с охватом всех возможных сценариев).

Коллапс моды отличается от переобучения, при котором модель излишне фокусируется на особенностях обучающей выборки, не умея при этом обобщаться на новые данные, и от недообучения, когда модель не улавливает даже базовых закономерностей.

Меморизация — это процесс, при котором модель дословно воспроизводит фрагменты из обучающей выборки. Если переобучение означает общую потерю способности к обобщению на новых данных, то меморизация является конкретным механизмом запоминания^[4]. Меморизацию часто путают с коллапсом моды, однако модель может запоминать всю обучающую выборку и при этом не испытывать коллапса моды. Если же у модели выраженный коллапс моды, то она, наоборот, оказывается не способна воспроизвести значительную часть исходных данных.

Коллапс модели — частный механизм возникновения коллапса моды. Это дегенеративный процесс, возникающий при рекурсивном обучении новых поколений искусственного интеллекта на синтетических данных^[5]. Например, если генеративная модель 2 обучается в основном на выходных данных модели 1, затем новая модель 3 — на выходах модели 2 и так далее, то каждая следующая модель, как правило, всё сильнее страдает от коллапса моды. Однако существуют и другие причины коллапса моды.

Феномен был формализован в исследовании 2023 года «Проклятие рекурсии» (англ. The Curse of Recursion)^[6] группой учёных при участии Ильи Шумайлова, а в июле 2024 года эта работа была опубликована в журнале Nature^[7].

Механизм процесса заключается в том, что при обучении на сгенерированных данных модель начинает отдавать предпочтение наиболее популярным паттернам. При этом она постепенно теряет информацию о редких событиях («хвостах» распределения). Такое рекурсивное обучение приводит к необратимой деградации качества генерируемого контента и потере разнообразия^[6]^[7]^[8].

Коллапс моды во время обучения впервые был подробно изучен на примере генеративно-состязательных сетей (GAN). Его причиной чаще всего становятся дисбалансы в динамике взаимодействия между генератором и дискриминатором. В первом описании GAN этот эффект назывался также «Helvetica scenario» («сценарий Гельветики») — этот термин был введён Яном Гудфеллоу в оригинальной статье 2014 года^[1]^[9]^[10].

Обучение GAN моделируется как минимаксная игра, целью которой является поиск равновесия Нэша. Коллапс моды возникает из-за нестабильности обучения, связанной с исчезающими или осциллирующими градиентами, когда генератор находит локальный минимум, успешно обманывающий текущий дискриминатор^[11]^[12].

Наиболее частые причины коллапса моды в GAN^[13]:

Если дискриминатор учится слишком медленно, генератор может воспользоваться его слабостями, выдавая ограниченный набор вариантов, успешно обманывающих дискриминатор.
Стандартные функции потерь GAN (например дивергенция Йенсена — Шеннона) могут быть излишне «мягкими» для генераций одинаковых выходов.
Адверсариальное обучение порой вызывает осцилляции, при которых генератор и дискриминатор не сходятся к устойчивому равновесию, а попеременно «играют в камень-ножницы-бумага»: генератор генерирует только «камень», дискриминатор учится это отличать — тогда генератор переключается на «ножницы» и так далее; всё обучение модель находится в коллапсе моды, просто моды сменяются от итерации к итерации.

Для борьбы с коллапсом моды в GAN предложено несколько специализированных стратегий:

Двухшкальное обновление параметров (two time-scale update rule)^[14];
Mini-batch discrimination^[15] — позволяет дискриминатору оценивать целые мини-батчи, стимулируя разнообразие;
Unrolled GAN^[16] — оптимизация генератора с учётом предполагаемых будущих изменений дискриминатора;
Wasserstein GAN применяет расстояние Эрдема — Мовзера, обеспечивая более стабильные градиенты^[17]
Использование больших и хорошо сбалансированных обучающих выборок^[18];
Регуляризация градиентным штрафом и спектральной нормализацией^[19].

Большие языковые модели обычно обучаются в два этапа. На первом этапе (pretraining, предварительное обучение) модель обучается на большом корпусе текстов, чтобы воспроизводить примеры из этого корпуса. На втором этапе (finetuning, дообучение) модель специализировано донастраивают на небольшом наборе целевых данных для выполнения конкретной задачи — например, создают чат-бот, дообучив заранее обученную трансформерную модель на небольшом корпусе диалогов.

Коллапс моды может возникать при дообучении: модель, фокусируясь на выполнении целевой задачи, теряет способность генерировать иные типы текстов или ограничивается малым их подмножеством. Предполагается, что существует определённый компромисс между качеством выполнения задачи и разнообразием выходных данных: большее дообучение повышает средний результат по целевой задаче, но уменьшает разнообразие текстов. Меньшее дообучение — обратно^[20]. Похожий компромисс наблюдается и при генерации изображений^[21] и в генерации текста на основе GAN^[22].

Чрезмерное дообучение (over-finetuning) может приводить к «поглупению» модели и катастрофическому забыванию, при котором утрачиваются знания, полученные на этапе предварительного обучения^[23].

Схожие эффекты могут возникать и при обучении с подкреплением по человеческой обратной связи (RLHF), например из-за взлома наградной модели или других подобных механизмов^[24]^[25]. Кроме того, этот метод значительно снижает разнообразие генерируемых ответов, приводя к гомогенизации стилей и мнений из-за усреднения под предпочтения оценщиков^[26].

Для предотвращения деградации генеративных моделей и борьбы с коллапсом моды применяются общие стратегии управления данными и процессом обучения. Одним из ключевых подходов является интеграция человека в цикл обучения (Human-in-the-Loop, HITL). Этот метод позволяет экспертам фильтровать данные, отбраковывать повторяющиеся результаты и обеспечивать высокое качество обучающей выборки^[27]^[28]^[29].

Важным элементом предотвращения коллапса является отслеживание происхождения данных (data provenance)^[8]^[30]. Эта стратегия позволяет контролировать состав обучающих наборов и надежно отделять реальные, созданные человеком данные от синтетического контента, сгенерированного искусственным интеллектом. Для маркировки происхождения применяются метаданные и водяные знаки (watermarking) — внедрение незаметных маркеров непосредственно в сгенерированный контент^[30]. Сохранение доступа к первоначальным высококачественным данным и активная фильтрация синтетического контента не позволяют ошибкам накапливаться при рекурсивном обучении, обеспечивая модели связь с реальным распределением данных.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

Коллапс моды

Отличие от других явлений

Коллапс модели

В генеративно-состязательных сетях

Коллапс моды при дообучении

Методы предотвращения

Примечания

Категории