Проблема исчезающего градиента

Проблема исчезающего градиента (англ. vanishing gradient problem) — явление, встречающееся при обучении нейронных сетей с использованием метода обратного распространения ошибки, при котором модули градиентов сильно разнятся между ранними и поздними слоями сети^[1]. При таком обучении веса нейронной сети обновляются пропорционально их частной производной функции потерь. По мере увеличения числа слоёв или глубины сети градиенты на ранних слоях вычисляются посредством всё большего количества перемножений, что приводит к экспоненциальному уменьшению их модуля. В результате градиенты на ранних слоях становятся значительно меньше, чем на поздних, что может вызвать нестабильность или остановку процесса обучения^[1]. Например, для гиперболического тангенса (функция активации) модули градиентов лежат в диапазоне от 0 до 1, а многократное перемножение таких градиентов приводит к их экспоненциальному затуханию. Противоположная ситуация, когда градиенты на ранних слоях экспоненциально возрастают, называется проблемой взрывающегося градиента.

Обратное распространение ошибки впервые позволило обучать глубокие искусственные нейронные сети для задач обучения с учителем, однако изначально данная техника была малоуспешной. Формальное объяснение недостаточной эффективности впервые дал Зепп Хохрайтер в своей дипломной работе 1991 года, в которой была определена «проблема исчезающего градиента»^[2]^[3], которая затрагивает не только многоуровневые прямые нейронные сети^[4], но и рекуррентные нейронные сети^[5]^[6]. Для рекуррентных сетей типовая процедура обучения включает разворачивание их в очень глубокие прямые сети, в которых на каждый временной шаг входной последовательности добавляется новый слой (эта комбинация называется обратное распространение ошибки во времени).

В этом разделе излагаются результаты работы Паскану, Миколова и Бенжио On the difficulty of training Recurrent Neural Networks^[6].

Рекуррентная модель

Обобщённая рекуррентная сеть имеет скрытые состояния $h_{1},h_{2},\dots$ , входы $u_{1},u_{2},\dots$ и выходы $x_{1},x_{2},\dots$ . Пусть сеть параметризуется $\theta$ и эволюционирует согласно:

(h_{t},x_{t})=F(h_{t-1},u_{t},\theta )

x_{t}

h_{t}

x_{t}=G(h_{t})

x_{t}=h_{t}

x_{t}=F(x_{t-1},u_{t},\theta )

{\begin{aligned}dx_{t}&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )dx_{t-1}\\&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )\left[\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )d\theta +\nabla _{x}F(x_{t-2},u_{t-1},\theta )dx_{t-2}\right]\\&\;\;\vdots \\&=\left[\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right]d\theta \end{aligned}}

L(x_{T},u_{1},\dots ,u_{T})

dL=\nabla _{x}L(x_{T},u_{1},\dots ,u_{T})\left[\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right]d\theta

Проблема исчезающего/взрывающегося градиента связана с многократными перемножениями вида:

\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\nabla _{x}F(x_{t-3},u_{t-2},\theta )\cdots

Пример: рекуррентная сеть с сигмоидальной активацией

Рассмотрим типовую рекуррентную сеть:

x_{t}=F(x_{t-1},u_{t},\theta )=W_{\text{rec}}\sigma (x_{t-1})+W_{\text{in}}u_{t}+b

сигмоидальная функция

Тогда: $\nabla _{x}F(x_{t-1},u_{t},\theta )=W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-1}))$ Произведение матриц вида:

{\begin{aligned}&\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\cdots \nabla _{x}F(x_{t-k},u_{t-k+1},\theta )\\&=W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-1}))W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-2}))\cdots W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-k}))\end{aligned}}

|\sigma '|\leq 1

\|W_{\text{rec}}\|^{k}

W_{\text{rec}}=\gamma <1

В результате работы исчезающего градиента сеть не способна обучаться долгосрочным зависимостям: влияние дальних входов на функцию потерь экспоненциально уменьшается и практически исчезает.

Если $\gamma \geq 1$ , анализ усложняется: в случае спектрального радиуса больше 1 можно наблюдать взрыв градиента. Для иллюстрации см. работу Паскану и др^[6]..

Динамическая система

Следуя Дойе (Doya, 1993)^[7], рассмотрим однонейронную рекуррентную сеть с сигмоидальной активацией:

x_{t+1}=(1-\varepsilon )x_{t}+\varepsilon \sigma (wx_{t}+b)+\varepsilon w'u_{t}

\varepsilon

{\frac {dx}{dt}}=-x(t)+\sigma (wx(t)+b)+w'u(t)

u=0

w=5.0

b

Значения производной $\Delta x(T)/\Delta x(0)$ и $\Delta x(T)/\Delta b$ (при большом T) резко возрастают при приближении к неустойчивой точке — взрыв градиента; вдалеке от неустойчивости — производная обращается в нуль — исчезновение градиента.

Для $\Delta x(T)/\Delta b\approx \partial x(T)/\partial b=\left({\frac {1}{x(T)(1-x(T))}}-5\right)^{-1}$ , величина градиента остаётся ограниченной. Это объясняет, почему ранние исследования были сосредоточены на построении архитектур с особым распределением устойчивых состояний для обучения долгосрочным зависимостям^[8].

Аналогичная интуиция справедлива и для общего случая^[6].

Геометрическая модель

Рассмотрим вышеописанную однонейронную сеть с параметрами: $w=5,x(0)=0,5,u(t)=0$ , функция потерь $L(x(T))=(0,855-x(T))^{2}$ . При приближении $b$ к −2,5 сверху функция потерь стремится к нулю, однако стоит $b$ пересечь этот порог, как область притяжения меняется и потери скачкообразно возрастают до 0,5.

При обучении по градиенту это приводит к резкой смене значения градиента и возникновению взрывов; см. подробнее в работе Паскану и др^[6].

Для преодоления проблемы исчезающего градиента были предложены различные методы.

Рекуррентные нейронные сети

В случае рекуррентных сетей специально для решения проблемы исчезающего градиента была предложена архитектура LSTM (long short-term memory), разработанная Хохрайтером и Шмидхубером в 1997 году^[9]..

Для решения проблемы взрывного градиента рекомендуется использовать обрезку градиентов (gradient clipping) — деление градиента $g$ на $\|g\|/g_{\text{max}}$ , если $\|g\|>g_{\text{max}}$ , что ограничивает модуль вектора градиента^[6].

Батч-нормализация

Батч-нормализация (batch normalization) — стандартный метод, применяемый для борьбы с исчезающим и взрывным градиентом^[10]^[11].

Многоуровневая иерархия

В многоуровневых сетях (Шмидхубер, 1992) обучение проводится поэтапно: сначала нелинейная автокодировка или другое обучение без учителя применяется для каждого уровня, затем осуществляется тонкая настройка по алгоритму обратного распространения ошибки^[12]. Каждый уровень сжимает представление и передаёт его дальше.

Глубокая вера (Deep Belief Network)

Аналогичные стратегии применяются для глубоких прямых сетей, где предварительное обучение без учителя подготавливает эффективные детекторы признаков, а последующая работа с учителем строит классификацию. Модель deep belief network (Хинтон и др., 2006) поочерёдно обучает представления разных уровней с помощью ограниченных машин Больцмана, что стабилизирует обучение^[13]. Такие модели оказываются эффективными выделителями признаков на сложных данных^[14].

Аппаратное ускорение

Рост производительности оборудования (особенно GPU) с 1991 по 2015 год сделал возможным обучение стандартным backpropagation даже очень глубоких сетей. Шмидхубер отмечает, что это «и обеспечивает текущие успехи в задачах компьютерного зрения», однако принципиально проблему исчезающего градиента не устраняет^[13]^[15].

Резидуальные связи

Резидуальные (skip) связи реализуют архитектурный приём $x\mapsto f(x)+x$ , где f — любая подсеть. Тогда градиент передачи представляет собой сумму дифференциала f и тождественного оператора, что предотвращает исчезновение/взрыв градиента. При обучении часть градиента напрямую проходит по резидуальным путям^[16].

Сети с резидуальными связями можно рассматривать как ансамбли относительно неглубоких сетей, для которых проблема исчезающего градиента не актуальна^[17].

Альтернативные функции активации

Rectifier-функции активации, такие как ReLU, менее подвержены исчезающему градиенту, поскольку насыщаются только в одну сторону^[18].

Начальная инициализация весов

Для борьбы с исчезающим градиентом предлагаются специальные методы начальной инициализации весов. Кумар (2017) предложил использовать нормальное распределение с нулевым средним и стандартным отклонением $3.6/{\sqrt {N}}$ , где N — число нейронов в слое, для сетей с логистической активацией^[19].

Йылмаз и Поли^[20] показали, что если среднее начальных весов установить по формуле $\max(-1,-8/N)$ , то даже очень глубокие сети могут успешно обучаться с помощью backpropagation.

Другие методы

Свен Бенке использовал только знак градиента (метод Rprop) при обучении нейронной абстракционной пирамиды^[21] для решения задач восстановления изображений и локализации лиц.

Кроме того, оптимизация может проводиться методом универсального поиска по пространству весов сети, например с помощью случайного поиска или генетических алгоритмов, что устраняет зависимость от градиента^[22].

Паскану Р., Миколов Т., Бенжио Й. On the difficulty of training recurrent neural networks // arXiv:1211.5063.
Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation, 1997, 9(8), 1735—1780.
Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult // IEEE Transactions on Neural Networks, 1994. 5(2): 157—166.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]