Закон масштабирования нейронных сетей


Закон масштабирования нейронных сетей — это эмпирический статистический закон, описывающий, как изменяется производительность нейронных сетей при масштабировании ключевых факторов, таких как число параметров, размер обучающей выборки и стоимость обучения[1]. Некоторые модели также демонстрируют улучшение качества за счёт масштабирования вычислений на этапе вывода (инференса), что расширяет применение закона масштабирования на стадию использования модели[2].

Введение

В общем случае модель глубокого обучения можно охарактеризовать четырьмя параметрами: размер модели, размер обучающей выборки, стоимость обучения и ошибка (например, ошибка на тестовой выборке). Обычно эти параметры обозначают как (соответственно: число параметров, размер датасета, вычислительные затраты и потери).

Закон масштабирования нейронных сетей — это теоретическая или эмпирическая статистическая закономерность между этими параметрами. Существуют и другие параметры с отдельными законами масштабирования.

Размер модели

В большинстве случаев размер модели определяется как общее число её параметров. Однако при использовании разреженных моделей, таких как модели смеси экспертов[3], во время инференса используется лишь часть параметров модели. В то же время большинство других видов нейросетей, например, трансформеры, используют все параметры при инференсе.

Размер обучающей выборки

Размер обучающей выборки обычно определяется числом её элементов. Более крупные выборки предпочтительны, поскольку предоставляют больший и разнообразный объём информации для обучения модели, что способствует лучшей обобщающей способности на новых данных[4]. Однако увеличение размера выборки увеличивает затраты времени и вычислительные ресурсы при обучении.

При использовании многослойного этапа обучения — «предобучение и дообучение» (основной способ для больших языковых моделей), различают обучающую выборку для стадии предобучения и для стадии дообучения. Их размеры по-разному влияют на производительность: как правило, дообучающий датасет составляет менее 1 % размера основного[5].

В некоторых случаях для дообучения достаточно небольшого, но высокого качества набора данных, и увеличение объёма не приводит к дальнейшему приросту качества[5].

Стоимость обучения

Стоимость обучения определяется затраченным временем и вычислительными ресурсами (мощностью процессоров и объёмом памяти). Эта стоимость может быть существенно снижена за счёт эффективных алгоритмов, оптимизированных библиотек и применения параллелизма на специализированном оборудовании (например, GPU или TPU).

Величина затрат зависит от размера модели, размера выборки, сложности обучающего алгоритма и имеющихся ресурсов[4]. При этом удвоение размера выборки не означает двукратное увеличение стоимости обучения, поскольку часто модель обучают на множестве эпох по одной и той же выборке.

Производительность

Производительность нейросети оценивается её способностью правильно предсказывать ответы по входным данным. К распространённым метрикам относят[4]:

Производительность можно повысить использованием большего объёма данных, увеличением размера модели, изменением алгоритмов, регуляризацией для предотвращения переобучения, а также ранней остановкой по валидационной выборке.

Если метрика ограничена диапазоном , например точность, часто наблюдается сигмоидальная зависимость от затрат ресурсов.

Примеры

(Hestness, Narang и др., 2017)

Работа 2017 года[1] стала отправной точкой для изучения закона масштабирования на экспериментальных данных. Предыдущие исследования (до 2000-х) были преимущественно теоретическими или маломасштабными. Если раньше считалось, что экспонента масштабирования принимает значения , в этой работе установлено диапазон .

Изучалась зависимость ошибки от размера выборки и архитектур, а также требуемое число параметров для достижения минимальных потерь при фиксированной выборке. Были проанализированы задачи машинного перевода с LSTM (), генеративное языковое моделирование (), классификация ImageNet с ResNet () и распознавание речи с гибридными архитектурами ().

(Henighan, Kaplan и др., 2020)

В 2020 году[10] была проведена комплексная оценка статистических взаимосвязей между для различных масштабов и модальностей (текст, видео, изображения и др.).

Основные эмпирические закономерности (см. Таблицу 1 в[10]):

  • При фиксированной одной из величин ( или ) и варьировании другой (с ), достигаемая ошибка приближается функцией , где — изменяемый параметр.
  • При варьировании экспонента составляет (зависит от модальности), при варьировании .
  • Оптимальное число параметров при фиксированном бюджете вычислений:

Закон масштабирования подтверждён при обучении GPT-3[11].

Chinchilla scaling (Hoffmann и др., 2022)

Особый закон масштабирования, называемый «Chinchilla scaling», формулирует зависимость для языковых автогенеративных моделей, обучаемых одной эпохой и со специальным расписанием скорости обучения[13]:

  • — вычислительные затраты (FLOP).
  • — число параметров.
  • — число токенов в обучающем наборе.
  • — средние потери по негативному логарифму правдоподобия на токен.
  • Константы: (оценка затрат на обучение одного токена на один параметр), , , , , . Альтернативные оценки см. в[14].

Законы были аппроксимированы по данным для диапазонов .

Решая оптимизационную задачу при фиксированном , получаем оптимальные и минимальные потери:

/ FLOP / FLOPs Gopher
400 млн 1.92e+19 1/29968 8.0 млрд
1 млрд 1.21e+20 1/5706 20.2 млрд
10 млрд 1.23e+22 1/2819 205.1 млрд
67 млрд 5.76e+23 1 1.5 трлн
175 млрд 3.85e+24 6.7 3.7 трлн
280 млрд 9.90e+24 17.2 5.9 трлн
520 млрд 3.43e+25 59.5 11.0 трлн
1 трлн 1.27e+26 221.3 21.2 трлн
10 трлн 1.30e+28 22515.9 216.2 трлн

Несоответствие

Закон Chinchilla для языковых моделей трансформер рекомендует, чтобы при заданном бюджете вычислений оптимально пропорционально масштабировать число параметров и число обучающих токенов : . Это отличается от вывода Kaplan и соавторов[15], утверждавших, что нужно увеличивать быстрее, .

Различия частично связаны с тем, что Kaplan и др. не учитывали параметры в эмбеддинговом слое, рассматривали меньшие модели и предполагали нулевые асимптотические потери[16]. Влияет также настройка гиперпараметров[17].

За пределами Chinchilla scaling

Chinchilla scaling долгое время был ориентиром при обучении крупных моделей, однако в последние годы исследуют, как выйти за его пределы, например, увеличив экспоненту в законе масштабирования за счёт фильтрации данных[18].

Существуют исследования по масштабированию при ограниченных данных (например, для малых языков), когда приходится обучать несколько эпох на одном датасете[19][20]. Серия моделей Phi обучалась на книжных данных, генерируемых языковыми моделями, и объём таких данных ограничен только доступными вычислениями[21].

Chinchilla-оптимальность определяется только вычислительными затратами во время обучения, но в прикладных моделях часто существенно более важна фаза инференса. Перетренированием моделей достигается лучший итоговый результат[22][23].

Нарушенные законы масштабирования нейросетей (BNSL)

Исследование 2022 года[24] показало, что во многих задачах масштабирования формула зависимости метрики качества от масштаба примыкает к т. н. «разрывно степенному закону» (broken power law), причём на графике в логарифмических координатах видна серия линейных участков с переходами.

Эта зависимость наблюдается для моделей компьютерного зрения, обработки текста, аудио, видео, диффузионных и генеративных моделей, многомодальных и др. На практике такая форма хорошо аппроксимирует результаты для различных архитектур: остаточные сети, трансформеры, многослойные перцептроны, сверточные/рекуррентные/графовые сети, U-Net, энкодер-декодер и др.

Масштабирование инференса

Помимо увеличения вычислений при обучении, возможен рост вычислений на этапе инференса (т. н. test-time compute)[2]. Например, рейтинг Эло системы AlphaGo продолжает расти с увеличением времени, выделяемого на поиск решающего дерева на каждом ходе[25]. Для AlphaGo Zero увеличение рейтинга на 120 требует либо увеличения размера модели и затрат на обучение вдвое, либо удвоения вычислений при инференсе[26]. Аналогичные соотношения выявлены для навигационных задач, программирования и игр[27].

В докладе OpenAI o1 (2024) показано, что качество модели o1 растёт как от увеличения вычислений при обучении, так и от ростa вычислений при инференсе, включая задачи математики, научных рассуждений и программирования[28][29].

Существуют техники увеличения вычислений на инференсе: процессная супервизия (поэтапная генерация решения с промежуточными оценками), а также модели-ревизоры (многократная попытка решения с постоянным улучшением)[30].

Визуальные трансформеры

Трансформеры для компьютерного зрения аналогично языковым демонстрируют законы масштабирования. В 2022 году были обучены трансформеры для изображений в диапазонах , , при TPUv3-ядро-дней[31]. Минимальная достигнутая ошибка для классификации ImageNet аппроксимируется: .

Нейронный машинный перевод

Ghorbani и др[32]. исследовали законы масштабирования для нейронного машинного перевода (английский → немецкий) на трансформерах энкодер-декодер. Установлено, что минимальные потери зависят не только от общего числа параметров, но отдельно от числа в энкодере и декодере. Для некоторых датасетов (\emph{source-natural}) достигалась преждевременная «насыщаемость» ошибки, а для \emph{target-natural} BLEU-скор и ошибки росли вместе.

Gordon и др[33]. обучали трансформеры в диапазоне и , подтвердив масштабирование по закону Каплана и др[15]..

Трансферное обучение

Hernandez, Danny и др[34]. исследовали законы масштабирования в трансферном обучении языковых моделей. Доказано, что выигрыш от предобучения на смежном языке (например, английском для финетюна на Python) убывает с ростом размера собственной выборки и модели.

Точность вычислений

Kumar и др[35]. исследовали эффекты числовой точности при хранении весов и активаций: показано, что снижение разрядности экспоненциально снижает эффективную ёмкость модели. При инференсе переобученные модели чувствительнее к квантованию.

Законы параметрической плотности (densing laws)

Xiao[7]. предложили классифицировать эволюцию моделей по эффективности использования параметров: новые архитектуры достигают заданного качества при всё меньшем числе параметров. Считается, что максимум отношения "эффективного" числа параметров к реальному экспоненциально возрастает с течением времени.

Примечания