Большая языковая модель

Большая языковая модель (БЯМ) — это языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач[1].

Характеристики

Хотя термин «большая языковая модель» не имеет формального определения, он обычно относится к моделям глубокого обучения, имеющим количество параметров порядка миллиардов и более[2]. БЯМ — это модели общего назначения, которые превосходно справляются с широким спектром задач, в отличие от обучения одной конкретной задаче (например, анализу настроений, распознаванию именованных сущностей или математическим рассуждениям)[1][3]. Несмотря на обучение на простых задачах, таких как предсказание следующего слова в предложении, нейронные языковые модели с достаточным обучением и подсчётом параметров схватывают большую часть синтаксиса и семантики человеческого языка. Кроме того, большие языковые модели демонстрируют значительные общие знания о мире и способны «запоминать» большое количество фактов во время обучения[1].

Архитектура и обучение

В БЯМ чаще всего использовалась архитектура трансформера, которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как модели с долгой кратковременной памятью). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере BERT), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту[4]. В дополнение к задаче прогнозирования следующего слова или «заполнения пробелов» БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем корпусе текстов[4].

Самые ранние БЯМ обучались на корпусах, содержащих порядка миллиардов слов. Первоначальная версия GPT была обучена в 2018 году на BookCorpus, состоящем из 985 миллионов слов. В том же году BERT прошёл обучение на сочетании BookCorpus и английской Википедии, что соответствовало 3,3 миллиарда словам[4]. С тех пор учебные корпуса для БЯМ увеличились на порядки, достигнув сотен миллиардов или триллионов токенов[4].

Обучение БЯМ требует больших вычислительных ресурсов. Исследование 2020 года оценило стоимость обучения модели с 1,5 миллиардами параметров (на 1-2 порядка меньше, чем уровень техники в то время) в 1,6 миллиона долларов[5].

Анализ 2020 года показал, что возможности нейронных языковых моделей (измеряемые функцией потерь при обучении) плавно увеличивались по степенному закону от количества параметров, количества обучающих данных и вычислений, используемых для обучения[6][7]. Эти связи были проверены в широком диапазоне значений (до семи порядков), и не наблюдалось затухания отношения на верхнем конце диапазона (в том числе для размеров сети до триллионов параметров)[7].

Применение к последующим задачам

В период с 2018 по 2020 год стандартный метод использования БЯМ для конкретной задачи NLP заключался в тонкой настройке модели с дополнительным обучением для конкретной задачи. Впоследствии обнаружилось, что более мощные БЯМ, такие как GPT-3, могут решать задачи без дополнительного обучения с помощью методов «подсказки», в которых решаемая задача представляется модели в виде текстовой подсказки, возможно, с некоторыми текстовыми примерами подобных задач и их решений[1].

Тонкая настройка

Тонкая настройка — это практика модификации существующей предварительно обученной языковой модели путём её обучения (под наблюдением) конкретной задаче (например, анализ настроений, распознавание именованных объектов или маркировка частей речи). Это форма передаточного обучения. Обычно это включает введение нового набора весов, связывающих последний слой языковой модели с выходными данными последующей задачи. Исходные веса языковой модели могут быть «заморожены», так что во время обучения изучается только новый слой весов, соединяющий их с выходными данными. В качестве альтернативы исходные веса могут получать небольшие обновления (возможно, с замороженными более ранними слоями)[4].

Подсказка

В парадигме подсказок, популяризированной GPT-3[3] решаемая проблема формулируется с помощью текстовой подсказки, которую модель должна решить, предоставляя завершение (посредством статистического вывода). В «подсказке с несколькими выстрелами» подсказка включает небольшое количество примеров похожих пар (задача и решение). Например, задача анализа тональности маркировки тональности рецензии на фильм можно вызвать следующим образом[3]:

Review: This movie stinks.
Sentiment: negative

Review: This movie is fantastic!
Sentiment:

Если модель выдаёт «положительно», значит, она правильно решила задачу. В подсказках с «нулевым выстрелом» примеры решения не предоставляются[5][8]. Примером с нулевой подсказкой для задачи с ответом на вопрос может быть «Кто написал книгу „Происхождение видов“?».

Было показано, что малая производительность БЯМ позволяет достигать конкурентоспособных результатов в задачах обработки естественного языка, иногда превосходя предыдущие современные подходы к точной настройке. Примерами таких задач NLP являются перевод, ответы на вопросы, задачи с ограничениями, расшифровка слов и использование нового слова в предложении[8]. Создание и оптимизация таких подсказок называется инжинирингом подсказок и в настоящее время является активной областью исследований.

Список больших языковых моделей

Список больших языковых моделей
Название Дата релиза[a] Разработчик Число параметров[b] Размер корпуса текстов Лицензия[c] Примечания
BERT 2018 Google 340 миллион[9] 3.3 миллиард слов[9] Apache 2.0[10] ранняя и влиятельная языковая модель[1]
GPT-2 2019 OpenAI 1.5 миллиард[11] 40GB[12] (~10 миллиард токенов)[13] MIT[14] универсальная модель на базе трансформенной архитектуры
GPT-3 2020 OpenAI 175 миллиард[5] 499 миллиард токенов[13] общедоступный веб-API Доработанный вариант GPT-3, получивший название GPT-3.5, стал общедоступным через веб-интерфейс под названием ChatGPT в 2022 году[15].
GPT-Neo Март 2021 EleutherAI 2.7 миллиард[16] 825 GiB[17] MIT[18] Первый из серии бесплатных альтернатив GPT-3, выпущенных EleutherAI. GPT-Neo превзошёл модель GPT-3 аналогичного размера в некоторых тестах, но был значительно хуже, чем самая большая GPT-3[18].
GPT-J Июнь 2021 EleutherAI 6 миллиард[19] 825 GiB[17] Apache 2.0 Языковая модель в стиле GPT-3
Claude[20] Декабрь 2021 Anthropic 52 миллиард[21] 400 миллиард токенов[21] Закрытая бета fine-tuned for desirable behavior in conversations[22]
GLaM (Generalist Language Model) Декабрь 2021 Google 1.2 триллион[23] 1.6 триллион токенов[23] Proprietary модель с разреженной смесью экспертов (англ. sparse mixture-of-experts mode), что делает её более дорогой для обучения, но более дешёвой для выполнения логического вывода по сравнению с GPT-3
LaMDA (Language Models for Dialog Applications) Январь 2022 Google 137 миллиард[24] 1.56T слов[24] Proprietary специализируется на генерации ответов в разговорах
Megatron-Turing NLG Октябрь 2021[25] Microsoft and Nvidia 530 миллиард[26] 338.6 миллиард токенов[26] Restricted web access стандартная архитектура, но обученная на суперкомпьютерном кластере
GPT-NeoX Февраль 2022 EleutherAI 20 миллиард[27] 825 GiB[17] Apache 2.0 на базе архитектуры Megatron
Chinchilla Март 2022 DeepMind 70 миллиард[28] 1.3 триллион токенов[28][29] Proprietary модель с уменьшенным количеством параметров, обученная на большем количестве данных
PaLM (Pathways Language Model) Апрель 2022 Google 540 миллиард[30] 768 миллиард токенов[28] Proprietary направленная на достижение практических пределов масштаба модели
OPT (Open Pretrained Transformer) Май 2022 Meta 175 миллиард[31] 180 миллиард токенов[32] Некоммерческое исследование[d] GPT-3 архитектура с некоторыми адаптациями Megatron
BLOOM Июль 2022 Коллаборация под управлением Hugging Face 175 миллиард[6] 350 миллиард токенов (1.6TB)[33] Responsible AI По сути, GPT-3, но обучена многоязычному корпусу текстов (30 % английский, исключая языки программирования).
AlexaTM (Teacher Models) Ноябрь 2022 Amazon 20 миллиард[34] 1.3 триллион[35] общедоступный веб-API[36] двунаправленная архитектура «последовательность к последовательности»
LLaMA (Large Language Model Meta AI) Февраль 2023 Meta 65 миллиард[37] 1.4 триллион[37] Некоммерческое исследование[e] обучена на большом корпусе из 20 языков, чтобы добиться лучшей производительности с меньшим количеством параметров[37].
GPT-4 Март 2023 OpenAI Не даны[f] Не даны общедоступный веб-API Доступно для пользователей ChatGPT Plus. Microsoft подтвердила, что в Bing Chat используется модель GPT-4[39].
StableLM Апрель 2023 Stability-AI 7 миллиард[40] 800 миллиард[40] Исходный код: Apache 2.0[40]
VideoPoet 8 февраля 2024 Google
T5 23 октября 2019 Google AI
Llama.cpp 10 марта 2023 Linux, macOS, Microsoft Windows и FreeBSD
Jais (language model) 30 августа 2023 Core42 (компания G42)

Университет искусственного интеллекта имени Мухаммада ибн Зайеда Cerebras Systems

Brave Leo 2 ноября 2023 Android, iOS, Windows, macOS, Linux

Источники

Комментарии
  1. Это дата первого появления документации, описывающей архитектуру модели.
  2. Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели, имеющих разные размеры. В этих случаях здесь указывается размер самой большой модели.
  3. Это лицензия весов предварительно обученной модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведён.
  4. Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
  5. Лицензия Facebook и схема распространения ограничивали доступ к утвержденным исследователям, но веса моделей утекли и стали широко доступны.
  6. Как указано в Техническом отчете: «Учитывая конкурентную среду и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчёт не содержит дополнительных сведений об архитектуре (включая размер модели), оборудовании, обучающих вычислениях, построении набора данных, методе обучения, или подобную информацию"[38]
Примечания