PaLM
PaLM (Pathways Language Model) — большая языковая модель на базе трансформеров, разработанная Google AI и включающая 540 миллиардов параметров[1]. Для исследований масштабирования также были созданы сокращённые версии PaLM с 8 и 62 миллиардами параметров.
Что важно знать
| PaLM | |
|---|---|
| Тип | Большая языковая модель |
| Разработчик | Google AI |
| Языки интерфейса | английский |
| Сайт | ai.google |
Функциональные особенности
Модель PaLM способна выполнять широкий спектр задач, включая логическое и арифметическое рассуждение, объяснение шуток, генерацию программного кода и машинный перевод[2].[3][4][5] При применении к PaLM техники цепочек рассуждений (chain-of-thought prompting), модель демонстрирует высокие результаты на задачах с несколькими шагами рассуждения — таких, как решение текстовых задач или вопросы, требующие логического вывода[1].[2]
Впервые PaLM была анонсирована в апреле 2022 года и оставалась закрытой до марта 2023 года, когда Google запустила публичный API для PaLM и других технологий[6]. До публичного запуска API был доступен только ограниченному числу разработчиков по списку ожидания[7].
Google совместно с DeepMind разработали медицинскую версию PaLM 540B с дообучением на медицинских данных — Med-PaLM, превзошедшую предыдущие модели по качеству ответов на медицинские вопросы[8].[9] Med-PaLM стала первой программой, успешно прошедшей экзамен на получение медицинской лицензии в США, а также способной корректно отвечать как на вопросы с множественным выбором, так и на открытые вопросы, обосновывать свои ответы и их самооценивать[10].
Google также разработала PaLM-E — мультимодальную языковую модель для задач робототехники, использующую визуальные преобразования[11].[12] PaLM-E может выполнять робототехнические задачи без необходимости дообучения или дополнительной настройки[13].
В мае 2023 года на ежегодной конференции Google I/O была представлена версия PaLM 2[14]. Сообщается, что PaLM 2 — это модель с 340 миллиардами параметров, обученная на 3,6 триллиона токенов[15].
Обучение
PaLM была предварительно обучена на массиве из 780 миллиардов токенов, охватывающем широкий спектр задач обработки естественного языка и пользовательских сценариев. Этот датасет включал отфильтрованные веб-страницы, книги, статьи из Википедии, новостные публикации, исходные коды из открытых репозиториев на GitHub и диалоги из социальных сетей[1].[2] В основе лежит тот же датасет, что использовался для обучения модели LaMDA от компании Google[2]
Обучение PaLM 540B было выполнено на двух TPU v4-подкластерах, каждый из которых включал 3072 чипа TPU v4 на 768 узлах — это самая крупная на момент публикации конфигурация TPU, использовавшая гибрид параллелизма по данным и модели.[2][16]. Используя суммарно 6144 чипа и достигая аппаратной эффективности FLOP 57,8 %, обучение установило рекорд эффективности среди моделей такого масштаба[3].


