PaLM

PaLM (Pathways Language Model) — большая языковая модель на базе трансформеров, разработанная Google AI и включающая 540 миллиардов параметров[1]. Для исследований масштабирования также были созданы сокращённые версии PaLM с 8 и 62 миллиардами параметров.

Что важно знать
PaLM
Тип Большая языковая модель
Разработчик Google AI
Языки интерфейса английский
Сайт ai.google

Функциональные особенности

Модель PaLM способна выполнять широкий спектр задач, включая логическое и арифметическое рассуждение, объяснение шуток, генерацию программного кода и машинный перевод[2].[3][4][5] При применении к PaLM техники цепочек рассуждений (chain-of-thought prompting), модель демонстрирует высокие результаты на задачах с несколькими шагами рассуждения — таких, как решение текстовых задач или вопросы, требующие логического вывода[1].[2]

Впервые PaLM была анонсирована в апреле 2022 года и оставалась закрытой до марта 2023 года, когда Google запустила публичный API для PaLM и других технологий[6]. До публичного запуска API был доступен только ограниченному числу разработчиков по списку ожидания[7].

Google совместно с DeepMind разработали медицинскую версию PaLM 540B с дообучением на медицинских данных — Med-PaLM, превзошедшую предыдущие модели по качеству ответов на медицинские вопросы[8].[9] Med-PaLM стала первой программой, успешно прошедшей экзамен на получение медицинской лицензии в США, а также способной корректно отвечать как на вопросы с множественным выбором, так и на открытые вопросы, обосновывать свои ответы и их самооценивать[10].

Google также разработала PaLM-E — мультимодальную языковую модель для задач робототехники, использующую визуальные преобразования[11].[12] PaLM-E может выполнять робототехнические задачи без необходимости дообучения или дополнительной настройки[13].

В мае 2023 года на ежегодной конференции Google I/O была представлена версия PaLM 2[14]. Сообщается, что PaLM 2 — это модель с 340 миллиардами параметров, обученная на 3,6 триллиона токенов[15].

Обучение

PaLM была предварительно обучена на массиве из 780 миллиардов токенов, охватывающем широкий спектр задач обработки естественного языка и пользовательских сценариев. Этот датасет включал отфильтрованные веб-страницы, книги, статьи из Википедии, новостные публикации, исходные коды из открытых репозиториев на GitHub и диалоги из социальных сетей[1].[2] В основе лежит тот же датасет, что использовался для обучения модели LaMDA от компании Google[2]

Обучение PaLM 540B было выполнено на двух TPU v4-подкластерах, каждый из которых включал 3072 чипа TPU v4 на 768 узлах — это самая крупная на момент публикации конфигурация TPU, использовавшая гибрид параллелизма по данным и модели.[2][16]. Используя суммарно 6144 чипа и достигая аппаратной эффективности FLOP 57,8 %, обучение установило рекорд эффективности среди моделей такого масштаба[3].

Примечания