Minerva (model)

Minervaбольшая языковая модель, разработанная итальянской исследовательской группой Sapienza NLP при Римском университете Ла Сапиенца под руководством Роберто Навильи. Модель обучалась «с нуля» с основным упором на итальянский язык[2].[3][4]

Что важно знать
Minerva
Тип Чат-бот
Большая языковая модель
Автор Римский университет Ла Сапиенца[1]
Разработчик группа исследований Sapienza NLP при Римском университете Ла Сапиенца
Операционная система Веб-приложение
Языки интерфейса итальянский, английский
Первый выпуск апрель 2024
Сайт minerva-llm.org

Описание

Модель предназначена для задач обработки естественного языка и способна понимать и генерировать текст, близкий к человеческому. Minerva использует методы глубокого обучения, в частности архитектуру трансформера, для обработки и генерации текста. Обучалась на большом корпусе текстов, а также была дополнительно дообучена для решения различных языковых задач, таких как машинный перевод, суммирование текста и ответы на вопросы[5].

Minerva 7B

Minerva 7B содержит 7 миллиардов параметров и была обучена примерно на 2,5 триллионах токенов, которые равномерно распределены между итальянскими и английскими текстами; также использовано дополнительно 200 миллиардов токенов кода. Благодаря такому объему данных модель уверенно работает как с итальянским, так и с английским языком, что делает её полезной для многих задач обработки естественного языка[6].[7]

Разработка Minerva 7B велась в рамках проекта Future Artificial Intelligence Research (FAIR) в сотрудничестве с суперкомпьютерным центром CINECA, который предоставил для обучения модель Leonardo. Дополнительный вклад внесли компании Babelscape и проект CREATIVE PRIN. Модели Minerva открыты: и данные, и сами модели доступны публике[8].[9]

Примечания

Ссылки