Minerva (model)
Minerva — большая языковая модель, разработанная итальянской исследовательской группой Sapienza NLP при Римском университете Ла Сапиенца под руководством Роберто Навильи. Модель обучалась «с нуля» с основным упором на итальянский язык[2].[3][4]
Что важно знать
| Minerva | |
|---|---|
| Тип |
Чат-бот Большая языковая модель |
| Автор | Римский университет Ла Сапиенца[1] |
| Разработчик | группа исследований Sapienza NLP при Римском университете Ла Сапиенца |
| Операционная система | Веб-приложение |
| Языки интерфейса | итальянский, английский |
| Первый выпуск | апрель 2024 |
| Сайт | minerva-llm.org |
Описание
Модель предназначена для задач обработки естественного языка и способна понимать и генерировать текст, близкий к человеческому. Minerva использует методы глубокого обучения, в частности архитектуру трансформера, для обработки и генерации текста. Обучалась на большом корпусе текстов, а также была дополнительно дообучена для решения различных языковых задач, таких как машинный перевод, суммирование текста и ответы на вопросы[5].
Minerva 7B содержит 7 миллиардов параметров и была обучена примерно на 2,5 триллионах токенов, которые равномерно распределены между итальянскими и английскими текстами; также использовано дополнительно 200 миллиардов токенов кода. Благодаря такому объему данных модель уверенно работает как с итальянским, так и с английским языком, что делает её полезной для многих задач обработки естественного языка[6].[7]
Разработка Minerva 7B велась в рамках проекта Future Artificial Intelligence Research (FAIR) в сотрудничестве с суперкомпьютерным центром CINECA, который предоставил для обучения модель Leonardo. Дополнительный вклад внесли компании Babelscape и проект CREATIVE PRIN. Модели Minerva открыты: и данные, и сами модели доступны публике[8].[9]


