BabelNet
BabelNet — многоязычный лексико-семантический граф знаний, онтология и энциклопедический словарь, разработанный в группе обработки естественного языка (NLP) Римского университета Сапиенца под руководством Роберто Навигли[1][2]. BabelNet был автоматически создан путём связывания Википедии с одним из самых популярных компьютерных лексиконов английского языка — WordNet. Интеграция осуществляется посредством автоматического сопоставления, а «лексикографические лакуны» в языках с низкими ресурсами заполняются с помощью статистического машинного перевода. В результате получается энциклопедический словарь, который предоставляет понятия и собственные имена, лексикализованные на многих языках и соединённые большим количеством семантических связей. Дополнительные лексикализации и определения добавляются через свободные wordnet-ресурсы, OmegaWiki, английский Викисловарь, Wikidata, FrameNet, VerbNet и другие проекты. Как и в WordNet, слова на разных языках группируются в сеты синонимов, называемые «Babel синсетами». Для каждого синсета BabelNet предоставляет краткие определения (глоссы) на многих языках, собранные как из WordNet, так и из Википедии.
Общие сведения
| BabelNet | |
|---|---|
| Тип | многоязычный энциклопедический словарь, связанные данные |
| Операционные системы | Virtuoso Universal Server, Lucene |
| Последняя версия | BabelNet 5.3 (декабрь 2023) |
| Лицензия | Attribution-NonCommercial-ShareAlike 3.0 Unported |
| Сайт | babelnet.org |
Статистика BabelNet
По состоянию на декабрь 2023 года BabelNet (версия 5.3) охватывает 600 языков. Он содержит почти 23 миллиона синсетов и около 1,7 миллиарда словоупотреблений (значений слов) независимо от языка. Каждый синсет включают в среднем 2 синонима на язык, то есть значения слов. Семантическая сеть включает все лексико-семантические отношения из WordNet (гиперонимия, гипонимия, меронимия, холонимия, антонимия, синонимия и др., всего около 364 000 рёбер отношений), а также менее специфицированные связи из Википедии (всего около 1,9 миллиарда рёбер)[1]. Версия 5.3 также ассоциирует около 61 миллиона изображений с синсетами Babel и предоставляет Lemon RDF-кодировку ресурса[3], доступную посредством SPARQL-интерфейса. 2,67 миллиона синсетов имеют доменные метки.
Применение
BabelNet используется в многоязычных приложениях в области обработки естественного языка. Лексикализованные знания, доступные в BabelNet, позволяют добиваться передовых результатов в областях:
Призы и признание
BabelNet был удостоен премии META 2015 года за «выдающуюся работу по преодолению языковых барьеров с помощью многоязычной лексикализованной семантической сети и онтологии, использующих разнообразные источники данных».
Статья в журнале «Artificial Intelligence», посвящённая BabelNet[1], получила премию Prominent Paper Award в 2017 году[9].
BabelNet также стал основной темой статьи в журнале «Time»[10], посвящённой современным инновационным лексикографическим ресурсам, доступным в Интернете.