BabelNet

BabelNet — многоязычный лексико-семантический граф знаний, онтология и энциклопедический словарь, разработанный в группе обработки естественного языка (NLP) Римского университета Сапиенца под руководством Роберто Навигли[1][2]. BabelNet был автоматически создан путём связывания Википедии с одним из самых популярных компьютерных лексиконов английского языка — WordNet. Интеграция осуществляется посредством автоматического сопоставления, а «лексикографические лакуны» в языках с низкими ресурсами заполняются с помощью статистического машинного перевода. В результате получается энциклопедический словарь, который предоставляет понятия и собственные имена, лексикализованные на многих языках и соединённые большим количеством семантических связей. Дополнительные лексикализации и определения добавляются через свободные wordnet-ресурсы, OmegaWiki, английский Викисловарь, Wikidata, FrameNet, VerbNet и другие проекты. Как и в WordNet, слова на разных языках группируются в сеты синонимов, называемые «Babel синсетами». Для каждого синсета BabelNet предоставляет краткие определения (глоссы) на многих языках, собранные как из WordNet, так и из Википедии.

undefined
Общие сведения
BabelNet
Тип многоязычный энциклопедический словарь, связанные данные
Операционные системы Virtuoso Universal Server, Lucene
Последняя версия BabelNet 5.3 (декабрь 2023)
Лицензия Attribution-NonCommercial-ShareAlike 3.0 Unported
Сайт babelnet.org

Статистика BabelNet

По состоянию на декабрь 2023 года BabelNet (версия 5.3) охватывает 600 языков. Он содержит почти 23 миллиона синсетов и около 1,7 миллиарда словоупотреблений (значений слов) независимо от языка. Каждый синсет включают в среднем 2 синонима на язык, то есть значения слов. Семантическая сеть включает все лексико-семантические отношения из WordNet (гиперонимия, гипонимия, меронимия, холонимия, антонимия, синонимия и др., всего около 364 000 рёбер отношений), а также менее специфицированные связи из Википедии (всего около 1,9 миллиарда рёбер)[1]. Версия 5.3 также ассоциирует около 61 миллиона изображений с синсетами Babel и предоставляет Lemon RDF-кодировку ресурса[3], доступную посредством SPARQL-интерфейса. 2,67 миллиона синсетов имеют доменные метки.

Применение

BabelNet используется в многоязычных приложениях в области обработки естественного языка. Лексикализованные знания, доступные в BabelNet, позволяют добиваться передовых результатов в областях:

Призы и признание

BabelNet был удостоен премии META 2015 года за «выдающуюся работу по преодолению языковых барьеров с помощью многоязычной лексикализованной семантической сети и онтологии, использующих разнообразные источники данных».

Статья в журнале «Artificial Intelligence», посвящённая BabelNet[1], получила премию Prominent Paper Award в 2017 году[9].

BabelNet также стал основной темой статьи в журнале «Time»[10], посвящённой современным инновационным лексикографическим ресурсам, доступным в Интернете.

Примечания

Ссылки