WordNet

WordNet — лексическая база данных, связывающая слова английского языка через семантические отношения, такие как синонимы, гипонимы и меронимы. Синонимы группируются в так называемые синсеты с краткими определениями и примерами употребления, что делает WordNet одновременно сочетанием и развитием словаря и тезауруса. Основные применения WordNet — автоматический анализ текста и задачи искусственного интеллекта. Первоначально WordNet был создан для английского языка[1]. База данных и программные инструменты WordNet распространяются на условиях BSD-подобной лицензии и доступны для свободного скачивания. Последний официальный релиз от Принстона состоялся в 2011 году, и новых версий пока не планируется по кадровым и финансовым причинам[2]. С 2024 года ежегодные обновления публикуются посредством Open English WordNet. Ранее онлайн-версия была доступна на wordnet.princeton.edu, однако сейчас поддерживается новый онлайн-сервис на en-word.net. В настоящее время существуют WordNet для более чем 200 языков[3].

Что важно знать
WordNet
Тип Лексическая база данных
Автор Джордж Армитидж Миллер
Разработчик Принстонский университет
Написана на Prolog
Операционные системы Unix, Linux, Solaris, Windows
Языки интерфейса более 200 языков
Первый выпуск середина 1980-х
Последняя версия 2024 Edition (1 ноября 2024)
Репозиторий github.com/globalwordnet…
Лицензия BSD-подобная
Сайт wordnet.princeton.edu

История и команда

WordNet был впервые создан в 1985 году на английском языке в Лаборатории когнитивных наук Принстонского университета под руководством профессора психологии Джорджа Армитиджа Миллера. Позднее проекты возглавила Кристиане Фелльбаум. Проект финансировался Управлением военно-морских исследований США, а позже и другими ведомствами — DARPA, Национальным научным фондом, Disruptive Technology Office (ранее Advanced Research and Development Activity) и REFLEX. За работу с WordNet Миллер и Фелльбаум были награждены премией Антонио Замполли в 2006 году.

Ассоциация Global WordNet — некоммерческая организация, предоставляющая платформу для обсуждения и координации WordNet для всех языков мира. Кристиане Фелльбаум и Пик Т.Й.М. Воссен являются её сопредседателями[4].

Содержание базы данных

В базе содержится 155 327 слов, организованных в 175 979 синсетов, что в сумме даёт 207 016 пар «слово-значение». В сжатом виде размер базы — около 12 мегабайт[2].

WordNet включает основные лексические категории — существительные, глаголы, прилагательные и наречия, но не охватывает предлоги, детерминативы и другие служебные слова.

Слова одной лексической категории и со сходными значениями группируются в синсеты, которые могут быть как одиночными словами, так и устойчивыми выражениями (например, «eat out» или «car pool»). Различные значения полисемантических слов формируют разные синсеты. Каждая группа получает определение (глоссу) и примеры употребления.

Пример прилагательного синсета:

good, right, ripe — (наиболее подходящий для определённой цели; «подходящее время сажать томаты», «правильное время для действий», «наступило время значительных социологических изменений»).

Все синсеты соединяются различными семантическими отношениями, включая (в зависимости от части речи):

  • Для существительных:
 ** гипероним — Y гипероним Х, если каждое Х это вид Y (например, canine — гипероним dog)
 ** гипоним — Y гипоним Х, если каждое Y — вид X (dog — гипоним canine)
 ** координатный термин — Y и X делят одного гиперонима (wolf — координатный термин для dog)
 ** голоним — Y голоним Х, если X — часть Y (здание — голоним окна)
 ** мероним — Y мероним Х, если Y — часть Х (окно — мероним здания)
  • Для глаголов:
 ** гипероним — действие Y гипероним X (to perceive — гипероним to listen)
 ** тропоним — Y тропоним Х, если Y — разновидность Х по способу (to lisp — тропоним to talk)
 ** энтейлмент — Y является необходимым действием для Х (to sleep — энтейлмент to snore)
 ** координатный термин — глаголы делят одного гиперонима (to lisp / to yell)

Кроме межсинсетных семантических отношений, отдельные слова внутри синсетов могут быть связаны лексическими отношениями, например, существительное «director» связано с глаголом «direct» через морфосемантическую связь.

В программном обеспечении для WordNet реализованы морфологические функции, позволяющие нормально возвращать лемму/основу по словоформе (например, для «ate» вернётся «eat»).

Организация знаний

Существительные и глаголы организованы в иерархии по гиперонимии (отношение типа «IS A»). Например, слово dog в одной из иерархий:

  • dog, domestic dog, Canis familiaris
 * canine, canid
   * carnivore
     * placental, placental mammal, eutherian, eutherian mammal
       * mammal
         * vertebrate, craniate
           * chordate
             * animal, animate being, beast, brute, creature, fauna
               * ...

Всего эти иерархии разбиты на 25 начальных деревьев для существительных и 15 — для глаголов («лексикографические файлы»), все они связаны с главным синсетом entity. Иерархии существительных существенно глубже, чем глагольные.

Прилагательные не образуют древовидных иерархий: вместо этого полярные антонимы («hot» — «cold») составляют оппозиционные центры («гантели»), к которым спутниковыми отношениями примыкают синонимы («steaming» — «chilly»).

Психолингвистические аспекты

Первоначальная задача проекта WordNet — построить лексическую базу, согласующуюся с теориями семантической памяти, появившимися в конце 1960-х. Эксперименты показали, что знания организуются иерархически: время извлечения концепта зависит от числа пересечённых уровней. Так, утверждение «канарейки поют» подтверждается быстрее, чем «канарейки летают» (для чего вспоминается класс «птицы»), а последнее — быстрее, чем «канарейки имеют кожу» (что требует подъёма вплоть до класса «животные»)[5].

Несмотря на критику подобных экспериментов, часть организации WordNet подтверждается психолингвистикой (например, при аномической афазии наблюдается избирательное выпадение по семантическим категориям). Центральные антонимы WordNet (двойные «гантели») чаще встречаются совместно, чем случайным образом, что подтверждается для разных языков.

WordNet как лексическая онтология

WordNet иногда называют онтологией, хотя создатели не употребляют этот термин применительно к системе в целом. Отношения гиперонимии и гипонимии между существительными можно трактовать как отношения специализации понятий. Однако для использования WordNet в качестве лексической онтологии требуется исправление ряда семантических несогласованностей, а также различение связей «подтип» и «экземпляр», добавление уникальных идентификаторов. Некоторые ресурсы проводят подобные исправления, например при интеграции WordNet 1.7 в базу данных WebKB-2[6]. В большинстве случаев интеграция в онтологии сопровождается системной переработкой, например при OntoClean-реструктуризации верхнего уровня WordNet.

WordNet также переводился в формальные спецификации посредством методов вытягивания и интерпретации ассоциативных связей на основе концептуальных отношений, определяемых верхней онтологией DOLCE[7].

Ограничения

Главное ограничение WordNet и подобных ресурсов (например, ImageNet) — семантические отношения лучше проработаны для конкретных концептов, чем для абстракций[8]. К примеру, легко описать иерархию: «сосна» — вид «дерева», «дерево» — вид «растения», однако гораздо труднее классифицировать абстракции вроде эмоций.

Некоторые понятия WordNet специфичны для языка; максимальное точное соответствие между языками достигает 94 %[9]. Хотя синонимы, гипонимы, меронимы и антонимы встречаются во всех языках, другие типы связей более языковоспецифичны[10], что затрудняет интероперабельность, но в то же время способствует изучению языковых различий.

В WordNet отсутствует информация об этимологии, произношении и лишь ограниченно представлены сведения об употреблении. Система рассчитана на общеупотребительные слова и плохо охватывает узкоспециализированную лексику.

WordNet — наиболее широко используемый вычислимый лексикон для задач разрешения неоднозначности лексем[11]. Однако отмечается, что WordNet определяет слишком тонкие различия значений, что затрудняет достижения точности, сопоставимой с человеческой, — люди сами не всегда согласны относительно выбора значения в контексте. Здесь предлагаются методы кластеризации схожих значений[12][13][14].

Оскорбительный контент

В WordNet представлены слова, которые могут показаться негативными или оскорбительными[15]. Значения слов и их восприятие меняются во времени и между группами; невозможно заранее классифицировать слово как «оскорбительное» или «уничижительное» вне контекста. Поэтому пользователям WordNet следует самостоятельно фильтровать такие термин.

Однако такая ситуация характерна и для других лексических ресурсов, включая словари и тезаурусы, которые также могут содержать оскорбительные слова без полного описания всех контекстов их употребления. Как и в случае с другими справочниками, ответственность за фильтрацию ложится на пользователя.

Лицензированные и открытые WordNet

Позднее начато создание WordNet для других языков. К 2012 году был составлен соответствующий список[16]. Сообщество Global WordNet работает над переводом существующих WordNet в открытую домен, чтобы облегчить доступ к ним как ресурсу для естественно-языковых и онтологических задач.

Проект Open Multilingual WordNet[17] предоставляет доступ к открыто лицензированным WordNet на разных языках, все они связаны с Princeton WordNet (PWN).

Применение

WordNet используется для разрешения неоднозначности, информационного поиска, автоматической классификации и аннотирования текстов, реферирования, машинного перевода и даже автоматической генерации кроссвордов.

Одно из популярнейших применений — вычисление семантического сходства между словами: разрабатываются алгоритмы по количеству рёбер между синсетами в графовой структуре WordNet. Чем ближе два синсета или слова, тем ближе их значения. Реализации представлены, например, в модуле WordNet::Similarity для Perl[18] и в NLTK на Python[19]. Есть и более продвинутые варианты, такие как ADW на Java[20]. WordNet также может использоваться для связывания словарей и онтологий[21].

Интерфейсы

Разработчики из Принстона поддерживают список API для доступа к WordNet и связанных проектов для большинства языков и платформ[22].

Связанные проекты и расширения

WordNet интегрирован с рядом онтологических и лексических ресурсов Семантической паутины; наиболее часто маппируются верхние уровни синсетов.

Global WordNet Association

Global WordNet Association (GWA)[23] — некоммерческая ассоциация для обсуждения, обмена и координации wordnet-проектов на всех языках, занимающаяся в том числе стандартами и ведением глобального списка wordnet-ресурсов[24].

WordNet на других языках

  • Arabic WordNet[25][26] — для арабского.
  • BulNet[27] — для болгарского языка (Болгарская академия наук).
  • CWN (Chinese Wordnet или 中文詞彙網路) при National Taiwan University[28].
  • EuroWordNet[29] — для ряда европейских языков (не свободно распространяется; глобальный координационный проект Global WordNet).
  • FinnWordNet[30] — для финского языка.
  • GermaNet[31] — для немецкого языка.
  • IndoWordNet[32] — объединяет wordnet-версии для 18 языков Индии.
  • plWordNet[33] — польская версия (Вроцлавская политехника).
  • Проект Russnet[34] и Российский wordnet[35].

Связанные проекты

  • BabelNet — многоязычная семантическая сеть, совмещающая WordNet и Wikipedia[36].
  • SUMO — онтология Knowledge Engineering с ручной привязкой к synset’ам WordNet[37].
  • DBpedia — проект структурированных данных, связанный с WordNet[38].
  • ImageNet — база визуальных данных, построенная по иерархии WordNet (для существительных)[39].
  • SentiWordNet — ресурс для анализа тональности отзывов (каждому синсету WordNet присваивается степень положительности, отрицательности и нейтральности)[40].

Дистрибуции

База данных WordNet распространяется как словарь (единый пакет) для следующих программ:

  • Babylon[41]
  • GoldenDict[42]
  • Lingoes[43]
  • LexSemantic — цифровая платформа публикации словарей и энциклопедий (WordnetPlus).

Примечания