Контролируемый словарь

Контролируемый словарь (англ. controlled vocabulary) — способ организации знаний для последующего поиска и извлечения информации. Контролируемые словари используются в схемах предметного индексирования, предметных рубриках, тезаурусах^[1]^[2], таксономиях и других системах организации знаний. Схемы контролируемых словарей предписывают использование заранее определённых, предпочтительных терминов, отобранных их создателями, в отличие от естественно-языковых словарей, где таких ограничений нет^[3].

В библиотечном и информационном деле контролируемый словарь — это тщательно подобранный список слов и фраз, используемых для тегирования единиц информации (документов или работ), чтобы упростить их поиск^[4]^[5]. Контролируемые словари решают проблемы омографов, синонимов и полисемии посредством взаимно-однозначного соответствия между понятиями и предпочтительными терминами. Проще говоря, контролируемые словари сокращают нежелательную неоднозначность, присущую естественным языкам, где одно и то же понятие может называться разными словами, а также обеспечивают единообразие^[3].

Например, в предметных рубриках Библиотеки Конгресса (англ. Library of Congress Subject Headings)^[6] (система предметных рубрик, основанная на контролируемом словаре), предпочтительные термины (предметные рубрики) выбираются для обработки вариантов написания одного и того же слова (американский и британский варианты), выбора между научными и общеупотребительными терминами (например, «тараканы» и Periplaneta americana), а также между синонимами (automobile и car).

Выбор предпочтительных терминов основывается на принципах пользовательской востребованности (user warrant — какие термины, скорее всего, будут использовать пользователи), литературной востребованности (literary warrant — какие термины обычно используются в литературе) и структурного подхода (structural warrant — выбор терминов с учётом структуры и объёма словаря).

Контролируемые словари также обычно решают проблему омонимов с помощью уточняющих признаков. Например, слово «пул» должно быть уточнено, чтобы обозначить либо «бассейн» (англ. swimming pool), либо игру «пул» (англ. pool (game)), обеспечивая таким образом однозначность каждого термина^[7].

Виды словарей в библиотечном деле

Существует два основных типа инструментов контролируемых словарей, используемых в библиотеках: предметные рубрики^[8] и тезаурусы. Хотя различия между ними уменьшаются, остаются некоторые особенности:

Исторически предметные рубрики создавались каталогизаторами для описания книг в каталогах, а тезаурусы составлялись индексаторами для присвоения индексных терминов статьям и документам.
Предметные рубрики, как правило, охватывают более широкие темы (целые книги), тогда как тезаурусы обычно более специализированы.
В карточных каталогах предметные рубрики имели тенденцию к косвенному порядку слов (что сейчас корректируется в автоматизированных системах), тогда как термины тезаурусов всегда располагаются в прямом порядке.
В предметных рубриках используется больше предкоординации терминов — когда дизайнер словаря комбинирует несколько понятий в одну рубрику (например, «дети и терроризм»), тогда как тезаурусы используют отдельные прямые термины. Тезаурусы обычно содержат не только эквивалентные, но и более широкие/узкие термины, а также связанные между собой понятия, в отличие от многих предметных рубрик (до 1943 года в системе Библиотеки Конгресса практически не было подобной структуры, а с 1985 года появились такие элементы, как «широкий термин» и «узкий термин»).

Термины контролируемых словарей выбираются и организуются профессионалами (библиотекарями и информационными специалистами), обладающими экспертными знаниями в той или иной области. Контролируемые термины могут точно отражать содержание документа, даже если эти слова напрямую в нём не встречаются. К известным системам рубрик относятся система Библиотеки Конгресса, медицинские предметные рубрики (MeSH), созданные Национальной медицинской библиотекой США, и предметные рубрики Sears. Известные тезаурусы — Art and Architecture Thesaurus и тезаурус Education Resources Information Center.

При отборе терминов для контролируемого словаря важно учитывать их специфичность, порядок включения в запись и стабильность используемого языка.

Также важен уровень предкоординации и посткоординации терминов (в частности, баланс между полным перечислением и синтезом значений). Элементы контролируемых словарей (термины, фразы) используют как теги для идентификации контента документов или других объектов информационных систем (например, СУБД, веб-сервисов) — то есть как метаданные.

Существует три основных типа индексных языков:

Контролируемый индексный язык — для описания документа допускается использовать только утверждённые термины.
Индексный язык естественного языка — допускается использовать любые термины, встречающиеся в самом документе.
Свободный индексный язык — можно использовать любые термины, даже если они отсутствуют в документе.

Для индексирования документа индексатор также определяет уровень полноты индексирования: степень детализации описания (exhaustivity). При низком уровне аспектам, второстепенным для темы, не присваиваются отдельные индексные термины. Чем выше уровень полноты, тем больше терминов назначается каждому документу.

В последние годы выросла популярность поиска по всему тексту. Это подразумевает использование индексирования естественным языком с максимальной полнотой (каждое слово «проиндексировано»). Эти методы были сравнены в исследованиях, например, в статье 2007 года «Сравнительная оценка полнотекстового, концептуального и контекстно-зависимого поиска»^[9].

Преимущества

Считается, что использование контролируемых словарей повышает точность свободного текстового поиска, позволяя сокращать количество нерелевантных найденных документов (ложноположительных результатов). Такие нерелевантные документы часто появляются из-за неоднозначности естественного языка. Например, английское слово «football» может обозначать разные коллективные виды спорта: наиболее популярный — футбол (англ. association football), а также регбийный футбол, американский футбол, австралийский футбол, гэльский футбол, канадский футбол. Поиск по слову «football» вернёт документы, посвящённые разным видам спорта, а контролируемый словарь позволяет проставить метки, снимающие такие неоднозначности.

В сравнении со свободным поиском контролируемый словарь способен значительно повысить эффективность информационного поиска, если эффективность выражается как точность (доля релевантных документов среди найденных).

Использование правильного предпочтительного термина по контролируемому словарю может повысить и полноту поиска: в отличие от естественно-языковых схем, достаточно искать только предпочтительный термин, не подбирая всевозможные его синонимы.

Недостатки

Поиск с использованием контролируемого словаря может привести к недостаточной полноте, то есть не найти ряд релевантных документов по запросу пользователя.

Это особенно характерно, если запрос использует термины, которые индексатор сочёл недостаточно относящимися к теме документа и использовал другой термин (или вообще не использовал). Подобную ситуацию можно снизить только с помощью опытного пользователя, хорошо разбирающегося в используемой схеме словаря.

Возможна и другая ситуация: статья оказывается не помеченной термином индексатором из-за невысокой полноты индексирования (например, футбол упоминается как второстепенная тема и не метится). Для пользователя она может быть релевантной, но поиск её не обнаружит; свободный текстовый поиск подобные статьи найдёт.

Для свободного поиска свойственна высокая полнота (каждое слово ищется), однако точность существенно ниже; полнота может быть высокой только если пользователь перебирает возможные синонимы.

В быстроразвивающихся областях знания контролируемые словари могут быстро устаревать, если словарь не обновляют регулярно. Даже в идеальных условиях контролируемый словарь часто менее точен, чем язык самого документа. Индексатор может неверно интерпретировать смысл автора, а свободный текст этого недостатка не имеет, поскольку использует именно слова автора.

Составление и поддержка контролируемых словарей требует затрат: нужны эксперты или специализированные системы для индексирования каждого документа. К тому же пользователю нужно разбираться в схеме словаря для наиболее эффективной работы с системой. Однако контроль за синонимами и омонимами позволяет заметно повысить точность.

Для создания контролируемых словарей были разработаны многочисленные методики, такие как фасетная классификация, позволяющие описывать документы по нескольким аспектам.

Выбор терминов в словарях не лишён субъективности и этических вопросов; например, в ряде случаев ранее в словарях предпочтение отдавалось колониальным терминам при описании проблем коренных народов, что вызывало споры^[10].

Контролируемые словари (например, предметные рубрики Библиотеки Конгресса) являются неотъемлемой частью библиографии и классификации публикаций. Они были впервые разработаны в библиотечном и информационном деле. В 1950-х годах государственные органы начали разрабатывать контролируемые словари для стремительно растущей журнальной литературы по узким научным направлениям, например, медицинские предметные рубрики (MeSH) для Национальной медицинской библиотеки США. Позднее коммерческие компании (абстрактные и индексирующие службы) стали индексировать литературу во всех сферах знаний. В 1960-х годах появились онлайн-библиографические базы данных, доступные по dial-up через протокол X.25. Эти сервисы редко были общедоступными из-за сложности использования, и поиск осуществляли специально обученные библиотекари (search intermediaries). В 1980-х появились первые полнотекстовые базы, содержащие не только библиографическую, но и полную текстовую информацию о публикациях. Впоследствии такие базы перешли в интернет, однако большинство из них остаются платными либо ограничены только для членов библиотек и научных учреждений.

Техническая документация

В крупных организациях контролируемые словари вводят ради совершенствования технической коммуникации. Использование контролируемого словаря позволяет всем участникам проекта использовать одни и те же термины в одном и том же значении. Такая консистентность особенно важна в технической документации и управлении знаниями: стандартные термины используются во всех документах и коммуникациях вместо вариативных.

Семантическая сеть и структурированные данные

Эффективность поиска в интернете могла бы резко возрасти при внедрении контролируемых словарей для описания веб-страниц; такие словари являются фундаментом семантической сети, когда содержание страниц описывается машиночитаемыми метаданными. Одной из первых инициатив в этом направлении был проект Dublin Core. Контролируемый словарь, применяемый для индексирования веб-страниц — Polythematic Structured Subject Heading System.

Маловероятно, что одна единственная схема метаданных сможет описать всё содержимое интернета^[11]. Для создания семантической сети необходимо использовать, возможно, несколько схем метаданных. Для обмена и согласования таких словарей разработан формат XFML (англ. eXchangeable Faceted Metadata Language), основанный на принципах фасетной классификации^[12].

Контролируемые словари в семантической паутине определяют понятия и отношения (термины), используемые для описания предметной области. Например, для описания сущности «человек» в машиночитаемом виде нужен словарь с определением класса «Person», такой как словарь FOAF или Schema.org^[13]. Аналогично, для описания книги можно использовать словарь Book из Schema.org^[14], а для общих публикационных терминов — Dublin Core^[15], для событий — словарь Event из Schema.org^[16].

Для использования машиночитаемых терминов веб-разработчики могут выбрать разные форматы аннотирования: RDFa, микроразметка HTML5, JSON-LD в разметке или различные сериализации RDF (RDF/XML, Turtle, N3, TriG, TriX) во внешних файлах.

Harpring, Patricia. Introduction to controlled vocabularies: terminology for art, architecture, and other cultural works. Los Angeles: Getty Research Institute, 2010. ISBN 978-1-60606-018-6.

LOV — Каталог открытых лексиконов (Directory of Linked Open Vocabularies)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Контролируемый словарь

В библиотечном и информационном деле

Виды словарей в библиотечном деле

Индексные языки

Преимущества

Недостатки

Применение

Техническая документация

Семантическая сеть и структурированные данные

Примечания

Литература

Ссылки