Метаданные

Метаданные (от англ. metadata; также метаинформация) — это данные, определяющие и описывающие характеристики других данных[1]. Метаданные предназначены для упрощения поиска, объяснения, локализации, извлечения, использования и управления данными. Например, название, автор и дата публикации книги — это метаданные о книге. Метаданные могут быть потенциально бесконечными по объёму и возможностям описания, в отличие от конечных данных. Поэтому любые попытки определить, классифицировать виды или структуры метаданных чаще выражаются на примерах в зависимости от контекста их применения. Термин «метаданные» появляется в истории с 1960-х годов — сначала в информатике, а затем в массовой культуре.

Типы

Существует множество различных типов метаданных, в том числе:

  • Описательные метаданные — сведения, предназначенные для идентификации и поиска ресурса (например, название, аннотация, автор, ключевые слова).
  • Структурные метаданные — сведения о контейнерах данных и о том, как составные объекты собраны, например, как страницы формируют главы. Описывают типы, версии, связи и другие характеристики цифровых материалов[2].
  • Административные метаданные[3] — информация, необходимая для управления ресурсом: тип, права, время и способ создания[4].
  • Справочные метаданные — сведения о содержании и качестве статистических данных.
  • Статистические метаданные[5] — также процессные данные (process data), описывают процессы сбора, обработки или производства статистических данных[6].
  • Правовые метаданные — сведения о создателе, правообладателе и лицензии ресурса.

Метаданные не обязательно строго относятся только к одной из этих категорий — они могут описывать данные разными способами.

В различных областях существуют специализированные и признанные модели для классификации видов метаданных. Бретертон и Сингли (1994) выделяют две основные категории: структурные/управляющие метаданные и направляющие[7]. Структурные метаданные описывают структуру объектов базы данных (таблицы, столбцы, ключи, индексы). Направляющие метаданные помогают искать объекты, обычно выражаются в виде ключевых слов на естественном языке.

NISO выделяет три типа метаданных: описательные, структурные и административные[8]. Кроме них, выделяются такие подвиды административных метаданных, как метаданные управления авторскими правами и метаданные сохранности (preservation metadata).

Особое развитие в последние годы получили метаданные доступности. Такие метаданные описывают потребности пользователей с ограничениями, а также свойства информации, подходящей для этих пользователей[9].

История

Метаданные применяются для организации электронных ресурсов, поиска информации, идентификации и архивирования ресурсов. Метаданные широко используются государственными органами для анализа трафика и проведения массового наблюдения[10].

До 1980-х годов метаданные использовались в бумажных каталогах библиотек; позже библиотечные каталоги перешли в цифровую форму[11].

Первое описание термина «meta data» для компьютерных систем встречается в 1967 году в работах специалистов MIT Дэвида Гриффела и Стюарта Макинтоша[12].

В каждой предметной области существуют свои стандарты метаданных (музейные коллекции, музыкальные аудиофайлы, сайты и др.), что облегчает обработку, каталогизацию и поисковые задачи[13].

Определение

Метаданные — это «данные о данных». Они предназначены для описания, раскрытия и управления данными, упрощая их поиск и использование[14].

Примеры:

  • способ создания данных;
  • источник данных;
  • дата и время создания;
  • автор;
  • расположение на сети;
  • использованные технические стандарты;
  • качество данных.

Для цифрового изображения метаданные могут включать размер, глубину цвета, разрешение, дату создания, выдержку и другие параметры[15]. В страницах веб-сайтов метаданные могут содержать описание контента, ключевые слова и пр[16].

Метаданные могут храниться и управляться в реестрах метаданных, хранилищах данных или специальных системах[17]. Без контекста отличить данные и метаданные бывает невозможно[18].

Термин «metadata» был впервые введён Филипом Бэгли в 1968 году, где он употреблялся в контексте «структурных метаданных», то есть данных о контейнерах данных[19]. С тех пор этот термин широко применяется в информационном менеджменте, информатике, библиотечном деле и ГИС.

Структуры

Структурирование метаданных происходит по определённым схемам и моделям — используют контролируемые словари, таксономии, тезаурусы, словари данных, реестры метаданных. Это важно для единообразия при разработке моделей данных и баз данных.

Синтаксис

Синтаксис метаданных — это правила оформления элементов (полей) метаданных. Одна и та же схема может быть реализована в разных языках разметки или моделирования (например, Dublin Core может быть представлен в формате plain text, HTML, XML, RDF)[20].

Иерархические, линейные и двумерные схемы

Схемы метаданных могут быть иерархическими (элементы вложены друг в друга — пример IEEE LOM), линейными (элементы независимы, одна размерность — пример: Dublin Core), а также двумерными (классификация по двум ортогональным измерениям)[21].

Гранулярность

Гранулярность — степень детализации данных в структуре метаданных. Чем выше гранулярность, тем глубже и сложнее структурированная информация, тем выше издержки создания и обслуживания.

Гиперкартографирование

Сложные структуры метаданных требуют гиперкартографирования — для возможного отображения по выбранным аспектам. Термин особенно характерен для наложения географической и иной информации как слоёв[22].

Стандарты

Международные стандарты определяют подходы к описанию метаданных. Основной — ISO/IEC 11179 «Реестры метаданных (Metadata registries, MDR)»[23]. Активно развиваются стандарты для геопространственных данных, библиографических записей (Dublin Core, MARC, MODS, METS, PREMIS и др.).

Применение

Метаданные файлов

Большинство компьютерных файлов могут содержать метаданные: тексты, изображения (JPEG, PNG), аудио (MP3, WAV, Opus), видео (AVI, MP4, MOV) и другие типы данных. Метаданные могут добавляться пользователем вручную или автоматически создаваться программой или устройством.

Передача файлов с метаданными может представлять угрозу конфиденциальности — существуют инструменты очистки файлов от метаданных.

Фотографии

Современные цифровые фотоаппараты и смартфоны встраивают в изображение метаданные: модель камеры, автор, место съёмки, параметры экспозиции (EXIF), авторские права и контактные данные[24].

Существуют следующие стандарты фото-метаданных:

  • IPTC Information Interchange Model (IIM)
  • IPTC Core для XMP
  • XMP — Extensible Metadata Platform
  • Exif — Exchangeable image file format
  • Dublin Core
  • PLUS (Picture Licensing Universal System)
  • VRA Core (Visual Resource Association)[25]
  • JPG

Видео

Для видео метаданные особенно важны, так как позволяют выполнять поиск по содержимому (например, по тексту субтитров) и автоматическую обработку (распознавание регистрационных номеров, объектов)[26].

Телекоммуникации

Метаданные о времени, источнике и получателе телефонных звонков, сообщений и других коммуникаций часто собираются службами массового наблюдения.

Геопространственные метаданные

Служат для описания объектов ГИС, цифровых карт, снимков и других пространственных данных[27].

Создание метаданных

Метаданные создаются автоматически (датой, автором), вручную или смешанным способом. Мета-движки собирают и анализируют метаданные в рамках информационных систем[28].

Виртуализация данных

Виртуализация данных использует метаданные для описания бизнес-объектов в корпоративных системах.

Статистика и переписи

Метаданные играют ключевую роль в стандартизации процессов сбора данных в официальной статистике[29].

Библиотечное и архивное дело

Метаданные облегчают каталогизацию, систематизацию и быстрый поиск ресурсов (книг, медиа, электронных документов). Широко используется стандарт MARC[30].

Наука

Метаданные научных публикаций создаются издателями и базами данных (PubMed, Web of Science); они обеспечивают поиск, цитирование и машинную обработку публикаций.

Музеи

Метаданные используются кураторами и хранителями для описания и структурирования информации о предметах искусства и культуры[31]. Для музейных объектов метаданные обеспечивают поиск, публикацию онлайн, ведение стандартов (CDWA, Spectrum, CRM).

Право

Вопросы метаданных в юриспруденции касаются открытости и доступности электронных документов, хранения записей о транзакциях, а также безопасности передачи метаданных[32].

Способы хранения

Метаданные могут храниться внутри файла (встроенные, embedded metadata) либо вне файла (в отдельных репозиториях). Оба подхода имеют свои преимущества и недостатки.

СУБД

Реляционные базы данных хранят метаданные в специальных таблицах (каталогах), которые содержат сведения о структуре таблиц, столбцов, связях и индексах.

В популярной культуре

Тема метаданных сатирически отражена в рассказе Гэла Дрейпера «MS Fnd in a Lbry» (1961), где человечество оказывается погребено под бесконечным объёмом мета-описаний.

См. также

Примечания

Литература

  • Baca, Murtha. 2016. Introduction to Metadata: Third Edition. Getty Publications. ISBN 978-1-60606-479-5.
  • Gartner, Richard. 2016. Metadata: Shaping Knowledge from Antiquity to the Semantic Web. Springer. ISBN 978-3-319-40891-0.
  • Pomerantz, Jeffrey. 2015. Metadata. MIT Press. ISBN 978-0-262-52851-1.
  • Zeng, Marcia & Qin, Jian. 2016. Metadata. Facet. ISBN 978-1-78330-052-5.

Ссылки