Метаданные
Метаданные (от англ. metadata; также метаинформация) — это данные, определяющие и описывающие характеристики других данных[1]. Метаданные предназначены для упрощения поиска, объяснения, локализации, извлечения, использования и управления данными. Например, название, автор и дата публикации книги — это метаданные о книге. Метаданные могут быть потенциально бесконечными по объёму и возможностям описания, в отличие от конечных данных. Поэтому любые попытки определить, классифицировать виды или структуры метаданных чаще выражаются на примерах в зависимости от контекста их применения. Термин «метаданные» появляется в истории с 1960-х годов — сначала в информатике, а затем в массовой культуре.
Типы
Существует множество различных типов метаданных, в том числе:
- Описательные метаданные — сведения, предназначенные для идентификации и поиска ресурса (например, название, аннотация, автор, ключевые слова).
- Структурные метаданные — сведения о контейнерах данных и о том, как составные объекты собраны, например, как страницы формируют главы. Описывают типы, версии, связи и другие характеристики цифровых материалов[2].
- Административные метаданные[3] — информация, необходимая для управления ресурсом: тип, права, время и способ создания[4].
- Справочные метаданные — сведения о содержании и качестве статистических данных.
- Статистические метаданные[5] — также процессные данные (process data), описывают процессы сбора, обработки или производства статистических данных[6].
- Правовые метаданные — сведения о создателе, правообладателе и лицензии ресурса.
Метаданные не обязательно строго относятся только к одной из этих категорий — они могут описывать данные разными способами.
В различных областях существуют специализированные и признанные модели для классификации видов метаданных. Бретертон и Сингли (1994) выделяют две основные категории: структурные/управляющие метаданные и направляющие[7]. Структурные метаданные описывают структуру объектов базы данных (таблицы, столбцы, ключи, индексы). Направляющие метаданные помогают искать объекты, обычно выражаются в виде ключевых слов на естественном языке.
NISO выделяет три типа метаданных: описательные, структурные и административные[8]. Кроме них, выделяются такие подвиды административных метаданных, как метаданные управления авторскими правами и метаданные сохранности (preservation metadata).
Особое развитие в последние годы получили метаданные доступности. Такие метаданные описывают потребности пользователей с ограничениями, а также свойства информации, подходящей для этих пользователей[9].
История
Метаданные применяются для организации электронных ресурсов, поиска информации, идентификации и архивирования ресурсов. Метаданные широко используются государственными органами для анализа трафика и проведения массового наблюдения[10].
До 1980-х годов метаданные использовались в бумажных каталогах библиотек; позже библиотечные каталоги перешли в цифровую форму[11].
Первое описание термина «meta data» для компьютерных систем встречается в 1967 году в работах специалистов MIT Дэвида Гриффела и Стюарта Макинтоша[12].
В каждой предметной области существуют свои стандарты метаданных (музейные коллекции, музыкальные аудиофайлы, сайты и др.), что облегчает обработку, каталогизацию и поисковые задачи[13].
Определение
Метаданные — это «данные о данных». Они предназначены для описания, раскрытия и управления данными, упрощая их поиск и использование[14].
Примеры:
- способ создания данных;
- источник данных;
- дата и время создания;
- автор;
- расположение на сети;
- использованные технические стандарты;
- качество данных.
Для цифрового изображения метаданные могут включать размер, глубину цвета, разрешение, дату создания, выдержку и другие параметры[15]. В страницах веб-сайтов метаданные могут содержать описание контента, ключевые слова и пр[16].
Метаданные могут храниться и управляться в реестрах метаданных, хранилищах данных или специальных системах[17]. Без контекста отличить данные и метаданные бывает невозможно[18].
Термин «metadata» был впервые введён Филипом Бэгли в 1968 году, где он употреблялся в контексте «структурных метаданных», то есть данных о контейнерах данных[19]. С тех пор этот термин широко применяется в информационном менеджменте, информатике, библиотечном деле и ГИС.
Структуры
Структурирование метаданных происходит по определённым схемам и моделям — используют контролируемые словари, таксономии, тезаурусы, словари данных, реестры метаданных. Это важно для единообразия при разработке моделей данных и баз данных.
Синтаксис метаданных — это правила оформления элементов (полей) метаданных. Одна и та же схема может быть реализована в разных языках разметки или моделирования (например, Dublin Core может быть представлен в формате plain text, HTML, XML, RDF)[20].
Схемы метаданных могут быть иерархическими (элементы вложены друг в друга — пример IEEE LOM), линейными (элементы независимы, одна размерность — пример: Dublin Core), а также двумерными (классификация по двум ортогональным измерениям)[21].
Гранулярность — степень детализации данных в структуре метаданных. Чем выше гранулярность, тем глубже и сложнее структурированная информация, тем выше издержки создания и обслуживания.
Сложные структуры метаданных требуют гиперкартографирования — для возможного отображения по выбранным аспектам. Термин особенно характерен для наложения географической и иной информации как слоёв[22].
Стандарты
Международные стандарты определяют подходы к описанию метаданных. Основной — ISO/IEC 11179 «Реестры метаданных (Metadata registries, MDR)»[23]. Активно развиваются стандарты для геопространственных данных, библиографических записей (Dublin Core, MARC, MODS, METS, PREMIS и др.).
Применение
Большинство компьютерных файлов могут содержать метаданные: тексты, изображения (JPEG, PNG), аудио (MP3, WAV, Opus), видео (AVI, MP4, MOV) и другие типы данных. Метаданные могут добавляться пользователем вручную или автоматически создаваться программой или устройством.
Передача файлов с метаданными может представлять угрозу конфиденциальности — существуют инструменты очистки файлов от метаданных.
Современные цифровые фотоаппараты и смартфоны встраивают в изображение метаданные: модель камеры, автор, место съёмки, параметры экспозиции (EXIF), авторские права и контактные данные[24].
Существуют следующие стандарты фото-метаданных:
- IPTC Information Interchange Model (IIM)
- IPTC Core для XMP
- XMP — Extensible Metadata Platform
- Exif — Exchangeable image file format
- Dublin Core
- PLUS (Picture Licensing Universal System)
- VRA Core (Visual Resource Association)[25]
- JPG
Для видео метаданные особенно важны, так как позволяют выполнять поиск по содержимому (например, по тексту субтитров) и автоматическую обработку (распознавание регистрационных номеров, объектов)[26].
Метаданные о времени, источнике и получателе телефонных звонков, сообщений и других коммуникаций часто собираются службами массового наблюдения.
Служат для описания объектов ГИС, цифровых карт, снимков и других пространственных данных[27].
Создание метаданных
Метаданные создаются автоматически (датой, автором), вручную или смешанным способом. Мета-движки собирают и анализируют метаданные в рамках информационных систем[28].
Виртуализация данных использует метаданные для описания бизнес-объектов в корпоративных системах.
Метаданные играют ключевую роль в стандартизации процессов сбора данных в официальной статистике[29].
Метаданные облегчают каталогизацию, систематизацию и быстрый поиск ресурсов (книг, медиа, электронных документов). Широко используется стандарт MARC[30].
Метаданные научных публикаций создаются издателями и базами данных (PubMed, Web of Science); они обеспечивают поиск, цитирование и машинную обработку публикаций.
Метаданные используются кураторами и хранителями для описания и структурирования информации о предметах искусства и культуры[31]. Для музейных объектов метаданные обеспечивают поиск, публикацию онлайн, ведение стандартов (CDWA, Spectrum, CRM).
Вопросы метаданных в юриспруденции касаются открытости и доступности электронных документов, хранения записей о транзакциях, а также безопасности передачи метаданных[32].
Метаданные могут храниться внутри файла (встроенные, embedded metadata) либо вне файла (в отдельных репозиториях). Оба подхода имеют свои преимущества и недостатки.
Реляционные базы данных хранят метаданные в специальных таблицах (каталогах), которые содержат сведения о структуре таблиц, столбцов, связях и индексах.
В популярной культуре
Тема метаданных сатирически отражена в рассказе Гэла Дрейпера «MS Fnd in a Lbry» (1961), где человечество оказывается погребено под бесконечным объёмом мета-описаний.
См. также
Примечания
Литература
- Baca, Murtha. 2016. Introduction to Metadata: Third Edition. Getty Publications. ISBN 978-1-60606-479-5.
- Gartner, Richard. 2016. Metadata: Shaping Knowledge from Antiquity to the Semantic Web. Springer. ISBN 978-3-319-40891-0.
- Pomerantz, Jeffrey. 2015. Metadata. MIT Press. ISBN 978-0-262-52851-1.
- Zeng, Marcia & Qin, Jian. 2016. Metadata. Facet. ISBN 978-1-78330-052-5.
Ссылки
На РУВИКИ.Медиа есть медиафайлы по теме Метаданные- «Understanding Metadata: What is metadata, and what is it for?» — NISO, 2017
- «A Guardian guide to your metadata» — The Guardian, 12 июня 2013
- Metacrap: Putting the torch to 7 straw-men of the meta-utopia — мнение Кори Доктороу о недостатках метаданных в интернете, 2001
- DataONE Investigator Toolkit


