FAIR-данные
FAIR-данные — это данные, соответствующие принципам Findability, Accessibility, Interoperability, Reusability — находимости, доступности, совместимости и переиспользования[1], акроним FAIR можно также перевести как «честные», «справедливые». Данные принципы были представлены в мартовской статье 2016 года в журнале Scientific Data консорциумом из нескольких ученых и организаций.[1]
Принципы FAIR фокусируются на возможностях автоматической обработки — то есть способность вычислительных систем находить, получать доступ, взаимодействовать и повторно использовать данные без вмешательства человека, или с минимальным его участием — это необходимо в связи с постоянным ростом объёма, сложности и скорости возникновения информации.[2]
Аббревиатура FAIR/O подразумевает добавление к описанным выше принципам явного указания открытой лицензии (Open license) на данные.
Принципы FAIR, опубликованные GO FAIR
Оригинал на https://www.go-fair.org/fair-principles/
Первый шаг в (пере)использовании данных — это их поиск. Метаданные и данные должны быть легко обнаружимы как для людей, так и для компьютеров. Машиночитаемые метаданные необходимы для автоматического обнаружения наборов данных и сервисов, это важный компонент процесса FAIRфикации.
- F1. (Мета)данным присваивается глобальный уникальный и постоянный идентификатор
- F2. Данные описываются с помощью расширенных метаданных (определяются ниже в пункте R1).
- F3. Метаданные чётко и явно включают идентификатор данных, которые они описывают
- F4. (Мета)данные регистрируются или индексируются в системе с поисковыми возможностями
Оригинальный текст (англ.)[показатьскрыть]The first step in (re)using data is to find them. Metadata and data should be easy to find for both humans and computers. Machine-readable metadata are essential for automatic discovery of datasets and services, so this is an essential component of the FAIRification process.
- F1. (Meta)data are assigned a globally unique and persistent identifier
- F2. Data are described with rich metadata (defined by R1 below)
- F3. Metadata clearly and explicitly include the identifier of the data they describe
- F4. (Meta)data are registered or indexed in a searchable resource
Как только пользователь находит необходимые данные, ему становится нужно понять, как получить к ним доступ, возможно, с учётом аутентификации и авторизации.
- A1. (Мета)данные могут быть получены по их идентификатору с использованием стандартизированного протокола связи
- A1.1 Протокол является открытым, бесплатным и универсально реализуемым
- A1.2 Протокол допускает процедуру аутентификации и авторизации, где это необходимо
- A2. Метаданные остаются доступны, даже если сами данные больше недоступны
Оригинальный текст (англ.)[показатьскрыть]Once the user finds the required data, they need to know how they can be accessed, possibly including authentication and authorisation.
- A1. (Meta)data are retrievable by their identifier using a standardised communications protocol
- A1.1 The protocol is open, free, and universally implementable
- A1.2 The protocol allows for an authentication and authorisation procedure, where necessary
- A2. Metadata are accessible, even when the data are no longer available
Данные обычно должны соединяться с другими данными. Кроме того, данные должны взаимодействовать с приложениями или рабочими процессами для анализа, хранения и обработки.
- I1. (Мета)данные используют формальный, доступный, общий и широко применяемый язык для представления знаний.
- I2. (Мета)данные используют словари, которые следуют FAIR-принципам
- I3. (Мета)данные включают квалифицированные ссылки на другие (мета)данные
Оригинальный текст (англ.)[показатьскрыть]The data usually need to be integrated with other data. In addition, the data need to interoperate with applications or workflows for analysis, storage, and processing.
- I1. (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.
- I2. (Meta)data use vocabularies that follow FAIR principles
- I3. (Meta)data include qualified references to other (meta)data
Конечная цель FAIR — оптимизировать повторное использование данных. Для достижения этой цели метаданные и данные должны быть хорошо описаны, чтобы их можно было копировать и/или комбинировать в различных условиях.
- R1. Мета(данные) подробно описаны с множеством точных и уместных свойств
- R1.1. (Мета)данные публикуются с чёткой разрешающей использование лицензией
- R1.2. (Мета)данные связаны с подробным описанием происхождения
- R1.3. (Мета)данные соответствуют стандартам сообщества, относящимся к данной предметной области
Оригинальный текст (англ.)[показатьскрыть]The ultimate goal of FAIR is to optimise the reuse of data. To achieve this, metadata and data should be well-described so that they can be replicated and/or combined in different settings.
- R1. Meta(data) are richly described with a plurality of accurate and relevant attributes
- R1.1. (Meta)data are released with a clear and accessible data usage license
- R1.2. (Meta)data are associated with detailed provenance
- R1.3. (Meta)data meet domain-relevant community standards
Принципы относятся к трём типам объектов: данным (или любому цифровому объекту), метаданным (информация об этом цифровом объекте) и инфраструктуре. Например, принцип F4 определяет, что и метаданные, и данные регистрируются или индексируются в системе с поисковыми возможностями (часть инфраструктуры).
Оригинальный текст (англ.)[показатьскрыть]The principles refer to three types of entities: data (or any digital object), metadata (information about that digital object), and infrastructure. For instance, principle F4 defines that both metadata and data are registered or indexed in a searchable resource (the infrastructure component).
Принятие и внедрение принципов FAIR-данных
Одна из первых статей, в которой обсуждались аналогичные идеи, была опубликована ещё в 2007 году.[3]
На саммите G20 в Ханчжоу в 2016 году лидеры Большой двадцатки выступили с заявлением, в котором одобрили применение FAIR-принципов в исследованиях.[4][5]
В 2016 году группа австралийских организаций разработала Заявление о FAIR-доступе к Результатам исследований Австралии (Australia's Research Outputs), которое расширяло использование принципов на результаты исследований.[6]
В 2017 году Германия, Нидерланды и Франция договорились о создании[7] международного офиса поддержки FAIR-инициативы – GO FAIR International Support and Coordination Office.
Другие международные организации, действующие в экосистеме исследовательских данных, такие как CODATA или Альянс исследовательских данных (RDA), также поддерживают внедрение FAIR своими членами. Оценка реализации FAIR-принципов проводится Рабочей группой по модели зрелости FAIR-данных в составе RDA[8]. Стратегическая десятилетняя программа CODATA «Данные для планеты: использование данных для решения междоменных задач»[9] упоминает принципы FAIR-данных как фундаментальное свойство основанных на данных наук.
Ассоциация Европейских исследовательских библиотек рекомендует использовать FAIR-принципы.[10]
В документе 2017 года, подготовленном сторонниками FAIR-данных, сообщалось о росте осведомленности о FAIR-концепции среди различных исследователей и институтов, но также отмечалось, что принцимы размываются, многие имеют своё особое видение.[11]
В руководствах по внедрению FAIR-методов обработки данных говорится, что стоимость плана управления данными в соответствии с FAIR-практиками должна составлять 5% от общего бюджета исследований.[12]
В 2019 году Глобальный альянс данных коренных народов (Global Indigenous Data Alliance — GIDA) опубликовал дополнение в виде CARE-принципов.[13] Принципы CARE («заботы») расширяют принципы FAIR, добавляя к ним Collective benefit (общую выгоду), Authority to control (полномочия по контролю), Responsibility (ответственность), Ethics (этику), чтобы обеспечить учёт исторического контекста и различий в возможностях.
Отмечается, что отсутствие информации о практическом применении руководящих принципов, привело к их непоследовательному толкованию.[14]
В январе 2020 года представители девяти групп университетов по всему миру подготовили Сорбоннскую декларацию о правах на исследовательские данные[15], которая включила обязательство предоставлять FAIR-данные и призвала правительства оказать поддержку для её реализации.[16]
См. также
- Управление данными
- Культура ремиксов
- Открытый доступ
- Открытые данные — наборы данных и базы данных, имеющие явную открытую лицензию
- Открытая наука
Примечания
Ссылки
- FAIR Data and Semantic Publishing, заявление из лаборатории первого автора оригинальной статьи
- Guide to FAIR Data Голландского Техцентра наук о жизни
- Веб-сайт инициативы GO FAIR
- FAIR Principles с подробным описанием каждого из руководящих принципов инициативы GO FAIR
- FAIR-сказка, объясняющая принципы FAIR