Семантическая интероперабельность

Семантическая интероперабельность — это способность компьютерных систем обмениваться данными с однозначным, разделяемым всеми сторонами смыслом. Семантическая интероперабельность необходима для реализации машинно-обрабатываемой логики, вывода, обнаружения знаний и межсистемной интеграции данных.

Семантическая интероперабельность предполагает не только структурирование данных (синтаксис), но и одновременную передачу смысла данных (семантики). Для этого к данным добавляются дополнительные сведения — метаданные, связывающие каждый элемент данных с управляемым, общим словарём терминов. Смысл данных передаётся вместе с самими данными в виде единого самоописывающегося «информационного пакета», независимого от конкретной информационной системы. Именно наличие общего словаря и связанных с ним онтологий обеспечивает основу для машинной интерпретации, вывода и автоматической обработки данных.

Исторические предпосылки

В 1960-х годах Жак Блуа из Свободного университета Брюсселя стал одним из первых исследователей семантической интероперабельности, разработав морфологическую анализирующую систему для проекта DICAUTOM (1966—1971), финансируемого Евроатомом и Европейским объединением угля и стали (CECA). Эта система стандартизировала многозначные термины путём сведения словоформ к начальным леммам (например, «apprendront» к «apprendre») и связывания их с общими семантическими единицами, что обеспечивало машинно-интерпретируемый смысл данных на разных языках. Создавая прототип онтологии со снабжёнными метаданными записями, Блуа предвосхитил современные подходы к обмену данными на основе словарей и онтологий, как описано в его работах: Morphologie du français pour la traduction automatique (1962) и совместном с Лидией Хиршберг (Lydia Hirschberg) отчёте ULB 1969 года о «руководстве по кодированию французского языка». Данная система легла в основу EURODICAUTOM (1975), что стало предшественником современной базы данных IATE Европейского союза, обеспечив поддержку межъязыковой интероперабельности.

Синтаксическая интероперабельность является предпосылкой для семантической интероперабельности. Она предполагает стандартизированные механизмы структурирования и передачи данных. В здравоохранении, например, стандарт HL7 применяется уже более тридцати лет (задолго до появления интернета и веб-технологий) и использует вертикальную черту («|») как ограничитель данных. Современный интернет-стандарт разметки документов — это XML, где для этой цели используются угловые скобки («< >»). Однако сами ограничения не несут никакого смысла, кроме структурирования данных. Без словаря данных, позволяющего интерпретировать содержимое таких ограничителей, данные не обретают значения. Многочисленные попытки создать словари данных и информационные модели для таких схем структурирования были затруднены с точки зрения практического внедрения, что лишь способствовало «вавилизации» данных и сложности их обмена со смыслом.

С введением концепции Семантической паутины Тимом Бернерсом-Ли в 1999 году[1] усилился интерес к стандартам W3C для обеспечения семантического обмена данными в масштабе веба, интеграции и автоматического вывода знаний.

В период с 2000 по 2026 год развитие концепции семантической интероперабельности перешло к масштабным практическим реализациям. Важными вехами стали популяризация графов знаний в 2012 году[2], ставших инструментом для семантического поиска и интеграции данных, а также публикация в 2016 году руководящих принципов FAIR (Findable, Accessible, Interoperable, Reusable)[3], нацеленных на улучшение управления цифровыми данными с акцентом на их машиночитаемость. Параллельно происходила активная стандартизация: в России был принят национальный стандарт ГОСТ Р 55062-2021 «Информационные технологии. Интероперабельность. Основные положения», закрепивший единый подход к обеспечению интероперабельности информационных систем[4].

Семантика как функция синтаксической интероперабельности

Синтаксическая интероперабельность, обеспечиваемая, например, XML, стандартами SQL, а также современными форматами, такими как JSON, Protocol Buffers (Protobuf) и Apache Avro[5], — обязательное условие для семантической интероперабельности. Она подразумевает единый формат и протокол для структурирования данных, позволяя системам понимать, как обрабатывать получаемую информацию. Также это даёт возможность обнаруживать синтаксические ошибки, позволяя системе-запрашивающему повторно отправить некорректно полученное или искажённое сообщение. Семантическая коммуникация невозможна, если синтаксис нарушен и не соответствует данным. Однако данные, представленные в одном синтаксисе, зачастую могут быть точно преобразованы в другой синтаксис. Там, где такое преобразование возможно, возможно точное взаимодействие систем с разными синтаксисами обмена данными. В некоторых случаях возможность корректного преобразования ограничена одной стороной из-за различий в выразительной мощности используемых формализмов.

Создание единой онтологии, охватывающей все понятия всех приложений, практически невозможно, учитывая постоянное появление новых терминов или переопределение старых. Однако возможно выделить конечное множество «примитивных» концептов, из которых составляются более сложные понятия для конкретных приложений и онтологий. Наличие фундаментальной онтологии (она же верхнеуровневая онтология), содержащей такие элементы, стало бы основой для широкой семантической интероперабельности, позволяя пользователям определять новые термины, используя базовый набор, с гарантией их корректной трактовки другими системами, поддерживающими фундаментальную онтологию. Вопрос о том, конечно это множество или бесконечно, всё еще находится на исследовательской стадии. На данный момент универсальная фундаментальная онтология с широкой поддержкой отсутствует.

Ограничения выразительной мощности формализмов наглядно проявляются при преобразовании синтаксиса. Например, при конвертации из XML в JSON возникают сложности с переводом атрибутов и смешанного содержимого. Преобразование JSON в семантические форматы, такие как RDF, выявляет семантический разрыв из-за отсутствия встроенной семантики в базовом синтаксисе JSON (эта проблема решается с помощью стандарта JSON-LD). Кроме того, при переходе от реляционных баз данных к графовым моделям существует риск потери неявной бизнес-логики, заложенной в сложных операциях соединения таблиц, которую необходимо явно моделировать в виде связей графа[6].[7].

Слова и значения

Распространённое заблуждение в области семантики связано с «путаницей слов и значений». Смысл слов может меняться, иногда довольно быстро. Однако формальные языки, используемые в онтологиях, позволяют закрепить значения понятий в неизменяемой форме. Для понимания значения конкретного слова (или термина в базе данных) необходимо связать каждую фиксированную концептуальную единицу в онтологии с терминами (словами), которыми она может обозначаться. Если несколькими словами обозначается одно и то же (фиксированное) понятие, это называется синонимией; если же одно слово относится к разным понятиям — это двусмысленность (амбигуитет).

Амбигуитет и синонимия — основные проблемы для машинного понимания естественных языков. Использование слов для выражения понятий часто зависит от контекста и цели в каждом конкретном случае. Применение онтологий для поддержки семантической интероперабельности сводится к определению фиксированного множества понятий со стабильным смыслом и согласованными отношениями. Определение того, какие именно термины должны использоваться в каком контексте (например, в различных базах данных), отделяется от самой задачи построения онтологии и ложится на проектировщика базы данных, разработчика формы ввода данных или программу анализа языка. Если в некотором интероперабельном контексте изменяется смысл термина, для сохранения интероперабельности следует изменить соответствующую ссылку на элемент онтологии, определяющий это значение.

Современные методы автоматического сопоставления терминов естественного языка с концептами онтологий применяют гибридные конвейеры с использованием больших языковых моделей (LLM). Подобные подходы сочетают предварительный векторный поиск концептов-кандидатов с финальным точным сопоставлением, которое выполняет нейросеть, что позволяет эффективно разрешать сложные случаи многозначности и синонимии[8].

Языки и требования к представлению знаний

Языки представления знаний могут быть достаточно выразительными для передачи тонких смысловых различий в хорошо изученных областях. Они классифицируются по спектру, балансирующему между выразительной мощностью и вычислительной сложностью: от простых словарей и таксономий до языков на основе дескрипционной логики и естественных языков[9].

Для общей работы с полуструктурированными данными применяются универсальные языки, такие как XML[10]. В качестве актуальных стандартов семантической паутины используются стабильный язык веб-онтологий OWL 2 и RDF (включая версию 1.2)[11], а во фронтенд-разработке для обеспечения семантической интероперабельности применяется формат JSON-LD совместно со словарём Schema.org[12].

Во многих случаях может потребоваться язык со всей мощностью логики первого порядка.

Естественные языки чрезвычайно выразительны, но считаются слишком неоднозначными для обеспечения требуемой точности машинной интерпретации на текущем уровне развития технологий обработки языка.

Предварительное согласование структуры не требуется

Семантическая интероперабельность отличается от других видов интероперабельности тем, что информация, получаемая системой, должна содержать все необходимые для корректной трактовки смысловые данные — даже если алгоритмы приёма неизвестны передающей стороне.

Например, если передаётся число, означающее сумму задолженности одной компании перед другой, смысл этого числа подразумевает определённые действия или бездействие отправителя и получателя. Корректная интерпретация возможна только тогда, когда данные переданы и получены строго по согласованному протоколу и в нужной форме, а также при соответствии алгоритмов обеих сторон.

Если же передающая система не знает особенностей обработки информации у других участников, необходимо использовать общесогласованные соглашения, определяющие, как именно будет представлена информация конкретного смысла при обмене. Частным решением является стандартизация форм, например, запроса на оплату, в который в стандартизированном виде кодируется: кто и кому должен деньги, на основании какого действия образовался долг, участники, объекты и контексты сделки, сумма, валюта, сроки оплаты, способ и т.д. Если обе системы согласовали трактовку таких структур, семантическая интероперабельность реализуется для конкретной бизнес-задачи. Чтобы обеспечить семантическую интероперабельность в целом, необходимо стандартизировать описание нескольких тысяч базовых понятий для самых разных типов данных и задач.

На смену жёстким протоколам и статической стандартизации приходят методы динамической интеграции данных. Эти подходы базируются на использовании графов знаний и технологий искусственного интеллекта, которые позволяют интерпретировать информацию с учётом контекста в реальном времени. В рамках таких архитектурных решений, как «ткань данных» (Data Fabric) и унифицированный семантический слой, создаётся гибкая среда для автоматического связывания разрозненных источников[13]. Важную роль в этом процессе играют алгоритмы автоматического сопоставления схем данных (schema matching). С применением моделей машинного обучения они способны самостоятельно выявлять семантические соответствия между элементами различных структур, снижая зависимость от ручной настройки и предварительного согласования форматов[14].

Исследования в области онтологий

Вопрос достижения широкой семантической интероперабельности для различных областей пока остаётся предметом исследований. Для решения задачи общей (General) семантической интероперабельности требуется фундаментальная онтология (верхнеуровневая онтология), достаточно всеобъемлющая для определения базовых концептов любых прикладных онтологий. За последнее десятилетие разработано более десяти фундаментальных онтологий, среди которых BFO (Basic Formal Ontology, стандарт ISO/IEC 21838) активно внедряется в промышленность консорциумом Industrial Ontologies Foundry (IOF) в качестве основы для разработки специализированных отраслевых онтологий[15][16].

Необходимость создания единой глобальной онтологии можно снизить, если строить фундаментальную онтологию как совокупность базовых («примитивных») понятий, из которых логически составляются понятия частных прикладных онтологий или локальных баз данных. Подход основан на принципе:

Если:

(1) значения и правила использования примитивных элементов фундаментальной онтологии согласованы;
(2) элементы прикладных онтологий строятся как логическая комбинация фундаментальных элементов,

То:

Смысл прикладных онтологических элементов может быть вычислен автоматически с помощью логического вывода первого порядка любой системой, признающей значения элементов фундаментальной онтологии и обладающей как этой онтологией, так и описаниями новых элементов.

Следовательно:

Любая система, желающая корректно взаимодействовать с другой системой, должна передавать только сами данные и логические описания только тех терминов, которых нет в общей фундаментальной онтологии.

Таким образом, необходимость предварительного согласования структуры сводится лишь к фундаментальной онтологии (FO), обычно содержащей менее 10 000 элементов (типов и отношений). Однако для удобства работы часто разрабатываются расширения (доменные онтологии), определяемые через элементы FO, что ускоряет создание новых прикладных онтологий и снижает вероятность ошибок при их проектировании. Доменные расширения могут быть логически несовместимы между собой, и это необходимо учитывать при их совместном использовании.

Возможность обходиться без единой фундаментальной онтологии, используя сложные методы сопоставления между независимыми онтологиями, также остаётся предметом исследований. В частности, для этих целей активно развиваются нейросимволические подходы, объединяющие нейронные сети и формальную логику[17].

Современным направлением является автоматизированное построение онтологий с использованием больших языковых моделей (LLM) и графов знаний. В этом контексте перспективной считается синергия двух подходов: формальных онтологий, обеспечивающих высокую точность и верифицируемость данных, и латентной семантики LLM, которая отличается гибкостью и широким охватом. Подобная интеграция, в том числе через архитектуру генерации с дополненной выборкой (RAG), позволяет использовать онтологии как структурированный каркас для языковых моделей, а сами LLM — для автоматизации извлечения знаний[18][19].

Применение и экономическая эффективность

Практическая значимость семантической интероперабельности подтверждается масштабными государственными инициативами. В Европейском союзе принятие закона Interoperable Europe Act (2024) направлено на создание единой структуры трансграничного обмена данными, что, по оценкам, принесёт ежегодную экономию от 5 до 68 миллиардов евро для бизнеса и сотни миллионов евро для граждан[20][21]. В России семантическая интероперабельность является ключевым элементом национального проекта «Экономика данных» и развития Национальной системы управления данными (НСУД), цель которых — создание «бесшовных» государственных услуг за счёт единых стандартов обмена данными между ведомствами[22][23][24].

Во многих других отраслях, в том числе в государственном управлении (eGovernment), здравоохранении, безопасности и других, внедрение стандартов семантической интероперабельности также сулит большие экономические выгоды. В 2007 году Евросоюз учредил Центр семантической интероперабельности Европы (Semantic Interoperability Centre Europe).

В здравоохранении системы, обладающие семантической интероперабельностью, позволяют стандартизированно обрабатывать и обмениваться такими элементами, как медицинские термины, обозначения лекарств и другие нюансы, что способствует автоматическому обмену данными без участия человека. Такая совместимость обеспечивается совместным использованием стандарта передачи данных HL7 FHIR, отвечающего за синтаксис, и глобальной клинической терминологии SNOMED CT, определяющей семантику[25][26].

В российских академических кругах также ведутся исследования по применению онтологий для обеспечения семантической интероперабельности в сетецентрических информационно-управляющих системах (СЦИУС)[27].

Семантическая интероперабельность для Интернета вещей

Цифровая трансформация открывает новые возможности по повышению эффективности, гибкости и адаптивности организаций к изменяющимся условиям бизнеса и рынка. Для этого необходима интеграция разнородных данных и сервисов, а также формирование общего понимания смыслов и контекста информации.

В поддержку этих процессов экспертная группа под эгидой ISO/IEC JTC1, ETSI, oneM2M и W3C совместно с AIOTI работает над ускорением внедрения семантических технологий в Интернет вещей (IoT). Совсем недавно группа опубликовала два совместных аналитических доклада: «Semantic IoT Solutions – A Developer Perspective» и «Towards semantic interoperability standards based on ontologies». Эти доклады развивают тезисы более ранней работы «Semantic Interoperability for the Web of Things».

В сфере умного дома семантическая интероперабельность обеспечивается стандартом Matter, который использует иерархическую модель данных. Ключевым элементом этой модели выступают кластеры — логические группы атрибутов и команд, формирующие общий словарь для устройств[28]. В качестве транспортного уровня применяется протокол Thread, создающий надёжную сеть, тогда как Matter выступает прикладным уровнем, определяющим смысл передаваемой информации[29].

В промышленном интернете вещей (IIoT) семантика реализуется через связку стандартов OPC UA и Asset Administration Shell (AAS). Протокол OPC UA обеспечивает передачу данных, а AAS представляет собой стандартизированный цифровой двойник оборудования. Их совместное использование позволяет системам не только обмениваться информацией, но и автоматически интерпретировать её смысл[30].

Для обеспечения семантической интероперабельности в веб-среде применяется спецификация W3C Web of Things (WoT) Architecture 1.1. В её основе лежит формат Thing Description, использующий JSON-LD для семантических аннотаций. Это позволяет связывать данные устройств с внешними словарями и онтологиями для однозначного понимания их функций различными системами.

Примечания

  1. Бернерс-Ли, Тим. Weaving the Web : [англ.] / Тим Бернерс-Ли, Марка Фишетти. — HarperSanFrancisco, 1999. — P. глава 12. — ISBN 978-0-06-251587-2.
  2. Граф знаний. Ultralytics. Дата обращения: 28 мая 2026.
  3. Принципы FAIR. Setka. Дата обращения: 28 мая 2026.
  4. ГОСТ Р 55062-2021. Росстандарт. Дата обращения: 28 мая 2026.
  5. Форматы данных и схемы: JSON, Avro, Protobuf. Эволюция схем. Datafinder. Дата обращения: 28 мая 2026.
  6. JSON или XML: сравнение форматов. Timeweb Cloud. Дата обращения: 28 мая 2026.
  7. Графовые базы данных: что это и зачем они нужны. Хабр. OTUS. Дата обращения: 28 мая 2026.
  8. MILA: Mapping with LLMs and Prompting. arXiv (2025). Дата обращения: 28 мая 2026.
  9. Knowledge Representation Languages. University of Manchester. Дата обращения: 28 мая 2026.
  10. Jeff Heflin, James Hendler. XML как средство семантической интероперабельности (Semantic Interoperability on the Web) (англ.). University of Maryland (2000). Дата обращения: 28 мая 2026.
  11. RDF 1.2 Standardized Triple Terms Enable Statement-Level Meta. ASCII (25 мая 2026). Дата обращения: 28 мая 2026.
  12. JSON-LD. Next.js Documentation. Дата обращения: 28 мая 2026.
  13. AI-Driven Semantic Interoperability: The Next Frontier in HealthTech. ISHIR. Дата обращения: 28 мая 2026.
  14. Smarter interoperability based on automatic schema matching and intelligence amplification. University of Twente Research. Дата обращения: 28 мая 2026.
  15. Research Projects. NCORe. Дата обращения: 28 мая 2026.
  16. IOF Core aligned with BFO. CEUR Workshop Proceedings. Дата обращения: 28 мая 2026.
  17. Integrated neuro-symbolic systems. Semantic Web Journal. Дата обращения: 28 мая 2026.
  18. KG-RAG для снижения галлюцинаций LLM. Хабр. AIRI. Дата обращения: 28 мая 2026.
  19. LLM: разрыв между доступом к информации и способностью корректно рассуждать. Хабр. ВкусВилл. Дата обращения: 28 мая 2026.
  20. Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on Interoperable Europe Act. Council of the European Union (11 апреля 2024). Дата обращения: 28 мая 2026.
  21. Assessing the interoperability of digital public services in the EU: sooner is better. Joint Research Centre. European Commission (24 мая 2024). Дата обращения: 28 мая 2026.
  22. Национальный проект «Экономика данных и цифровая трансформация государства». Правительство России. Дата обращения: 28 мая 2026.
  23. Концепция построения и развития Национальной системы управления данными. Правительство России. Дата обращения: 28 мая 2026.
  24. Выживут не те, кто громче всех жалуется. Российский совет по международным делам. Дата обращения: 28 мая 2026.
  25. HL7 vs FHIR vs SNOMED CT: What’s the Difference? Orion Health. Дата обращения: 28 мая 2026.
  26. Achieving semantic and structural interoperability in personal health data using HL7 FHIR and SNOMED CT. PubMed. Дата обращения: 28 мая 2026.
  27. Концепция обеспечения семантической интероперабельности сетецентрических информационно-управляющих систем на основе мультиагентного подхода. Журнал радиоэлектроники (январь 2022). Дата обращения: 28 мая 2026.
  28. Matter Specification: How the Matter Smart Home Standard Works. Cardinal Peak Blog. Дата обращения: 28 мая 2026.
  29. Matter FAQ. Connectivity Standards Alliance. Дата обращения: 28 мая 2026.
  30. Asset Administration Shell Meets OPC UA: Why Both Matter. Neoception. Дата обращения: 28 мая 2026.

Литература

  • Бернерс-Ли, Тим. Weaving the Web : [англ.] / Тим Бернерс-Ли, Марка Фишетти. — HarperSanFrancisco, 1999. — ISBN 978-0-06-251587-2.