Семантическая интероперабельность
Семантическая интероперабельность — это способность компьютерных систем обмениваться данными с однозначным, разделяемым всеми сторонами смыслом. Семантическая интероперабельность необходима для реализации машинно-обрабатываемой логики, вывода, обнаружения знаний и межсистемной интеграции данных[1].
Семантическая интероперабельность предполагает не только структурирование данных (синтаксис), но и одновременную передачу смысла данных (семантики). Для этого к данным добавляются дополнительные сведения — метаданные, связывающие каждый элемент данных с управляемым, общим словарём терминов. Смысл данных передаётся вместе с самими данными в виде единого самоописывающегося «информационного пакета», независимого от конкретной информационной системы. Именно наличие общего словаря и связанных с ним онтологий обеспечивает основу для машинной интерпретации, вывода и автоматической обработки данных.
Исторические предпосылки
В 1960-х годах Жак Блуа из Свободного университета Брюсселя стал одним из первых исследователей семантической интероперабельности, разработав морфологическую анализирующую систему для проекта DICAUTOM (1966—1971), финансируемого Евроатомом и Европейским объединением угля и стали (CECA). Эта система стандартизировала многозначные термины путём сведения словоформ к начальным леммам (например, «apprendront» к «apprendre») и связывания их с общими семантическими единицами, что обеспечивало машинно-интерпретируемый смысл данных на разных языках. Создавая прототип онтологии со снабжёнными метаданными записями, Блуа предвосхитил современные подходы к обмену данными на основе словарей и онтологий, как описано в его работах: Morphologie du français pour la traduction automatique (1962) и совместном с Лидией Хиршберг (Lydia Hirschberg) отчёте ULB 1969 года о «руководстве по кодированию французского языка». Данная система легла в основу EURODICAUTOM (1975), что стало предшественником современной базы данных IATE Европейского союза, обеспечив поддержку межъязыковой интероперабельности[2].[3][4]
Синтаксическая интероперабельность является предпосылкой для семантической интероперабельности. Она предполагает стандартизированные механизмы структурирования и передачи данных. В здравоохранении, например, стандарт HL7 применяется уже более тридцати лет (задолго до появления интернета и веб-технологий) и использует вертикальную черту («|») как ограничитель данных. Современный интернет-стандарт разметки документов — это XML, где для этой цели используются угловые скобки («< >»). Однако сами ограничения не несут никакого смысла, кроме структурирования данных. Без словаря данных, позволяющего интерпретировать содержимое таких ограничителей, данные не обретают значения. Многочисленные попытки создать словари данных и информационные модели для таких схем структурирования были затруднены с точки зрения практического внедрения, что лишь способствовало «вавилизации» данных и сложности их обмена со смыслом.
С введением концепции Семантической паутины Тимом Бернерсом-Ли в 1999 году[5] усилился интерес к стандартам W3C для обеспечения семантического обмена данными в масштабе веба, интеграции и автоматического вывода знаний.
Семантика как функция синтаксической интероперабельности
Синтаксическая интероперабельность, обеспечиваемая, например, XML или стандартами SQL, — обязательное условие для семантической интероперабельности. Она подразумевает единый формат и протокол для структурирования данных, позволяя системам понимать, как обрабатывать получаемую информацию. Также это даёт возможность обнаруживать синтаксические ошибки, позволяя системе-запрашивающему повтоpно отправить некорректно полученное или искажённое сообщение. Семантическая коммуникация невозможна, если синтаксис нарушен и не соответствует данным. Однако данные, представленные в одном синтаксисе, зачастую могут быть точно преобразованы в другой синтаксис. Там, где такое преобразование возможно, возможно точное взаимодействие систем с разными синтаксисами обмена данными. В некоторых случаях возможность корректного преобразования ограничена одной стороной из-за различий в выразительной мощности используемых формализмов.
Создание единой онтологии, охватывающей все понятия всех приложений, практически невозможно, учитывая постоянное появление новых терминов или переопределение старых. Однако возможно выделить конечное множество «примитивных» концептов, из которых составляются более сложные понятия для конкретных приложений и онтологий. Наличие фундаментальной онтологии (она же верхнеуровневая онтология), содержащей такие элементы, стало бы основой для широкой семантической интероперабельности, позволяя пользователям определять новые термины, используя базовый набор, с гарантией их корректной трактовки другими системами, поддерживающими фундаментальную онтологию. Вопрос о том, конечно это множество или бесконечно, всё еще находится на исследовательской стадии. На данный момент универсальная фундаментальная онтология с широкой поддержкой отсутствует.
Слова и значения
Распространённое заблуждение в области семантики связано с «путаницей слов и значений». Смысл слов может меняться, иногда довольно быстро. Однако формальные языки, используемые в онтологиях, позволяют закрепить значения понятий в неизменяемой форме. Для понимания значения конкретного слова (или термина в базе данных) необходимо связать каждую фиксированную концептуальную единицу в онтологии с терминами (словами), которыми она может обозначаться. Если несколькими словами обозначается одно и то же (фиксированное) понятие, это называется синонимией; если же одно слово относится к разным понятиям — это двусмысленность (амбигуитет).
Амбигуитет и синонимия — основные проблемы для машинного понимания естественных языков. Использование слов для выражения понятий часто зависит от контекста и цели в каждом конкретном случае. Применение онтологий для поддержки семантической интероперабельности сводится к определению фиксированного множества понятий со стабильным смыслом и согласованными отношениями. Определение того, какие именно термины должны использоваться в каком контексте (например, в различных базах данных), отделяется от самой задачи построения онтологии и ложится на проектировщика базы данных, разработчика формы ввода данных или программу анализа языка. Если в некотором интероперабельном контексте изменяется смысл термина, для сохранения интероперабельности следует изменить соответствующую ссылку на элемент онтологии, определяющий это значение.
Языки и требования к представлению знаний
Языки представления знаний могут быть достаточно выразительными для передачи тонких смысловых различий в хорошо изученных областях. Принято выделять по меньшей мере пять уровней сложности таких языков.
Для общей работы с полуструктурированными данными применяются универсальные языки, такие как XML[6].
Во многих случаях может потребоваться язык со всей мощностью логики первого порядка.
Естественные языки чрезвычайно выразительны, но считаются слишком неоднозначными для обеспечения требуемой точности машинной интерпретации на текущем уровне развития технологий обработки языка.
В здравоохранении системы, обладающие семантической интероперабельностью, позволяют стандартизированно обрабатывать и обмениваться такими элементами, как медицинские термины, обозначения лекарств и другие нюансы, что способствует автоматическому обмену данными без участия человека.
Предварительное согласование структуры не требуется
Семантическая интероперабельность отличается от других видов интероперабельности тем, что информация, получаемая системой, должна содержать все необходимые для корректной трактовки смысловые данные — даже если алгоритмы приёма неизвестны передающей стороне.
Например, если передаётся число, означающее сумму задолженности одной компании перед другой, смысл этого числа подразумевает определённые действия или бездействие отправителя и получателя. Корректная интерпретация возможна только тогда, когда данные переданы и получены строго по согласованному протоколу и в нужной форме, а также при соответствии алгоритмов обеих сторон.
Если же передающая система не знает особенностей обработки информации у других участников, необходимо использовать общесогласованные соглашения, определяющие, как именно будет представлена информация конкретного смысла при обмене. Частным решением является стандартизация форм, например, запроса на оплату, в который в стандартизированном виде кодируется: кто и кому должен деньги, на основании какого действия образовался долг, участники, объекты и контексты сделки, сумма, валюта, сроки оплаты, способ и т.д. Если обе системы согласовали трактовку таких структур, семантическая интероперабельность реализуется для конкретной бизнес-задачи. Чтобы обеспечить семантическую интероперабельность в целом, необходимо стандартизировать описание нескольких тысяч базовых понятий для самых разных типов данных и задач.
Исследования в области онтологий
Вопрос достижения широкой семантической интероперабельности для различных областей пока остаётся предметом исследований. Для решения задачи общей (General) семантической интероперабельности требуется фундаментальная онтология (верхнеуровневая онтология), достаточно всеобъемлющая для определения базовых концептов любых прикладных онтологий. За последнее десятилетие разработано более десяти фундаментальных онтологий, но ни одна пока не получила широкого практического распространения.
Необходимость создания единой глобальной онтологии можно снизить, если строить фундаментальную онтологию как совокупность базовых («примитивных») понятий, из которых логически составляются понятия частных прикладных онтологий или локальных баз данных. Подход основан на принципе:
Если:
(1) значения и правила использования примитивных элементов фундаментальной онтологии согласованы; (2) элементы прикладных онтологий строятся как логическая комбинация фундаментальных элементов,
То:
Смысл прикладных онтологических элементов может быть вычислен автоматически с помощью логического вывода первого порядка любой системой, признающей значения элементов фундаментальной онтологии и обладающей как этой онтологией, так и описаниями новых элементов.
Следовательно:
Любая система, желающая корректно взаимодействовать с другой системой, должна передавать только сами данные и логические описания только тех терминов, которых нет в общей фундаментальной онтологии.
Таким образом, необходимость предварительного согласования структуры сводится лишь к фундаментальной онтологии (FO), обычно содержащей менее 10 000 элементов (типов и отношений). Однако для удобства работы часто разрабатываются расширения (доменные онтологии), определяемые через элементы FO, что ускоряет создание новых прикладных онтологий и снижает вероятность ошибок при их проектировании. Доменные расширения могут быть логически несовместимы между собой, и это необходимо учитывать при их совместном использовании.
Возможность обходиться без единой фундаментальной онтологии, используя сложные методы сопоставления между независимыми онтологиями, также остаётся предметом исследований.
Значение
Практическая значимость семантической интероперабельности оценивается рядом исследований по потерям эффективности, вызванных её отсутствием. Например, исследование, посвящённое коммуникации медицинской информации, оценило потенциальную экономию в 77,8 миллиардов долларов США в год при внедрении эффективных стандартов интероперабельности в здравоохранении[7]. В строительстве[8] и автопроме[9] подобные потери превышают 10 миллиардов долларов ежегодно в каждой отрасли. В общем, по США совокупные потери от отсутствия единых стандартов семантической интероперабельности превышают 100 миллиардов долларов в год.
Во многих других отраслях, в том числе в государственном управлении (eGovernment), здравоохранении, безопасности и других, внедрение стандартов семантической интероперабельности также сулит большие экономические выгоды. В 2007 году Евросоюз учредил Центр семантической интероперабельности Европы (Semantic Interoperability Centre Europe).
Семантическая интероперабельность для Интернета вещей
Цифровая трансформация открывает новые возможности по повышению эффективности, гибкости и адаптивности организаций к изменяющимся условиям бизнеса и рынка. Для этого необходима интеграция разнородных данных и сервисов, а также формирование общего понимания смыслов и контекста информации.
В поддержку этих процессов экспертная группа под эгидой ISO/IEC JTC1, ETSI, oneM2M и W3C совместно с AIOTI работает над ускорением внедрения семантических технологий в Интернет вещей (IoT). Совсем недавно группа опубликовала два совместных аналитических доклада: «Semantic IoT Solutions – A Developer Perspective» и «Towards semantic interoperability standards based on ontologies». Эти доклады развивают тезисы более ранней работы «Semantic Interoperability for the Web of Things»[10].
Примечания
Литература
- Бернерс-Ли, Тим. Weaving the Web : [англ.] / Тим Бернерс-Ли, Марка Фишетти. — HarperSanFrancisco, 1999. — ISBN 978-0-06-251587-2.


