Схемо-независимые базы данных

Схемо-независимые базы данных (англ. schema-agnostic databases, базы данных, не зависящие от словаря, англ. vocabulary-independent databases) — это базы данных, которые позволяют пользователям абстрагироваться от представления данных, поддерживая автоматическое семантическое сопоставление между запросами и базами данных. Схемо-независимость — это свойство базы данных, заключающееся в сопоставлении запроса, сформулированного с использованием терминологии и структуры пользователя, с автоматической трансляцией этого запроса на внутренний словарь данных.

Рост объёма и семантическая неоднородность схем баз данных порождают новые требования для пользователей, осуществляющих поиск и запросы к структурированным данным. В таких масштабах становится сложно для потребителей данных быть знакомыми с их структурой с целью формирования запросов. В центре данной проблемы находится семантический разрыв между пользователями и базами данных, который становится всё более актуальным по мере увеличения объёмов и сложности данных[1].

К 2026 году схемо-независимые базы данных (включая векторные и документные) приобрели ключевое значение в архитектуре систем Retrieval-Augmented Generation (RAG). Они позволяют хранить и извлекать разнородные корпоративные знания без предварительно заданной жёсткой схемы, выступая в качестве хранилища релевантной информации, которая передаётся большим языковым моделям (LLM) для генерации контекстуально обоснованных ответов[2].

Описание

Развитие среды хранения и обработки данных в сторону объединения множества источников информации и рост размера, сложности, динамичности и децентрализации схем данных (SCoDD, англ. Schema size, Complexity, Dynamicity, Decentralisation)[1][3][4] увеличивают сложность современной организации данных. Тенденция SCoDD становится одной из ключевых проблем управления данными в сценариях больших данных, где пользователи и приложения требуют более полного охвата информации, создаваемой независимыми источниками, с различными семантическими предпосылками и контекстами применения, что характерно для приложений семантической паутины.

Эволюция баз данных в сторону гетерогенных сред существенно влияет на удобство использования, семиотику и семантические предположения, лежащие в основе существующих методов доступа к данным, таких как структурированные запросы, поиск по ключевым словам и визуальные языки запросов. В бесcхемных базах данных, содержащих потенциально миллионы динамически изменяющихся атрибутов, становится невозможным требовать от пользователей знания структуры или словаря данных для построения запросов. На этом уровне затраты на понимание схемы с целью написания структурированного запроса могут быть чрезмерно высокими.

Для снижения высоких затрат на понимание схем применяются интеллектуальные каталоги данных с использованием искусственного интеллекта и автоматическое определение схемы[5]. В гетерогенных средах для автоматического семантического сопоставления создаётся унифицированный семантический слой на основе графов знаний и онтологий[6]

Схемо-независимые запросы

Схемо-независимые запросы можно определить как методы запроса к структурированным базам данных, которые позволяют получателю удовлетворять сложные информационные потребности без необходимости разбираться в структуре (схеме) базы данных. Аналогично, Чан и др. определяют это как «методы поиска, не требующие от пользователей знания схемы лежащих в основе данных». Подходы, такие как поиск по ключевым словам по базам данных, позволяют пользователям выполнять запросы без использования формальных языков запросов. Однако, как отмечают Тран и др.: «В подобных случаях пользователи должны осуществлять дополнительную навигацию и исследование для получения сложных результатов. В отличие от поиска по ключевым словам в Web, ориентированного на простые задачи, здесь поиск применяется для получения более сложных результатов. Целью становится получение сложных наборов ресурсов и их связей, а не одного множества ресурсов».

Разработка методов поддержки интерфейсов на естественном языке (NLI) для работы с базами данных направлена на достижение схемо-независимых запросов. Дополнительно, существуют методы, основанные на поиске по ключевым словам, которые позволяют формулировать сложные запросы. Другие способы сосредоточены на построении структурированных запросов при ослабленных ограничениях на схему. Все эти методы (естественно-языковые, ключевые слова, структурированные запросы) позволяют реализовать различные степени гибкого семантического сопоставления между запросами и данными — от полного отсутствия учёта семантики до использования принципиальных формальных моделей. Хотя потребность в схемо-независимости давно является неявным требованием в системах семантического поиска и естественно-языковых запросах к структурированным данным, этот термин не был явно выделен как концепция и как обязательное условие для современных систем управления базами данных. В последнее время начали появляться исследования, формализующие семантические аспекты схемо-независимых запросов[1][7][8]. Современные гибридные подходы (Text-to-SQL) сочетают большие языковые модели (LLM) и онтологии (семантический слой) для автоматического сопоставления запросов на естественном языке со схемами данных[9][10]. Современные гибридные подходы (Text-to-SQL) сочетают большие языковые модели (LLM) и онтологии (семантический слой) для автоматического сопоставления запросов на естественном языке со схемами данных. В таких системах онтология предоставляет формальное описание предметной области, помогая разрешать неоднозначности и обогащая запрос контекстом. Это позволяет языковым моделям точно сопоставлять пользовательские термины с таблицами и полями базы данных, значительно повышая точность генерируемых запросов.

Схемо-независимые структурированные запросы

Это схемо-независимые запросы, использующие синтаксис определённого языка запросов (например, SQL, SPARQL). Сохраняется синтаксис и семантика операторов, однако терминология может различаться. В реляционных СУБД (например, Microsoft SQL Server и PostgreSQL) гибкость схемы часто достигается через поддержку типов данных JSON и специфичных функций[11].[12] Для автоматического сопоставления терминологии применяются подходы на основе онтологий (OBDA) и большие языковые модели (LLM)[13]. Вместо нативной поддержки стандартов RDF и SPARQL коммерческие системы (такие как SQL Server 2025 и Azure Database for PostgreSQL) развивают интеграцию графов свойств, используя для запросов расширения T-SQL и язык openCypher[14].[15]

Пример 1

SELECT ?y {
  BillClinton hasDaughter ?x .
  ?x marriedTo ?y .
}

который соответствует следующему запросу SPARQL, использующему терминологию набора данных:

PREFIX : <http://dbpedia.org/resource/>
PREFIX dbpedia2: <http://dbpedia.org/property/>
PREFIX dbpedia: <http://dbpedia.org/ontology/>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT   ?y  {
 :Bill_Clinton dbo:child ?x <ref name="DBpediaChild">{{cite web |url=https://mappings.dbpedia.org/index.php/OntologyProperty:Child |title=OntologyProperty:Child |website=DBpedia Mappings Wiki |access-date=2026-05-28}}</ref>.
 ?x dbo:spouse ?y <ref name="DBpediaSpouse">{{cite web |url=https://mappings.dbpedia.org/index.php/OntologyProperty:Spouse |title=OntologyProperty:Spouse |website=DBpedia Mappings Wiki |access-date=2026-05-28}}</ref>.
 }

Пример 2

SELECT   ?x {
         ?x isA book .
         ?x by William_Goldman .
         ?x has_pages ?p .
         FILTER (?p > 300)
  }

который соответствует следующему запросу SPARQL с использованием словаря набора данных:

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX : <http://dbpedia.org/resource/>
PREFIX dbpedia2: <http://dbpedia.org/property/>
PREFIX dbpedia: <http://dbpedia.org/ontology/>
SELECT ?x {
         ?x rdf:type dbpedia:Book .
         ?x dbo:author :William_Goldman <ref name="DBpediaAuthor">{{cite web |url=https://mappings.dbpedia.org/index.php/OntologyProperty:Author |title=OntologyProperty:Author |website=DBpedia Mappings Wiki |access-date=2026-05-28}}</ref>. 
         ?x dbo:numberOfPages ?p <ref name="DBpediaPages">{{cite web |url=https://dbpedia.org/ontology/numberOfPages |title=numberOfPages |website=DBpedia Ontology |access-date=2026-05-28}}</ref>.
FILTER(?p > 300)
}

Семантический и гибридный поиск

Это схемо-независимые запросы, выраженные в виде поиска по ключевым словам, где синтаксис и семантика операторов отличаются от формата структурированных запросов. Поиск по ключевым словам эволюционировал в гибридный поиск, который объединяет традиционный лексический поиск (например, с использованием алгоритма BM25) и семантический векторный поиск. Для объединения результатов этих методов и повышения общей релевантности выдачи часто применяется алгоритм Reciprocal Rank Fusion (RRF)[16].

Пример

"Bill Clinton дочь замужем за"
"Книги Уильяма Голдмана объёмом более 300 страниц"

Хотя классические примеры хорошо иллюстрируют базовую концепцию, в современных системах они уступили место более сложным задачам семантического поиска. Актуальные примеры включают запросы на основе намерений, где система находит релевантные документы без точного совпадения слов (например, запрос «недорогие автомобили с хорошим пробегом» находит «бюджетные топливно-эффективные транспортные средства»), а также гибридный поиск, совмещающий семантическое описание проблемы (например, «боль в груди») с точными ключевыми словами (например, код диагноза)[17].[18]

Семантическая сложность

По состоянию на 2016 год концепция схемо-независимых запросов развита в первую очередь в научной среде. Большинство схемо-независимых систем запросов исследуются в контексте интерфейсов на естественном языке для работы с базами данных или семантической паутиной[19]. Эти работы посвящены применению техник семантического синтаксического анализа при обработке объёмных, гетерогенных и бесcхемных баз данных. В последнее время концепция схемо-независимых систем запросов и баз данных стала более явно обсуждаться в публикациях[1][7][8]. Фрейтас и др[20]. предлагают вероятностную модель семантической сложности сопоставления схемо-независимых запросов. К 2026 году в области семантического сопоставления произошёл сдвиг от классических вероятностных моделей к векторному поиску (на основе эмбеддингов) и гибридным системам. Данные подходы значительно эффективнее улавливают контекст и смысл, что делает их оптимальными для обработки схемо-независимых запросов[21].[22]

Коммерческое применение и развитие

Переход схемо-независимых подходов из академической среды в коммерческое использование был обусловлен потребностями крупных интернет-компаний в начале 2000-х годов. Столкнувшись с пределами масштабируемости традиционных реляционных баз данных, технологические лидеры начали создавать собственные проприетарные системы хранения. Ключевую роль сыграли разработка распределённого хранилища Google Bigtable[23] и системы Amazon Dynamo[24]. Публикация технических документов об этих решениях послужила катализатором для возникновения движения NoSQL, популяризировавшего концепции гибкой схемы и горизонтальной масштабируемости[25].

Драйвером современной коммерциализации выступает развитие автономных ИИ-агентов и мультимодальных систем, требующих гибкого доступа к разнородным данным без привязки к их строгой внутренней структуре. В 2025—2026 годах коммерческое воплощение схемо-независимых концепций реализуется через технологии семантического поиска. На рынке получили распространение специализированные векторные базы данных (Pinecone, Weaviate, Qdrant, Milvus) и семантические слои ИИ, позволяющие выполнять запросы на естественном языке[26].

Функции векторного поиска активно внедряются и в традиционные СУБД. В частности, в Microsoft SQL Server 2025 был добавлен специальный тип данных VECTOR для хранения эмбеддингов, что обеспечивает возможность семантического сопоставления запросов[27].

Примечания

  1. 1 2 3 4 A. Freitas, Schema-agnostic queries over large-schema databases: a distributional semantics approach (англ.). andrefreitas.org (2015). Дата обращения: 28 мая 2026. Архивировано 26 августа 2018 года.
  2. The Role of Vector Databases in RAG. IBM. Дата обращения: 28 мая 2026.
  3. Pat Helland, “If you have too much data, then 'good enough' is good enough”. Communications of the ACM [англ.]. 54 (6): 40—47. 2011. Дата обращения 2024-06-14. |access-date= требует |url= (справка)
  4. M. L. Brodie, J. T. Liu, “The power and limits of relational technology in the age of information ecosystems”. Keynote, On The Move Federated Conferences, Heraklion, Greece [англ.]. 25–29 октября 2010. Дата обращения 2024-06-14. |access-date= требует |url= (справка)
  5. Top 10 Data Catalog Tools 2025. Coalesce (2025). Дата обращения: 28 мая 2026.
  6. Обеспечение семантической совместимости в гетерогенных информационных потоках. Известия ТТИ ЮФУ (2026). Дата обращения: 28 мая 2026.
  7. 1 2 A. Freitas, J. C. Pereira Da Silva, E. Curry, On the Semantic Mapping of Schema-agnostic Queries: A Preliminary Study (англ.). Workshop of the Natural Language Interfaces for the Web of Data (NLIWoD), 13th International Semantic Web Conference (ISWC) (2014). Дата обращения: 28 мая 2026. Архивировано 14 февраля 2018 года.
  8. 1 2 S. Bischоф, M. Крецца, A. Поллерес, S. Рудольф, Schema-Agnostic Query Rewriting in SPARQL 1.1 (англ.). Proceedings of the 13th International Semantic Web Conference. Springer (2014). Дата обращения: 28 мая 2026.
  9. SQL in the Age of AI: Text-to-SQL LLM. Grapes Tech Solutions Blog (2026). Дата обращения: 28 мая 2026.
  10. Text-to-SQL LLM. PuppyGraph Blog. Дата обращения: 28 мая 2026.
  11. PostgreSQL JSONB: как работать с JSON в базе данных. abykov.dev. Дата обращения: 28 мая 2026.
  12. JSON в SQL Server 2016. Хабр. Дата обращения: 28 мая 2026.
  13. Онтологии и LLM: как подружить текст и данные. Хабр. Дата обращения: 28 мая 2026.
  14. SQL Server 2025 New Features You Actually Need To Care About. SQL Yard. Дата обращения: 28 мая 2026.
  15. Generative AI in Azure Database for PostgreSQL. GitHub (MicrosoftDocs). Дата обращения: 28 мая 2026.
  16. Introducing Reciprocal Rank Fusion for Hybrid Search. OpenSearch Blog. Дата обращения: 28 мая 2026.
  17. What Are the Best Practices for Connecting Semantic Search with Existing Databases. Milvus. Дата обращения: 28 мая 2026.
  18. Best Semantic Search Engines in 2026. Mixpeek. Дата обращения: 28 мая 2026.
  19. Unger et al., Introduction to Question Answering over Linked Data (англ.). Proceedings of the 2014 Reasoning Web Summer School (2014). Дата обращения: 28 мая 2026. Архивировано 13 июня 2025 года.
  20. A. Freitas, J. E. Sales, S. Handschuh, E. Curry, How hard is the Query? Measuring the Semantic Complexity of Schema-Agnostic Queries (англ.). Proceedings of the 11th International Conference on Computational Semantics (IWCS). andrefreitas.org (2015). Дата обращения: 28 мая 2026. Архивировано 26 августа 2018 года.
  21. Embeddings and Vector Search: The Ultimate Guide for 2026. Jobs by Culture. Дата обращения: 28 мая 2026.
  22. The 10 Best Semantic Search APIs in 2025. Shaped AI Blog (2025). Дата обращения: 28 мая 2026.
  23. Bigtable: A Distributed Storage System for Structured Data. Google Research (2006). Дата обращения: 28 мая 2026.
  24. Dynamo: Amazon’s Highly Available Key-value Store. Cornell University (2007). Дата обращения: 28 мая 2026.
  25. The Dynamo Paper and the NoSQL Movement. alexdebrie.com. Дата обращения: 28 мая 2026.
  26. Базы данных в 2025 году. znn.by. Дата обращения: 28 мая 2026.
  27. Microsoft SQL Server 2025: глубокая интеграция ИИ, включая векторные типы данных. Хабр. Дата обращения: 28 мая 2026.