Управление данными
Управление данными (англ. Data management) — дисциплины, связанные с обращением с данными как ценным ресурсом; это практика управления данными организации с целью их последующего анализа для принятия решений[1].
Определение
Понятие управления данными возникло параллельно с развитием вычислительной техники. В 1950-х годах, по мере распространения компьютеров, организации столкнулись с задачей эффективной организации и хранения данных. Ранние методы основывались на перфокартах и ручной сортировке, что было трудоёмко и подвержено ошибкам. Введение систем управления базами данных в 1970-х годах стало значительным этапом, позволив структурировать хранение и извлечение данных.
К 1980-м годам реляционные модели баз данных произвели революцию в управлении данными, подчеркнув важность данных как актива и способствуя формированию ориентированного на данные подхода в бизнесе. В этот период также появились практики управления данными (data governance), которые акцентировали организацию и регулирование данных для обеспечения их качества и соответствия требованиям. Со временем развитие технологий, таких как облачные вычисления и аналитика больших данных, ещё больше усовершенствовало управление данными, сделав его краеугольным камнем современной деловой деятельности.
По состоянию на 2025 год, управление данными охватывает широкий спектр практик — от хранения и безопасности данных до аналитики и поддержки принятия решений, отражая его критическую роль в стимулировании инноваций и эффективности в различных отраслях[2].
Темы в управлении данными
Стандарт знаний по управлению данными (Data Management Body of Knowledge, DMBoK), разработанный Ассоциацией по управлению данными (DAMA), определяет ключевые области знаний, которые служат основой современных практик управления данными и предлагают организациям структуру для управления данными как стратегическим активом.
Второе издание, DMBOK 2, было опубликовано в 2017 году, заменив первую версию, которая представляла собой краткую брошюру[3]. Это издание является всеобъемлющим справочником, который определяет руководящие принципы и описывает их применение в функциональных областях управления данными[4]. Русскоязычный перевод второго издания был выпущен в 2020 году[4].
В апреле 2024 года DAMA International выпустила обновлённую редакцию — DAMA-DMBOK®2 Revised Edition[5]. Эта версия является «обслуживающим релизом», направленным на устранение неточностей, стандартизацию терминологии и исправление диаграмм для повышения ясности и согласованности, не меняя фундаментальную структуру свода знаний[6]. Среди ключевых улучшений — почти полная переработка главы «Качество данных», уточнение определения «Владельца данных» и включение этических соображений для ИИ[6][7]. С 1 ноября 2024 года экзамен на сертификацию Certified Data Management Professional (CDMP) основывается на этой обновлённой редакции[7].
В 2025 году DAMA International инициировала работу над третьим изданием свода знаний — DMBOK 3.0. Официальный старт проекта состоялся 25 июня 2025 года[8]. Проект описывается как многолетняя «вечнозелёная инициатива», направленная на модернизацию свода знаний и включение в него новых дисциплин в соответствии с современными технологиями и практиками[9]. Ожидается, что разработка новой версии займёт около двух лет и будет вестись в сотрудничестве с экспертами со всего мира[10].
Установление политик, процедур и рамок ответственности для обеспечения точности, безопасности и ответственного использования данных в организации.
По мере усложнения технологий, в частности искусственного интеллекта (ИИ), и роста объёмов данных, стратегическое управление данными становится критически важным[11]. Качественное управление данными является фундаментом для успешного внедрения ИИ и аналитических инициатив[11]. В 2025 году основной акцент в этой области смещается на управление метаданными, которые предоставляют контекст и помогают отслеживать происхождение данных (англ. data lineage), что необходимо для борьбы с дезинформацией и защиты данных как интеллектуальной собственности[12]. Эта тенденция находит отражение в отраслевых стандартах: обновлённая редакция DAMA-DMBOK 2, выпущенная в 2024 году, включила в область управления данными этические соображения и практики для ИИ.
Сосредоточено на проектировании общей структуры систем данных. Обеспечивает эффективность потоков данных, масштабируемость, адаптивность и соответствие бизнес-потребностям.
В современных условиях, по состоянию на 2025 год, в архитектуре данных наблюдается тенденция к синергии двух подходов: ткани данных (Data Fabric) и сетки данных (Data Mesh). Ткань данных представляет собой интегрированный слой, который автоматизирует обнаружение, интеграцию и управление данными в распределённых средах. Сетка данных, в свою очередь, является децентрализованной парадигмой, которая передаёт ответственность за данные доменным командам, рассматривающим их как продукт. Организации стремятся гармонизировать эти подходы, используя Data Fabric для создания единой технической инфраструктуры и стандартов, а Data Mesh — для реорганизации команд и повышения их автономности в работе с данными[13].
Эта область посвящена созданию моделей, логически отражающих взаимосвязи данных. Важна как для проектирования баз данных, так и для структурирования данных с целью облегчения анализа и отчётности.
Включает физическое хранение данных и их ежедневное обслуживание — от традиционных дата-центров до облачных решений, а также обеспечение эффективной обработки данных.
Обеспечивает беспрепятственный обмен и объединение данных из различных источников между системами, что критически важно для комплексной аналитики и принятия решений.
Сосредоточено на управлении неструктурированными данными — документами, мультимедиа и другим контентом, обеспечивая их хранение, категоризацию и удобный поиск.
Включает консолидацию данных в репозиториях для поддержки аналитики, отчётности и получения бизнес-инсайтов.
Одной из ключевых тенденций в этой области является обработка данных в режиме реального времени. Технологии потоковой обработки, такие как Apache Kafka и Apache Spark, позволяют компаниям мгновенно анализировать поступающие данные. Это особенно важно для секторов, где быстрые решения напрямую влияют на прибыльность, например, в электронной коммерции, финансах и логистике[14].
Также набирает популярность концепция «Данные как продукт» (англ. Data-as-a-Product, DaaS), тесно связанная с архитектурой Data Mesh. Этот подход предполагает, что команды, ответственные за данные, рассматривают их как готовые продукты, обеспечивая их качество, доступность и удобство использования для других подразделений компании. Такой подход способствует созданию повторно используемых и ценных информационных активов[15].
Управляет данными о данных, включая определения, происхождение и использование, чтобы повысить понимание и удобство работы с информационными активами организации.
В 2025 году роль управления метаданными значительно возросла, особенно в контексте развития искусственного интеллекта (ИИ) и усложнения информационных потоков. Метаданные предоставляют контекст и позволяют отслеживать происхождение данных (англ. data lineage), что становится критически важным для борьбы с дезинформацией и защиты данных как интеллектуальной собственности. Качественное управление метаданными рассматривается как необходимое условие для успешного внедрения ИИ и аналитических инициатив, поскольку оно обеспечивает прозрачность и доверие к данным, используемым для обучения моделей.
Посвящено обеспечению точности, полноты и надёжности данных, акцентируя непрерывный мониторинг и совершенствование.
Справочные данные включают стандартизированные коды и значения для единообразной интерпретации в разных системах. Управление мастер-данными (MDM) регулирует и централизует критически важные данные организации, обеспечивая единый и надёжный источник информации для поддержки принятия решений и эффективности операций.
Безопасность данных — это комплекс практик и технологий, направленных на защиту цифровой информации и систем от несанкционированного доступа, использования, раскрытия, изменения или уничтожения. Включает шифрование, контроль доступа, мониторинг и оценку рисков для поддержания целостности, конфиденциальности и доступности данных.
Конфиденциальность данных предполагает защиту персональной информации, обеспечивая её сбор, хранение и использование в соответствии с согласием, законодательными стандартами и принципами конфиденциальности. Акцентируется защита чувствительных данных от злоупотреблений или несанкционированного доступа при уважении прав пользователей.
В России в 2025 году вступили в силу значительные поправки в законодательство, ужесточающие требования к работе с персональными данными:
- Новые правила обезличивания: С 1 сентября 2025 года операторы обязаны по требованию Минцифры обезличивать определённые данные и передавать их в государственную информационную систему[16].
- Ужесточение ответственности за утечки: С 30 мая 2025 года введены повышенные штрафы за утечку персональных данных, размер которых зависит от масштаба инцидента[16].
- Новые требования к локализации: С 1 июля 2025 года вступили в силу положения, уточняющие требования к локализации персональных данных российских граждан на территории РФ[17].
- Ответственность за отсутствие уведомлений: Введена ответственность за неподачу уведомлений в Роскомнадзор о сборе и обработке персональных данных[18].
Современные тенденции и вызовы
В 2025 году сфера управления данными продолжает развиваться под влиянием искусственного интеллекта, усложняющихся архитектур и растущего внимания к вопросам регулирования. Компании стремятся не просто собирать и хранить данные, а извлекать из них максимальную ценность, что определяет ключевые тенденции и вызовы этого года.
- Интеграция искусственного интеллекта (ИИ) и генеративного ИИ: Искусственный интеллект, и в особенности генеративные модели (GenAI), становится неотъемлемой частью процессов управления данными[19]. Технологии ИИ активно применяются для автоматизации очистки, структурирования и проверки данных, что ускоряет рабочие процессы[20][21]. Кроме того, генеративный ИИ используется для создания синтетических данных, необходимых для обучения моделей без использования конфиденциальной информации.
- Синергия архитектур Data Fabric и Data Mesh: Вместо противопоставления этих двух подходов организации стремятся к их гармоничному совместному использованию. Data Fabric применяется для создания единой технической инфраструктуры и стандартов, а Data Mesh — для децентрализации ответственности за данные и повышения автономности доменных команд.
- Усиление роли управления данными (Data Governance): По мере усложнения ИИ и роста объёмов данных стратегическое управление данными становится критически важным. Основной акцент смещается на управление метаданными и отслеживание происхождения данных (англ. data lineage), что необходимо для борьбы с дезинформацией и обеспечения качества данных для аналитических инициатив.
- Обработка данных в режиме реального времени: Способность анализировать данные и реагировать на события в реальном времени остаётся ключевым трендом. Технологии потоковой обработки, такие как Apache Kafka и Apache Spark, позволяют компаниям мгновенно анализировать поступающие данные, что особенно важно для финансового сектора, электронной коммерции и логистики.
- «Данные как продукт» (англ. Data-as-a-Product, DaaS): Концепция, тесно связанная с архитектурой Data Mesh, предполагает отношение к наборам данных как к готовым продуктам. Команды, ответственные за данные, обеспечивают их качество, доступность и удобство использования для других подразделений, создавая ценные и повторно используемые информационные активы.
В 2025 году в России вступил в силу ряд важных поправок в законодательство, ужесточающих требования к работе с персональными данными:
- Новые правила обезличивания: С 1 сентября 2025 года операторы обязаны по требованию Минцифры обезличивать определённые данные и передавать их в государственную информационную систему.
- Ужесточение ответственности за утечки: С 30 мая 2025 года введены повышенные штрафы за утечку персональных данных, размер которых зависит от масштаба инцидента. Также введена ответственность за неподачу уведомлений в Роскомнадзор о сборе и обработке персональных данных.
- Новые требования к локализации: С 1 июля 2025 года вступили в силу положения, уточняющие требования к локализации персональных данных российских граждан на территории РФ.
Ключевым отраслевым мероприятием в России стал десятый юбилейный форум «Управление данными — 2025», прошедший 24 сентября в Москве. Форум был посвящён стратегическим и практическим аспектам работы с данными, включая Data Governance, Data-Driven подходы и применение ИИ[22].
Управление данными как основа управления информацией
Различие между данными и производной от них ценностью часто иллюстрируется с помощью иерархии «Данные — Информация — Знания — Мудрость» (англ. Data-Information-Knowledge-Wisdom, DIKW), также известной как «пирамида знаний» или «информационная лестница». Эта модель описывает, как необработанные данные (Data) после обработки и придания им контекста становятся информацией (Information). Интерпретация информации и выявление в ней закономерностей приводит к формированию знаний (Knowledge). Высший уровень, мудрость (Wisdom), предполагает применение знаний для принятия взвешенных решений и вынесения суждений[23].
Существует также менее распространённая вариация этой иерархии — модель DIKAR (Данные — Информация — Знания — Действие — Результат; англ. Data-Information-Knowledge-Action-Result)[24]. Эта модель, предложенная Венкатраманом в 1996 году, делает акцент на практическом применении знаний[25]. В ней этап «Мудрость» заменяется на два прагматичных шага: «Действие» (Action), которое предпринимается на основе знаний, и «Результат» (Result), который является измеримым итогом этого действия[24], напрямую связывая управление данными с достижением конкретных бизнес-целей.
Управление данными в научных исследованиях
В исследованиях управление данными — это систематический процесс обращения с данными на протяжении всего их жизненного цикла. Это включает сбор, организацию, хранение, анализ и обмен данными для обеспечения их точности, доступности и безопасности.
Эффективное управление данными также предполагает создание плана управления данными (DMP), в котором рассматриваются вопросы этики, соответствия нормативным стандартам и долгосрочного хранения. Грамотное управление повышает прозрачность исследований, воспроизводимость и эффективное использование ресурсов, что в итоге способствует достоверности и значимости научных результатов. Это критически важная практика для обеспечения целостности и пригодности данных как в ходе, так и после завершения исследовательского проекта[26].
Большие данные
Big data — это сбор и анализ огромных массивов данных. Хотя большие данные — относительно новое явление, необходимость использования данных для поддержки принятия решений возникла ещё в начале 1970-х годов с появлением систем поддержки принятия решений (DSS). Эти системы можно рассматривать как первую итерацию управления данными для поддержки решений[27].
Финансовые и экономические результаты
Исследования показывают, что транзакции с клиентами обеспечивают 40 % прироста собираемых данных ежегодно, что означает значительное влияние финансовых данных на бизнес-решения. Поэтому современные организации используют аналитику больших данных для выявления 5-10 новых источников данных, которые помогают собирать и анализировать информацию для улучшения принятия решений. Йонсен (2013) отмечает, что организации, использующие средние аналитические технологии, на 20 % чаще получают более высокую прибыль по сравнению с конкурентами, не внедрившими аналитику в свои процессы. Кроме того, IRI сообщила, что розничная индустрия может получить ежегодный прирост более чем на 10 миллиардов долларов благодаря внедрению современных аналитических технологий. Следовательно, можно выдвинуть гипотезу: экономические и финансовые результаты могут влиять на то, как организации используют инструменты аналитики данных.
Примечания
Литература
- Sebastian-Coleman, Laura. Navigating the Labyrinth: An Executive Guide to Data Management. — New York : Morgan Kaufmann, 2018.
- The DAMA Guide to the Data Management Body of Knowledge (DMBoK): Data Management for Practitioners and Professionals. — 2. — DAMA International, Technics Publications, 2017.
Ссылки
- Data Management Association, DAMA. dama.org. — «Association for Data Management professionals, providing advice on best practice and professional certification». Дата обращения: 8 апреля 2025.
- dataversity.net. — «Website providing learning resources on data related topics». Дата обращения: 8 апреля 2025.
- Longwood Medical Area Research Data Management Working Group. Harvard University. — «Working group promoting best practice in research data management». Дата обращения: 8 апреля 2025.
- Data Management. Information Week. — «News site covering Data Management». Дата обращения: 8 апреля 2025.
- Data Driven Daily. datadrivendaily.com. — «Website specializing in content for data professionals». Дата обращения: 25 апреля 2025.


