Подготовка данных
Подготовка данных (фр. préparation de données) — это процесс, предшествующий анализу данных. Он включает в себя несколько этапов, таких как сбор данных, очистка данных, обогащение данных и их слияние.
В ходе подготовки данных так называемые «сырые» данные подвергаются различным обработкам, чтобы сделать их пригодными для стадии интеллектуального анализа данных, целью которой является извлечение знаний из данных с помощью построения моделей.
Подготовка данных является ключевым этапом, поскольку достоверность анализа во многом зависит от качества данных.
Важность процесса
Данные, имеющиеся в распоряжении организаций, зачастую разрозненные и низкого качества, что затрудняет процесс, поскольку требует значительных затрат времени на их приведение в порядок до проведения анализа.
Способность организаций использовать инструменты, существенно сокращающие время на подготовку данных, становится значимым фактором на рынке, объём которого превысит миллиард долларов к 2023 году[1].
Компании сталкиваются с необходимостью обработать всё больший объём информации в ограниченные сроки. Из-за постоянно меняющихся пользовательских привычек данные требуется регулярно обновлять, чтобы сохранить их актуальность и достоверность.
Организация, владеющая процессом подготовки данных и обладающая эффективными и автоматизированными инструментами, получает более качественные результаты анализа. Цель для предприятий — иметь точные, надёжные и устойчивые во времени данные, что, например, позволяет выявить реальные потребности клиентов и оптимизировать целевое предложение для максимизации прибыли.
Кроме того, глубокое понимание и контроль над своими данными критически важны для организаций, так как это способствует доверию к данным и, следовательно, большей уверенности при принятии стратегических решений, в том числе финансовых.
Проблемы
Цель процесса подготовки данных — получение надёжных, репрезентативных и структурированных данных в достаточном количестве для максимально эффективного анализа.
Однако возникающие проблемы в процессе подготовки данных пропорциональны объёму информации, с которой приходится работать исследователям.
К числу основных проблем относятся:
- Как максимально эффективно использовать данные?
- Как обогащать данные релевантной информацией?
- Как гарантировать качество данных?
- Как очищать данные?
- Как своевременно обновлять данные и модели?
- Как ускорить процесс?
- Как снизить издержки подготовки данных?
Согласно журналу Forbes[2], 76 % специалистов по работе с большими данными считают подготовку данных самой утомительной частью работы. На подготовку и управление данными может уходить до 80 % рабочего времени, что указывает на длительность и трудоёмкость процесса, требующего специальных инструментов для облегчения труда.
История
Процесс подготовки данных исторически связан с анализом данных. Всякий раз, когда производится сбор данных с целью их анализа, речь неизменно идёт о подготовке данных.
Ингестирование данных
Ингестирование данных — это фаза подготовки данных, в ходе которой сведения из одной или нескольких источников помещаются в хранилище.
Это позволяет командам получить к ним доступ для использования, организации или анализа. Большинство таких хранилищ — хранилища данных, структурирующие и упорядочивающие разнородные данные и служащие основой для принятия решений. Хранилища данных отличаются от других решений (например, озёр данных) характером хранимой информации: озёра данных, к примеру, ориентированы на однородные данные.
Улучшение данных
Практически в любом проекте ответственная команда будет вынуждена осуществить этап повышения качества данных. Этот процесс включает ряд операций по обработке данных для создания более надёжной и значимой базы, ориентированной на аналитические задачи.
Очистка данных — фундаментальный этап подготовки. Она повышает качество, устраняя или корректируя ошибочные сведения, п о призван предотвращать появление некорректной информации в базе данных. Причинами ошибок могут быть:
- опечатки;
- лексические ошибки;
- ошибки форматирования;
- дублирование;
- пропущенные значения;
- семантические ошибки.
Очистка критична, поскольку любые ошибки неизбежно негативно сказываются на дальнейшей аналитике. С ростом объёма информации увеличивается и количество ошибок, что заставляет предприятия применять разнообразные методы их устранения: аудиты данных, устранение дубликатов с помощью алгоритмов, синтаксический анализ и пр.
Обогащение данных — это объединение внутренних данных предприятия с внешними источниками. Чаще всего организации используют такую практику в процессе подготовки данных.
Цель обогащения — повысить релевантность принимаемых решений.
Например, имея данные о покупках клиентов, компания может дополнить их внешней информацией для более точной сегментации аудитории, что позволяет предлагать более подходящие продукты и повысить прибыль.
Сырые данные, имеющиеся у организации, часто недостаточны, поэтому процесс обогащения становится необходимым.
Однако добавлять новые данные следует осмысленно — они должны быть релевантны и дополнять существующую базу.
Обогащение данных — самостоятельный вызов. Для интеграции новых данных нужна уже очищенная и многочисленная база. Можно столкнуться с риском снижения надёжности: внешние источники могут содержать ошибки, поэтому требуется их верификация. Помимо этого, разнородные форматы и стандарты потребуют трансформации информации.
Важен и вопрос стоимости: сервисы «data as a service» обеспечивают доступ к внешним базам по подписке. Обогащённые данные должны сохранять актуальность, отражая конкретную ситуацию на текущий момент. Ключевая задача — не создать самую объёмную базу, а собрать самые релевантные сведения.
В условиях постоянно меняющихся потребительских привычек компания должна точно знать, какие данные у неё есть, а каких не хватает для полноценного анализа.
В процессе сбора данных любая информация, способная повысить точность, важна для исследователя. Разнообразие данных вынуждает компании пересматривать традиционные подходы и регулярно обновлять процессы подготовки. Множество информационных каналов создают сложные вызовы, связанные с природой источников.
Многие сведения представлены не в количественном (числовом) виде, а в качественной форме.
Качественные данные заключаются в текстах, отчётах, публикациях — они отражают мысли, поведение, культуру и прочие трудноизвлекаемые аспекты[3].
Этап транскрибирования требует извлечения сущности документа, чтобы аналитики могли использовать эти данные при анализе.
Это важно, поскольку качественные сведения содержат ценную информацию, помогающую организациям лучше понимать экономические и социальные процессы.
В эпоху социальных сетей способность компаний собирать данные с таких платформ становится критическим фактором.
Одна из проблем корпоративных данных — вне зависимости от точности извлечения они сохраняют релевантность лишь в определённых временных рамках. Данные устаревают и, не будучи своевременно обновлёнными, могут породить ошибки или конфликты.
Основная сложность — вовремя дополнить существующую базу актуальной и значимой информацией.
Инструменты
Инструменты играют ключевую роль в процессе подготовки данных. На данный момент электронные таблицы остаются популярным решением для визуализации, а также для вычислений и предварительного анализа[4].
Этот подход обычно характерен для малых компаний, не располагающих специализированными аналитическими подразделениями.
Многие организации по-прежнему осуществляют очистку вручную, но при больших объёмах это трудозатратно, подвержено ошибкам и отвлекает ответственных лиц от собственно анализа.
Для решения этих задач применяются разнообразные инструменты, как свободные, так и коммерческие, в зависимости от потребностей и целей.
Существуют многочисленные свободные инструменты для структурирования и обработки данных: они позволяют конвертировать данные, объединять большие объёмы или осуществлять очистку. Среди них:
- Apache Spark;
- Pandas (англ. Python);
- dplyr (англ. R).
- Alteryx
- Trifacta
- Paxata
Конвейеры обработки данных
С увеличением объёмов и источников информации предприятиям требуются надёжные инструменты для автоматизации извлечения данных.
Конвейер обработки (pipeline) включает набор этапов, в ходе которых данные перемещаются из исходных источников в систему хранения или к другим потребителям.
Пайплайны позволяют автоматизировать трансфер данных, экономя время сотрудников.
Иногда пайплайн включает обработку информации, однако это не является обязательным.
ETL-конвейеры
ETL-конвейеры (от англ. extract-transform-load) — разновидность пайплайнов, где данные проходят стадии извлечения, трансформации и загрузки.
В классической схеме ETL процесс включает:
- извлечение данных;
- трансформацию по определённой модели данных;
- загрузку в хранилище.
Результирующие данные считаются предварительно обработанными и пригодными для следующей стадии анализа или дополнительной обработки[5].
Главное преимущество ETL-процессов в том, что этап преобразования может быть адаптирован к корпоративным стандартам, формируя структурированные данные.
Озёра данных
В современных условиях компании оперируют огромными массивами гетерогенных данных и высокой скоростью поступления[6].
Стоимость подготовки данных растёт пропорционально их объёму.
Озеро данных — распространённое решение для больших данных.
Озёра данных — это хранилища, где хранятся огромные объёмы сырых данных в исходном формате и на неопределённый срок.
Организация не всегда изначально осведомлена о ценности входящих данных — отличие от хранилищ данных в том, что на озёрах не задаётся схема структуры. Все поступающие сведения размещаются без преобразований, что сокращает расходы на трансформацию. Кроме того, озёра данных централизуют хранение, облегчая доступ специалистов к информации.
Для работы с данными в озёрах эксперты используют приложения с графическим интерфейсом и специализированные инструменты.
Минимально озеро данных предполагает следующие функции[7]:
- ингестирование;
- хранение;
- обработку;
- визуализацию данных.
Таким образом, озёра данных ускоряют подготовку данных и сокращают расходы.
Управление данными (государственное регулирование)
Один из важных аспектов подготовки данных — вопросы управления данными. Если к данным во время подготовки допускается множество пользователей, существует риск появления хаотичной, неконтролируемой информации.
Грамотное управление позволяет поддерживать качество данных и моделей, следить за соответствием корпоративным стандартам[4].
Управление данными — это, по сути, организация доступа и контроля над всеми информационными активами предприятия.
Оно призвано отвечать на ключевые вопросы[8]:
- Что мы знаем об этих данных?
- Каково их происхождение?
- Соответствуют ли они внутренним правилам компании?
Компаниям важно формировать общее понимание данных у всех участников процесса.
Практическое внедрение управления реализуется посредством политики безопасности и использования метаданных, например, путём построения каталогов данных.
Одной из проблем при эксплуатации озёр данных становится сложность в поиске, понимании и доверии к нужной информации[9].
Одна из причин — сохранение исходного (сыро)формата информации. При поиске данных в озёре эксперты по большим данным сталкиваются с трудностями интерпретации.
Подобная ситуация нежелательна, поскольку она тормозит процесс подготовки данных и создаёт долгосрочные риски для бизнеса.
Для решения проблемы важно дополнять информацию метаданными, поясняющими назначение, принадлежность и контекст данных.
Управление позволяет создавать каталоги, обеспечивающие структурирование, пояснение и упорядоченное хранение информации.
Такие каталоги повышают доверие пользователей и обеспечивают соблюдение организационных норм в проектах по обработке данных.
Перспективы
С ростом роли искусственного интеллекта, а также развитием машинного обучения для анализа данных, появляются всё более функциональные инструменты, оптимизирующие подготовку данных.
Так, очистка данных может осуществляться алгоритмами машинного обучения, которые на основе накопленных сведений строят модели для предсказания соответствия новых данных установленным правилам и форматам.
Чем больше объём базы, тем точнее алгоритмы смогут выявлять соответствие[10].
Одной из главных причин, препятствующих совершенствованию процессов подготовки данных, исследователи называют ограниченность бюджета.
В эпоху больших данных, когда информация становится ключевым ресурсом развития бизнеса, наиболее успешными будут те организации, которые должным образом выстроили и оптимизировали процессы подготовки и использования данных.


