Data Cleaning

Очистка данных (также Data Cleansing, Data Scrubbing, реже — «обеспечение качества данных») — систематический процесс выявления, исправления и удаления ошибок, несоответствий, дубликатов, выбросов и пропущенных значений в наборах данных с целью повышения их точности, полноты, согласованности и пригодности для дальнейшего использования[1][2].

Общие сведения
Очистка данных
англ. Data Cleaning
Область использования Анализ данных, Бизнес-аналитика, Качество данных, Машинное обучение

Определения

  • Очистка данных охватывает комплекс задач, направленных на приведение информации к высокому уровню качества. К ключевым задачам относятся[3][4]:
  1. идентификация орфографических и синтаксических ошибок;
  2. обработка пропущенных значений (вменение, удаление, использование устойчивых алгоритмов);
  3. устранение дубликатов записей;
  4. стандартизация форматов (дат, чисел, единиц измерения);
  5. обнаружение и обработка выбросов и аномальных значений;
  6. исправление структурных ошибок и несогласованностей;
  7. удаление нерелевантной или устаревшей информации.

Цель процесса — обеспечить:

  1. Повышение точности аналитики и бизнес-инсайтов;
  2. Надёжное обучение моделей машинного обучения;
  3. Соответствие отраслевым и законодательным требованиям;
  4. Снижение затрат на хранение и обработку данных[5].
  • ETL — ключевой этап процесса Transform (преобразование), входящего в общую схему Extract, Transform, Load (извлечение, преобразование, загрузка). Это процесс автоматизированного приведения «сырых» данных из различных источников в качественный, структурированный и единый формат, пригодный для аналитики, отчетов и машинного обучения.
  • ELT (Extract, Load, Transform) — современный подход к интеграции данных, при котором «сырые» (необработанные) данные извлекаются из источников и сразу загружаются в целевое хранилище (обычно облачное, например, Snowflake, BigQuery), а очистка и трансформация происходят уже внутри хранилища.
  • Data Lake (озеро данных) — централизованный репозиторий, хранящий необработанные данные в исходном формате (структурированные, неструктурированные). Это первичный источник для ETL/ELT процессов, где данные «очищаются» после загрузки (store now, analyze later), что обеспечивает гибкость в очистке и возможность восстановления данных.
  • Data Warehouse (DWH) — централизованное корпоративное хранилище данных, которое выступает основным местом для консолидации, приведения к единому стандарту и исправления ошибок в информации, поступающей из множества разрозненных источников (CRM, ERP, внешние API, логи).
  • Data Validation (Валидация данных) — это этап проверки данных на соответствие заданным правилам, стандартам, бизнес-логике и ограничениям качества перед их использованием для анализа, отчетности или машинного обучения.
  • REST (Representational State Transfer) — архитектурный стиль взаимодействия, используемый для передачи данных между системами, где данные проходят процесс обработки, валидации и очистки.
  • gRPC (Google Remote Procedure Call) — высокопроизводительный фреймворк для взаимодействия между сервисами, используемый для быстрой передачи, валидации, обработки и стандартизации данных в реальном времени.

Типы и виды

Процесс очистки данных классифицируют по нескольким признакам.

  • По характеру проблем:
    • пропущенные значения;
    • дубликаты;
    • орфографические и форматные ошибки;
    • структурные ошибки;
    • выбросы (аномалии);
    • нерелевантные или устаревшие данные[6].
  • По источнику вспомогательных сведений:
    • референсные (справочные) фиды — коды стран, валют, классификаторы;
    • транзакционные фиды — журналы операций, логи;
    • мастер-данные — единый эталон клиентов, продуктов и т. д.[7]
  • По способу выполнения:
    • ручная очистка специалистами;
    • автоматическая очистка по правилам;
    • гибридный и ML-подход с использованием алгоритмов нечёткого сопоставления и обучения моделей[8].

Этапы работы

Процесс очистки данных включает несколько последовательных этапов, каждый из которых направлен на обеспечение высокого качества информации.

1. Планирование

На этом этапе определяются цели очистки, заинтересованные стороны, источники данных и метрики качества. Формулируются стандарты «чистых» данных и выбираются инструменты процесса[8].

2. Сбор и обработка данных

Данные извлекаются из внутренних и внешних систем, проходят профилирование, нормализацию и приводятся к единому формату для последующей очистки[9].

3. Анализ

Проводится выявление взаимосвязей между данными, оценка их достоверности, ранжирование проблем и разработка правил коррекции[2].

4. Распространение

Очищенные данные и рекомендации передаются заинтересованным пользователям в виде отчётов, технических индикаторов или интерактивных дашбордов. Форматы предоставления зависят от технической подготовки получателей[4].

5. Обратная связь и совершенствование

Полученные отзывы о качестве данных используются для уточнения правил и автоматизации процедуры, формируя итеративный цикл улучшения[5].

Сравнение и отличия от смежной / похожей технологии, термина

  • Data Preprocessing включает более широкий набор операций (масштабирование, кодирование признаков, уменьшение размерности), тогда как Data Cleaning фокусируется именно на качестве и корректности данных[2].
  • В ETL-конвейере очистка относится к фазе «Transform», а при подходе ELT выполняется уже в целевом Data Lake или Data Warehouse[10].
  • В отличие от Data Validation, которая проверяет соответствие данным заданным ограничениям в момент ввода, Data Cleaning устраняет уже накопившиеся ошибки и несоответствия.

Преимущества и недостатки

Преимущества

  • Повышение точности аналитики и прогнозов;
  • Снижение времени и стоимости последующего анализа;
  • Улучшение производительности моделей машинного обучения;
  • Соответствие нормативным требованиям;
  • Оптимизация объёма хранения и ресурсов[1].

Недостатки

  • Существенные трудозатраты (до 80 % времени специалистов уходит на подготовку данных);
  • Риск потери ценной информации при агрессивной очистке;
  • Необходимость регулярного повторения процедуры из-за деградации качества данных;
  • Сложность автоматизации в нестандартных случаях и зависимость от экспертного суждения[11];
  • Трудоёмкость;
  • Высокие требования к квалификации специалистов;
  • Риски искажения данных при автоматизированной очистке.

Сферы применения

Очистка данных востребована в большинстве отраслей[12]:

Инструменты для использования

  • Коммерческие платформы — Informatica Data Quality, IBM InfoSphere QualityStage, Ataccama ONE, TIBCO Clarity, Alteryx Designer[13].
  • Open-source и бесплатные решения — OpenRefine, Talend Open Studio, DataCleaner, dbt, библиотеки Python (Pandas, Scikit-Learn).
  • SaaS-сервисы — Trifacta by Alteryx, Numerous.ai, Nuvo, Talend Cloud; специализированные проверки e-mail (ZeroBounce, Verifalia) и контактов (Data Soap).
  • API-сервисы для обогащения данных — D&B, Experian, OpenCorporates, государственные открытые наборы данных.
  • Интеграционные возможности — коннекторы к ETL/ELT-платформам, MDM, CRM и ERP, потоковая обработка через REST или gRPC, а также встроенные модули качества данных в BI-системах (Power Query в Power BI и др.)[14].
undefined

Примеры

1. Удаление дубликатов и нерелевантных данных

  • Что делается: Удаление записей, которые повторяются, или данных, не относящихся к цели анализа (например, ненужные столбцы).
  • Пример: При объединении данных из CRM и Excel-файлов одна и та же покупка клиента записана дважды. Дубликат удаляется.
  • Техника: Использование drop_duplicates() в Pandas.

2. Обработка пропущенных значений (Missing Data)

  • Что делается: Поиск пустых ячеек (NaN, NULL) и принятие решения: удалить их, заполнить средним/медианным значением или специальным маркером.
  • Пример: В колонке «Возраст» у 10% клиентов пусто. Пустые значения заменяются медианным возрастом, чтобы не терять остальные данные (имя, покупку).

3. Исправление структурных ошибок (Structural Errors)

  • Что делается: Стандартизация форматов данных, исправление опечаток, несоответствия типов данных (например, число как текст).
  • Пример: В столбце «Дата» используются разные форматы: «01/01/2023», «2023-Jan-01», «01.01.23». Все они приводятся к единому формату (например, YYYY-MM-DD). Также исправление «NY», «N.Y.», «New York» на единое «New York».

4. Фильтрация выбросов (Outliers)

  • Что делается: Поиск аномальных значений, которые слишком сильно отличаются от остальных, и решение — удалить их или скорректировать.
  • Пример: В данных о возрасте сотрудников указано «300». Это очевидная ошибка ввода, которую нужно удалить или заменить, так как она исказит среднее значение.

5. Валидация данных (Validation)

  • Что делается: Финальная проверка данных на соответствие бизнес-логике и правилам.
  • Пример: Проверка, что цена товара не может быть отрицательной, а дата отгрузки не может быть раньше даты заказа.

Примечания

Категории

© Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».