Data Cleaning
Очистка данных (также Data Cleansing, Data Scrubbing, реже — «обеспечение качества данных») — систематический процесс выявления, исправления и удаления ошибок, несоответствий, дубликатов, выбросов и пропущенных значений в наборах данных с целью повышения их точности, полноты, согласованности и пригодности для дальнейшего использования[1][2].
Общие сведения
| Очистка данных | |
|---|---|
| англ. Data Cleaning | |
| Область использования | Анализ данных, Бизнес-аналитика, Качество данных, Машинное обучение |
Определения
- Очистка данных охватывает комплекс задач, направленных на приведение информации к высокому уровню качества. К ключевым задачам относятся[3][4]:
- идентификация орфографических и синтаксических ошибок;
- обработка пропущенных значений (вменение, удаление, использование устойчивых алгоритмов);
- устранение дубликатов записей;
- стандартизация форматов (дат, чисел, единиц измерения);
- обнаружение и обработка выбросов и аномальных значений;
- исправление структурных ошибок и несогласованностей;
- удаление нерелевантной или устаревшей информации.
Цель процесса — обеспечить:
- Повышение точности аналитики и бизнес-инсайтов;
- Надёжное обучение моделей машинного обучения;
- Соответствие отраслевым и законодательным требованиям;
- Снижение затрат на хранение и обработку данных[5].
- ETL — ключевой этап процесса Transform (преобразование), входящего в общую схему Extract, Transform, Load (извлечение, преобразование, загрузка). Это процесс автоматизированного приведения «сырых» данных из различных источников в качественный, структурированный и единый формат, пригодный для аналитики, отчетов и машинного обучения.
- ELT (Extract, Load, Transform) — современный подход к интеграции данных, при котором «сырые» (необработанные) данные извлекаются из источников и сразу загружаются в целевое хранилище (обычно облачное, например, Snowflake, BigQuery), а очистка и трансформация происходят уже внутри хранилища.
- Data Lake (озеро данных) — централизованный репозиторий, хранящий необработанные данные в исходном формате (структурированные, неструктурированные). Это первичный источник для ETL/ELT процессов, где данные «очищаются» после загрузки (store now, analyze later), что обеспечивает гибкость в очистке и возможность восстановления данных.
- Data Warehouse (DWH) — централизованное корпоративное хранилище данных, которое выступает основным местом для консолидации, приведения к единому стандарту и исправления ошибок в информации, поступающей из множества разрозненных источников (CRM, ERP, внешние API, логи).
- Data Validation (Валидация данных) — это этап проверки данных на соответствие заданным правилам, стандартам, бизнес-логике и ограничениям качества перед их использованием для анализа, отчетности или машинного обучения.
- REST (Representational State Transfer) — архитектурный стиль взаимодействия, используемый для передачи данных между системами, где данные проходят процесс обработки, валидации и очистки.
- gRPC (Google Remote Procedure Call) — высокопроизводительный фреймворк для взаимодействия между сервисами, используемый для быстрой передачи, валидации, обработки и стандартизации данных в реальном времени.
Типы и виды
Процесс очистки данных классифицируют по нескольким признакам.
- По характеру проблем:
- пропущенные значения;
- дубликаты;
- орфографические и форматные ошибки;
- структурные ошибки;
- выбросы (аномалии);
- нерелевантные или устаревшие данные[6].
- По источнику вспомогательных сведений:
- референсные (справочные) фиды — коды стран, валют, классификаторы;
- транзакционные фиды — журналы операций, логи;
- мастер-данные — единый эталон клиентов, продуктов и т. д.[7]
- По способу выполнения:
- ручная очистка специалистами;
- автоматическая очистка по правилам;
- гибридный и ML-подход с использованием алгоритмов нечёткого сопоставления и обучения моделей[8].
Этапы работы
Процесс очистки данных включает несколько последовательных этапов, каждый из которых направлен на обеспечение высокого качества информации.
На этом этапе определяются цели очистки, заинтересованные стороны, источники данных и метрики качества. Формулируются стандарты «чистых» данных и выбираются инструменты процесса[8].
Данные извлекаются из внутренних и внешних систем, проходят профилирование, нормализацию и приводятся к единому формату для последующей очистки[9].
Проводится выявление взаимосвязей между данными, оценка их достоверности, ранжирование проблем и разработка правил коррекции[2].
Очищенные данные и рекомендации передаются заинтересованным пользователям в виде отчётов, технических индикаторов или интерактивных дашбордов. Форматы предоставления зависят от технической подготовки получателей[4].
Полученные отзывы о качестве данных используются для уточнения правил и автоматизации процедуры, формируя итеративный цикл улучшения[5].
Сравнение и отличия от смежной / похожей технологии, термина
- Data Preprocessing включает более широкий набор операций (масштабирование, кодирование признаков, уменьшение размерности), тогда как Data Cleaning фокусируется именно на качестве и корректности данных[2].
- В ETL-конвейере очистка относится к фазе «Transform», а при подходе ELT выполняется уже в целевом Data Lake или Data Warehouse[10].
- В отличие от Data Validation, которая проверяет соответствие данным заданным ограничениям в момент ввода, Data Cleaning устраняет уже накопившиеся ошибки и несоответствия.
Преимущества и недостатки
- Повышение точности аналитики и прогнозов;
- Снижение времени и стоимости последующего анализа;
- Улучшение производительности моделей машинного обучения;
- Соответствие нормативным требованиям;
- Оптимизация объёма хранения и ресурсов[1].
- Существенные трудозатраты (до 80 % времени специалистов уходит на подготовку данных);
- Риск потери ценной информации при агрессивной очистке;
- Необходимость регулярного повторения процедуры из-за деградации качества данных;
- Сложность автоматизации в нестандартных случаях и зависимость от экспертного суждения[11];
- Трудоёмкость;
- Высокие требования к квалификации специалистов;
- Риски искажения данных при автоматизированной очистке.
Сферы применения
Очистка данных востребована в большинстве отраслей[12]:
- Финансы — предотвращение мошенничества, точная отчётность;
- Здравоохранение — корректность медицинских записей и клинических исследований;
- Электронная коммерция — улучшение качества товарных каталогов и клиентских данных;
- Логистика — надёжное управление запасами и маршрутизацией;
- Государственное управление — открытые данные и статистика;
- Машинное обучение и ИИ — подготовка надёжных обучающих выборок.
Инструменты для использования
- Коммерческие платформы — Informatica Data Quality, IBM InfoSphere QualityStage, Ataccama ONE, TIBCO Clarity, Alteryx Designer[13].
- Open-source и бесплатные решения — OpenRefine, Talend Open Studio, DataCleaner, dbt, библиотеки Python (Pandas, Scikit-Learn).
- SaaS-сервисы — Trifacta by Alteryx, Numerous.ai, Nuvo, Talend Cloud; специализированные проверки e-mail (ZeroBounce, Verifalia) и контактов (Data Soap).
- API-сервисы для обогащения данных — D&B, Experian, OpenCorporates, государственные открытые наборы данных.
- Интеграционные возможности — коннекторы к ETL/ELT-платформам, MDM, CRM и ERP, потоковая обработка через REST или gRPC, а также встроенные модули качества данных в BI-системах (Power Query в Power BI и др.)[14].
Примеры
1. Удаление дубликатов и нерелевантных данных
- Что делается: Удаление записей, которые повторяются, или данных, не относящихся к цели анализа (например, ненужные столбцы).
- Пример: При объединении данных из CRM и Excel-файлов одна и та же покупка клиента записана дважды. Дубликат удаляется.
- Техника: Использование
drop_duplicates()в Pandas.
2. Обработка пропущенных значений (Missing Data)
- Что делается: Поиск пустых ячеек (NaN, NULL) и принятие решения: удалить их, заполнить средним/медианным значением или специальным маркером.
- Пример: В колонке «Возраст» у 10% клиентов пусто. Пустые значения заменяются медианным возрастом, чтобы не терять остальные данные (имя, покупку).
3. Исправление структурных ошибок (Structural Errors)
- Что делается: Стандартизация форматов данных, исправление опечаток, несоответствия типов данных (например, число как текст).
- Пример: В столбце «Дата» используются разные форматы: «01/01/2023», «2023-Jan-01», «01.01.23». Все они приводятся к единому формату (например,
YYYY-MM-DD). Также исправление «NY», «N.Y.», «New York» на единое «New York».
4. Фильтрация выбросов (Outliers)
- Что делается: Поиск аномальных значений, которые слишком сильно отличаются от остальных, и решение — удалить их или скорректировать.
- Пример: В данных о возрасте сотрудников указано «300». Это очевидная ошибка ввода, которую нужно удалить или заменить, так как она исказит среднее значение.
5. Валидация данных (Validation)
- Что делается: Финальная проверка данных на соответствие бизнес-логике и правилам.
- Пример: Проверка, что цена товара не может быть отрицательной, а дата отгрузки не может быть раньше даты заказа.
Примечания
| Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ». Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ». |