Data Cleaning

Очистка данных
Очистка данных
	англ. Data Cleaning
Область использования	Анализ данных, Бизнес-аналитика, Качество данных, Машинное обучение

Очистка данных
Очистка данных
	англ. Data Cleaning
Область использования	Анализ данных, Бизнес-аналитика, Качество данных, Машинное обучение

Очистка данных (также Data Cleansing, Data Scrubbing, реже — «обеспечение качества данных») — систематический процесс выявления, исправления и удаления ошибок, несоответствий, дубликатов, выбросов и пропущенных значений в наборах данных с целью повышения их точности, полноты, согласованности и пригодности для дальнейшего использования^[1]^[2].

Очистка данных охватывает комплекс задач, направленных на приведение информации к высокому уровню качества. К ключевым задачам относятся^[3]^[4]:

идентификация орфографических и синтаксических ошибок;
обработка пропущенных значений (вменение, удаление, использование устойчивых алгоритмов);
устранение дубликатов записей;
стандартизация форматов (дат, чисел, единиц измерения);
обнаружение и обработка выбросов и аномальных значений;
исправление структурных ошибок и несогласованностей;
удаление нерелевантной или устаревшей информации.

Цель процесса — обеспечить:

Повышение точности аналитики и бизнес-инсайтов;
Надёжное обучение моделей машинного обучения;
Соответствие отраслевым и законодательным требованиям;
Снижение затрат на хранение и обработку данных^[5].

ETL — ключевой этап процесса Transform (преобразование), входящего в общую схему Extract, Transform, Load (извлечение, преобразование, загрузка). Это процесс автоматизированного приведения «сырых» данных из различных источников в качественный, структурированный и единый формат, пригодный для аналитики, отчетов и машинного обучения.
ELT (Extract, Load, Transform) — современный подход к интеграции данных, при котором «сырые» (необработанные) данные извлекаются из источников и сразу загружаются в целевое хранилище (обычно облачное, например, Snowflake, BigQuery), а очистка и трансформация происходят уже внутри хранилища.
Data Lake (озеро данных) — централизованный репозиторий, хранящий необработанные данные в исходном формате (структурированные, неструктурированные). Это первичный источник для ETL/ELT процессов, где данные «очищаются» после загрузки (store now, analyze later), что обеспечивает гибкость в очистке и возможность восстановления данных.
Data Warehouse (DWH) — централизованное корпоративное хранилище данных, которое выступает основным местом для консолидации, приведения к единому стандарту и исправления ошибок в информации, поступающей из множества разрозненных источников (CRM, ERP, внешние API, логи).
Data Validation (Валидация данных) — это этап проверки данных на соответствие заданным правилам, стандартам, бизнес-логике и ограничениям качества перед их использованием для анализа, отчетности или машинного обучения.
REST (Representational State Transfer) — архитектурный стиль взаимодействия, используемый для передачи данных между системами, где данные проходят процесс обработки, валидации и очистки.
gRPC (Google Remote Procedure Call) — высокопроизводительный фреймворк для взаимодействия между сервисами, используемый для быстрой передачи, валидации, обработки и стандартизации данных в реальном времени.

Процесс очистки данных классифицируют по нескольким признакам.

По характеру проблем:
- пропущенные значения;
- дубликаты;
- орфографические и форматные ошибки;
- структурные ошибки;
- выбросы (аномалии);
- нерелевантные или устаревшие данные^[6].
По источнику вспомогательных сведений:
- референсные (справочные) фиды — коды стран, валют, классификаторы;
- транзакционные фиды — журналы операций, логи;
- мастер-данные — единый эталон клиентов, продуктов и т. д.^[7]
По способу выполнения:
- ручная очистка специалистами;
- автоматическая очистка по правилам;
- гибридный и ML-подход с использованием алгоритмов нечёткого сопоставления и обучения моделей^[8].

Процесс очистки данных включает несколько последовательных этапов, каждый из которых направлен на обеспечение высокого качества информации.

1. Планирование

На этом этапе определяются цели очистки, заинтересованные стороны, источники данных и метрики качества. Формулируются стандарты «чистых» данных и выбираются инструменты процесса^[8].

2. Сбор и обработка данных

Данные извлекаются из внутренних и внешних систем, проходят профилирование, нормализацию и приводятся к единому формату для последующей очистки^[9].

3. Анализ

Проводится выявление взаимосвязей между данными, оценка их достоверности, ранжирование проблем и разработка правил коррекции^[2].

4. Распространение

Очищенные данные и рекомендации передаются заинтересованным пользователям в виде отчётов, технических индикаторов или интерактивных дашбордов. Форматы предоставления зависят от технической подготовки получателей^[4].

5. Обратная связь и совершенствование

Полученные отзывы о качестве данных используются для уточнения правил и автоматизации процедуры, формируя итеративный цикл улучшения^[5].

Data Preprocessing включает более широкий набор операций (масштабирование, кодирование признаков, уменьшение размерности), тогда как Data Cleaning фокусируется именно на качестве и корректности данных^[2].
В ETL-конвейере очистка относится к фазе «Transform», а при подходе ELT выполняется уже в целевом Data Lake или Data Warehouse^[10].
В отличие от Data Validation, которая проверяет соответствие данным заданным ограничениям в момент ввода, Data Cleaning устраняет уже накопившиеся ошибки и несоответствия.

Преимущества

Повышение точности аналитики и прогнозов;
Снижение времени и стоимости последующего анализа;
Улучшение производительности моделей машинного обучения;
Соответствие нормативным требованиям;
Оптимизация объёма хранения и ресурсов^[1].

Недостатки

Существенные трудозатраты (до 80 % времени специалистов уходит на подготовку данных);
Риск потери ценной информации при агрессивной очистке;
Необходимость регулярного повторения процедуры из-за деградации качества данных;
Сложность автоматизации в нестандартных случаях и зависимость от экспертного суждения^[11];
Трудоёмкость;
Высокие требования к квалификации специалистов;
Риски искажения данных при автоматизированной очистке.

Очистка данных востребована в большинстве отраслей^[12]:

Финансы — предотвращение мошенничества, точная отчётность;
Здравоохранение — корректность медицинских записей и клинических исследований;
Электронная коммерция — улучшение качества товарных каталогов и клиентских данных;
Логистика — надёжное управление запасами и маршрутизацией;
Государственное управление — открытые данные и статистика;
Машинное обучение и ИИ — подготовка надёжных обучающих выборок.

Коммерческие платформы — Informatica Data Quality, IBM InfoSphere QualityStage, Ataccama ONE, TIBCO Clarity, Alteryx Designer^[13].
Open-source и бесплатные решения — OpenRefine, Talend Open Studio, DataCleaner, dbt, библиотеки Python (Pandas, Scikit-Learn).
SaaS-сервисы — Trifacta by Alteryx, Numerous.ai, Nuvo, Talend Cloud; специализированные проверки e-mail (ZeroBounce, Verifalia) и контактов (Data Soap).
API-сервисы для обогащения данных — D&B, Experian, OpenCorporates, государственные открытые наборы данных.
Интеграционные возможности — коннекторы к ETL/ELT-платформам, MDM, CRM и ERP, потоковая обработка через REST или gRPC, а также встроенные модули качества данных в BI-системах (Power Query в Power BI и др.)^[14].

1. Удаление дубликатов и нерелевантных данных

Что делается: Удаление записей, которые повторяются, или данных, не относящихся к цели анализа (например, ненужные столбцы).
Пример: При объединении данных из CRM и Excel-файлов одна и та же покупка клиента записана дважды. Дубликат удаляется.
Техника: Использование drop_duplicates() в Pandas.

2. Обработка пропущенных значений (Missing Data)

Что делается: Поиск пустых ячеек (NaN, NULL) и принятие решения: удалить их, заполнить средним/медианным значением или специальным маркером.
Пример: В колонке «Возраст» у 10% клиентов пусто. Пустые значения заменяются медианным возрастом, чтобы не терять остальные данные (имя, покупку).

3. Исправление структурных ошибок (Structural Errors)

Что делается: Стандартизация форматов данных, исправление опечаток, несоответствия типов данных (например, число как текст).
Пример: В столбце «Дата» используются разные форматы: «01/01/2023», «2023-Jan-01», «01.01.23». Все они приводятся к единому формату (например, YYYY-MM-DD). Также исправление «NY», «N.Y.», «New York» на единое «New York».

4. Фильтрация выбросов (Outliers)

Что делается: Поиск аномальных значений, которые слишком сильно отличаются от остальных, и решение — удалить их или скорректировать.
Пример: В данных о возрасте сотрудников указано «300». Это очевидная ошибка ввода, которую нужно удалить или заменить, так как она исказит среднее значение.

5. Валидация данных (Validation)

Что делается: Финальная проверка данных на соответствие бизнес-логике и правилам.
Пример: Проверка, что цена товара не может быть отрицательной, а дата отгрузки не может быть раньше даты заказа.

Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Data Cleaning

Определения

Типы и виды

Этапы работы

1. Планирование

2. Сбор и обработка данных

3. Анализ

4. Распространение

5. Обратная связь и совершенствование

Сравнение и отличия от смежной / похожей технологии, термина

Преимущества и недостатки

Преимущества

Недостатки

Сферы применения

Инструменты для использования

Примеры

Примечания

Категории