Наука о данных

undefined

Наука о данных — междисциплинарная область знаний, использующая математику, статистику, научные вычисления, научный метод, инженерные процессы и алгоритмы для извлечения, обработки, анализа и представления информативных отчётов на основе структурированных, неструктурированных и шумных данных[1]. Наука о данных носит многогранный характер и может рассматриваться как наука, исследовательская парадигма, метод, дисциплина, рабочий процесс или профессия[2].

Наука о данных объединяет прикладные знания из соответствующих областей (например, прикладная экономика, маркетинговые исследования, финансы, исследование операций, медицина, информационные технологии, естественные науки)[3] с статистикой, анализом данных, информатикой, математикой и их соответствующими методами для понимания и анализа реальных явлений посредством данных[4]. Используются техники и теории из многих областей контекста математики, статистики, информатики, информационных наук и прикладных знаний[5]. Вместе с тем наука о данных отличается от информатики, статистики и информационной науки. Лауреат премии Тьюринга Джим Грей определил науку о данных как «четвёртую парадигму» науки (эмпирическая, теоретическая, вычислительная и теперь основанная на данных), заявив, что «всё научное познание меняется под влиянием информационных технологий» и лавины данных[6][7].

Специалист по данным — это профессионал, который с помощью программирования и знаний в статистике осуществляет сбор, очистку, исследование, моделирование, визуализацию данных, внедряет решения на основе машинного обучения и интерпретирует полученные результаты[8]. Специалисты по данным могут иметь самый разный профессиональный бэкграунд: математики, инженеры, экономисты, актуарии, физики, химики, а иногда — и специалисты из далёких областей, таких как медицина.

История

В 1962 году Джон Тьюки предвосхитил термин «Наука о данных» в своей статье «The Future of Data Analysis», где описал эволюцию математической статистики. В ней впервые был дан следующий подход к анализу данных: «Процедуры анализа данных, техники интерпретации результатов этих процедур, способы планирования сбора данных для более лёгкого, точного и верного анализа, и вся совокупность методов и результатов математической статистики, применяемых к анализу данных»[9]. В 1977 году он опубликовал «Exploratory Data Analysis», где утверждал, что необходимо больший акцент делать на использовании данных для формулирования гипотез для последующего тестирования посредством статистических моделей.

Хотя наука о данных считается сравнительно новой дисциплиной, впервые этот термин был предложен датским учёным Питером Науром ещё в 1960-х годах как альтернатива для информатики. В 1974 году он опубликовал книгу «Concise Survey of Computer Methods»[10], где широко использовал понятие «наука о данных», благодаря чему оно стало свободно использоваться в академических кругах.

В 1977 году основана Международная ассоциация вычислительной статистики (International Association for Statistical Computing, IASC) как секция International Statistical Institute (ISI): «Миссия IASC — соединить традиционные статистические методы, современные вычислительные технологии и знания экспертов предметной области, чтобы превращать данные в информацию и знания»[11].

В 1996 году термин «Наука о данных» впервые использовался на конференции «Data Science, Classification and Related Methods», состоявшейся на собрании членов International Federation of Classification Societies (IFCS) в Кобе (Япония)[11]. В 1997 году Чжефф Ву прочитал доклад «Statistics = Data Science?», где описал статистику как триаду — сбор, анализ и моделирование данных, а также принятие решений — и предложил переименовать дисциплину в науку о данных, а статистиков — в специалистов по данным[12].

В 2001 году Уильям С. Кливленд представил науку о данных как самостоятельную дисциплину, расширяя границы статистики учётом достижений в обработке данных; в своей статье «Data science: an action plan for expanding the technical areas of the field of statistics» он выделил шесть технических областей, формирующих науку о данных: междисциплинарные исследования, модели и методы для данных, вычисления с данными, обучение, оценка инструментов и теория[13].

В апреле 2002 года Международный совет по науке: комитет по данным (CODATA) начал издавать «Data Science Journal»[14], который фокусируется на описании систем хранения данных, публикации в интернете, их прикладных задачах и юридических вопросах. В январе 2003 года Колумбийский университет начал издавать «The Journal of Data Science»[15], предоставив платформу для обмена опытом между специалистами по данным.

В 2005 году Национальный научный совет США (The National Science Board) опубликовал отчёт «Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century», где определял специалистов по данным как «научных работников по вычислениям и информации, программистов баз данных и ПО, а также отраслевых экспертов, […] которые играют ключевую роль в успешном управлении цифровыми коллекциями данных, их основной деятельностью является творческое исследование и анализ»[16].

В 2008 году Джефф Хаммербахер и Ди Джей Патил стали применять термин «специалист по данным» к своим ролям в компаниях[17],

В 2009 году Яньюн Чжу и Юнь Сюн из Research Center for Dataology and Data Science опубликовали работу «Introduction to Dataology and Data Science», где утверждали: «В отличие от естественных и социальных наук, датология и наука о данных изучают данные в сети как объект исследования»[11].

В 2013 году была создана рабочая группа IEEE по науке о данных и продвинутой аналитике (IEEE Task Force on Data Science and Advanced Analytics)[18], а первая международная конференция «IEEE International Conference on Data Science and Advanced Analytics» состоялась в 2014 году[19]. В 2015 году издательство Springer запустило журнал «International Journal on Data Science and Analytics», посвящённый публикации оригинальных работ по науке о данных и аналитике больших данных[20].

Применения

Маркетинг

В сентябре 1994 года журнал BusinessWeek опубликовал статью «Маркетинг баз данных», в которой отмечалось, что компании собирают огромные объёмы клиентских данных и используют их для прогнозирования вероятности покупки продукта. Эти знания позволяют формировать высокоточные маркетинговые послания, чтобы привлечь внимание определённого покупателя. В то же время отмечалось, что в 1980-х распространение сканеров штрихкодов вызвало разочарование, поскольку объём данных оказался слишком велик для извлечения практической пользы. Однако многие компании уверены, что необходимо преодолевать этот барьер, чтобы создавать более совершенные маркетинговые технологии[21].

В 2014 году шведский музыкальный сервис Spotify купил компанию The Echo Nest, специализирующуюся на науке о данных в музыкальной сфере. Теперь она занимается хранением и анализом информации о 170 миллионах пользователей Spotify[22]. С помощью Echo Nest в 2015 году Spotify запустил сервис персонализированных музыкальных рекомендаций Discover Weekly, который еженедельно предлагает каждому пользователю подборку песен, потенциально интересных на основе анализа прослушанной музыки и поисковой истории. Сервис получил положительные отзывы[23] и является значимым конкурентным преимуществом компании[24].

Компания Netflix анализирует привычки потребления своих более чем 120 миллионов пользователей через алгоритмы, что позволяет определять и прогнозировать предпочтения аудитории и формировать персонализированные рекомендации. Тодд Еллин, вице-президент по продукту Netflix, отмечал, что анализируется время входа пользователя, продолжительность работы с платформой, список просмотренных материалов и даже их последовательность — все эти данные используются для совершенствования рекомендаций[25].

Государственное управление

В странах Латинской Америки Межамериканский банк развития (BID) проводил исследования применения науки о данных в проектировании и реализации государственной политики на примере таких стран, как Аргентина и Бразилия, формулируя рекомендации по внедрению и поддержанию подобных решений.

Рассматриваются вопросы устойчивой городской мобильности, умных городов, безопасности, приватности и собственности данных. В исследовании подчёркивается важность «интеллекта публичной ценности», которая способна стать стратегическим инструментом для принятия решений и формирования, внедрения и оценки политики. Также подчёркивается, что использование науки о данных повышает подотчётность государственных институтов гражданам и совершенствует работу государственных данных[26].

Наука о данных и большие данные

Термин «большие данные» применяется к огромным объёмам информации, которые невозможно эффективно обработать с помощью традиционных программных инструментов[27]. Согласно руководству Amazon Web Services, под большими данными понимаются настолько крупные массивы информации, для которых характерны трудности хранения в обычных базах данных, обработки на стандартных серверах и анализа привычными инструментами.

Понятие «большие данные» тесно связано с наукой о данных, поскольку именно она предоставляет инструменты для анализа таких сложных и неструктурированных массивов, что позволяет принимать обоснованные решения в области операций и новых продуктов.

Специалист по данным

Профессионалы, занимающиеся наукой о данных, называются специалистами по данным; согласно образовательному проекту Master in Data Science, специалист по данным — это сочетание статистика, информатика, математика и креативного мыслителя со следующими навыками:

  • Сбор, обработка и извлечение ценности из разнообразных и объёмных баз данных;
  • Умение представлять, визуализировать, интерпретировать и доносить сложные результаты до неспециалистов;
  • Создание решений на основе данных с целью увеличения прибыли и сокращения издержек;
  • Специалисты по данным востребованы во всех отраслях и драйвят крупные проекты на всех уровнях.

Процесс решения задач специалистом по данным включает этапы:

  1. Извлечение данных вне зависимости от источника и объёма.
  2. Очистка данных для устранения искажений.
  3. Обработка данных с помощью статистических методов (например, статистическое выводение, регрессионные модели, проверка гипотез).
  4. Построение дополнительных экспериментов при необходимости.
  5. Создание графических визуализаций ключевых данных исследования[28].

Доктор статистики Нэйтан Яу отмечал, что специалист по данным — это статистик, который должен освоить интерфейсы программирования прикладных программ (API), базы данных и методы извлечения данных; это дизайнер, осваивающий программирование; и это компьютерщик, изучающий методы анализа и смыслового поиска данных[29].

В диссертации Бенджамина Фрая описан процесс анализа данных как движение от набора чисел к постановке вопросов о данных; на каждом из этапов (сбор, анализ, фильтрация, извлечение, представление, уточнение, взаимодействие) требуются узкоспециализированные подходы: системные инженеры, математики, статистики, графические дизайнеры, специалисты по визуализации информации и эксперты по взаимодействию человека с компьютером (human-computer interaction, HCI). При этом наличие разных специализаций зачастую усложняет процесс, так как каждое звено решает задачу только в своей области, и результат может теряться при переходе между этапами[30].

Дрю Конвей на своём сайте визуализировал основные навыки специалиста по данным с помощью диаграммы Венна, отражая их взаимосвязь.

Значимость профессии специалиста по данным

Наука о данных как дисциплина и профессия («специалист по данным») приобретает всю большую значимость во всём мире. Томас Х. Давенпорт высказал мнение, что профиль специалиста по данным представлен как гибрид «хакера данных», аналитика, коммуникатора и советника — крайне востребованное и редкое сочетание компетенций. Давенпорт отмечал, что специалист по данным должен иметь свободу для экспериментов и самостоятельных поисков, а в той же статье даёт рекомендации по поиску необходимых специалистов (стр. 74 статьи)[31].

Отчёт компании McKinsey (2011)[32] оценивал, что спрос на специалистов по анализу данных к 2018 году может достичь 440—490 тысяч человек.

К самым острым технологическим вызовам сегодня относятся:

  • Объём данных: геномика, медицинский мониторинг (реанимация, носимые устройства), социальные данные. Требуются новые методы хранения, интеграции, анализа для таких данных;
  • Физическое хранение данных: необходимы новые среды и архитектуры для эффективного хранения;
  • Проблемы интероперабельности: различные медицинские учреждения используют разные системы, требуется слой совместимости для интеграции ИТ-решений;
  • Очистка, интеграция, анализ, инструменты: при наличии разнообразных источников данных нужны новые средства для выделения полезной информации;
  • Интерпретируемость моделей искусственного интеллекта, влияние изменений в протоколах и нормативной базе на качество данных[33].

См. также

Примечания

Категории