Data Scientist
Data Scientist (англ. data — данные, scientist — специалист, аналитик) — специалист по обработке данных, создающий инструменты для решения различных задач. Работает на стыке трёх областей знаний: статистики, машинного обучения и программирования.
Решаемые задачи
Data Scientist применяет методы науки о данных (Data Science) для больших объёмов информации. Он строит и тестирует математические модели поведения. Это помогает найти в них закономерности или спрогнозировать будущие значения[1]. На основе полученных данных специалист строит визуализации с помощью математических алгоритмов, инструментов разработки и специальных программ. Поскольку методы анализа данных универсальны, специалисты по Data Science нужны практически в любой области человеческой деятельности — от промышленности, науки и ретейла до стриминговых сервисов[2].
Необходимые компетенции
Data Scientist работает на стыке трёх областей знаний — статистики, машинного обучения и программирования:
- Программирование на Python, SQL
- Математика
- Статистика
- Машинное обучение (NumPy, Scikit-learn)
- Работа с базами данных
- Владение инструментами обработки больших данных: Apache Spark и Hadoop Mapreduce
- Продуктивизация моделей
- Английский язык уровня Advanced Proficiency для чтения технической литературы
- Понимание специфики бизнеса и доменной области
Образование и обучение
Профессию Data Scientist можно освоить в высших учебных заведениях по программам IT-направлений:
- «Прикладной анализ данных и искусственный интеллект»
- «Математическое моделирование»
- «Аналитика и управление данными»
Также можно пройти онлайн-курсы, программа которых, как правило, рассчитана на срок от восьми до 20 месяцев.
Карьера и перспективы
Согласно данным Центра компетенций Национальной технологической инициативы на базе МФТИ, в 2021 году рынок больших данных оценивался в 46 млрд долларов. Бюро статистики труда США сообщало, что к 2026 году по объёму вакансий сфера Data Science увеличится на 28 %. За последние годы количество вакансий в разных странах увеличилось почти на 500 %. Ожидается, что востребованность профессии будет только расти. В России Data Scientist преимущественно ищут финансовые и IT-компании в Санкт-Петербурге и Москве[3].
Известные специалисты
Джонатан Голдман — выпускник Стэнфорда, который устроился в 2006 году в LinkedIn и построил модель, предсказывавшую владельцу аккаунта, кто из пользователей соцсети может оказаться его знакомым. Эта разработка сильно ускорила рост LinkedIn и принесла ей новых пользователей[4].
Эндрю Ын — профессор Стэнфордского университета, исследования которого сосредоточены на создании интеллектуальных систем, которые могут обучаться на основе данных. Это сложная задача, требующая понимания как человеческого поведения, так и компьютерных алгоритмов.
Питер Норвиг — американский учёный, пионер в области искусственного интеллекта, популяризировал науку о данных посредством своих книг. Также известен своим вкладом в развитие языка программирования Jscheme[5].
Андрей Бурков — директор по Data Science и руководитель группы машинного обучения в Gartner. Один из ведущих специалистов по Data Science в мире, известен своим бестселлером — «Машинное обучение без лишних слов»[6].


