Большие данные
Больши́е да́нные (англ. big data, [ˈbɪɡ ˈdeɪtə]) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence[1][2][3].
В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий[4].
В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)[5][6]; в дальнейшем возникли различные вариации и интерпретации этого признака.
С точки зрения информационных технологий, в совокупность подходов и инструментов изначально включались средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, системами управления базами данных категории NoSQL, алгоритмами MapReduce и реализующими их программными каркасами и библиотеками проекта Hadoop[7]. В дальнейшем к серии технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.
История
Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда»[9][10].
Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях использует понятие о больших данных, в том числе IBM[11], Oracle[12], Microsoft[13], Hewlett-Packard[14], EMC[15], а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования[5][16][17][18].
В 2011 году Gartner отметил большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг)[19]. В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов[20].
С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных[21] и вычислительным наукам и инженерии[22].
В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, фигурировавшие в выделенном цикле зрелости, по большей части перешли в специальные циклы по продвинутой аналитике и науке о данных, по BI и анализу данных, корпоративному управлению информацией, резидентным вычислениям, информационной инфраструктуре[23].
VVV
Набор признаков VVV (volume, velocity, variety) изначально выработан Meta Group в 2001 году вне контекста представлений о больших данных как об определённой серии информационно-технологических методов и инструментов, в нём, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначимость проблематик управления данными по всем трём аспектам[24]. В дальнейшем появились интерпретации с «четырьмя V» (добавлялась veracity — достоверность, использовалась в рекламных материалах IBM[25]), «пятью V» (в этом варианте прибавляли viability — жизнеспособность, и value — ценность[26]), и даже «семью V» (кроме всего, добавляли также variability — переменчивость, и visualization[27]). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC[28]. Во всех случаях в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но другие категории, существенные для представления о сложности задачи обработки и анализа данных.
Источники
Классическими источниками больших данных признаются интернет вещей и социальные медиа, считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики, из астрономических наблюдений[29].
В качестве примеров источников возникновения больших данных приводятся[30][31] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.
Методы анализа
Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey[32]:
- методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
- краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
- смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
- машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
- искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
- распознавание образов;
- прогнозная аналитика;
- имитационное моделирование;
- пространственный анализ — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
- статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
- визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
Технологии
Наиболее часто указывают в качестве базового принципа обработки больших данных горизонтальную масштабируемость, обеспечивающую обработку данных, распределённых на сотни и тысячи вычислительных узлов, без деградации производительности; в частности, этот принцип включён в определение больших данных от Национальный институт стандартов и технологий[33]. При этом McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL[34].
Существует ряд аппаратно-программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных: Aster MapReduce appliance (корпорации Teradata), Oracle Big Data appliance, Greenplum appliance (корпорации EMC, на основе решений поглощённой компании Greenplum). Эти комплексы поставляются как готовые к установке в центры обработки данных телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.
Аппаратные решения для резидентных вычислений, прежде всего, для баз данных в оперативной памяти и аналитики в оперативной памяти, в частности, предлагаемой аппаратно-программными комплексами Hana (предконфигурированное аппаратно-программное решение компании SAP) и Exalytics (комплекс компании Oracle на основе реляционной системы Timesten и многомерной Essbase), также иногда относят к решениям из области больших данных[35][36], несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.
Кроме того иногда к решениям для больших данных относят и аппаратно-программные комплексы на основе традиционных реляционных систем управления базами данных — Netezza, Teradata, Exadata, как способные эффективно обрабатывать терабайты и эксабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний Britton Lee, впервые выпущенные в 1983 году, и Teradata (начали выпускаться в 1984 году, притом в 1990 году Teradata поглотила Britton Lee)[37].
Аппаратные решения DAS — систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям больших данных. Именно с появлением концепции больших данных связывают всплеск интереса к DAS-решениям в начале 2010-х годов, после вытеснения их в 2000-е годы сетевыми решениями классов NAS и SAN[38].
Примечания
Литература
- Бергстром, Карл. Полный бред! : скептицизм в мире больших данных : [16+] / Карл Бергстром, Джевин Уэст ; перевод с английского Е. Пономаревой. — Москва : Манн, Иванов и Фербер, 2022. — 349, [2] с. : ил.; 25 см. — (Серия "Мир больших данных").
- Богачев, И. В. Большие данные : [учебное пособие] / И. В. Богачев, В. В. Воронин ; Министерство науки и высшего образования Российской Федерации, Тихоокеанский государственный университет. — Хабаровск : Издательство Тихоокеанского государственного университета, 2023 (Хабаровск). — 67 с. : ил.; 21 см.
- Майер-Шенбергер, Виктор, Кукьер, Кеннет. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014. — 240 с. — ISBN 987-5-91657-936-9.
- Моррисон, Алан и др. Большие Данные: как извлечь из них информацию. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения: 12 ноября 2011. Архивировано 11 марта 2012 года.
- Черняк, Леонид. Большие Данные — новая теория и практика // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028-7493.
- Шляпников, В. В. Большие данные на занятиях по философии и этике / В. В. Шляпников // Вопросы философии. — 2025. — № 1. — С. 195-205.
- Weiss, Andrew. Big data shocks : an introduction to big data for librarians and information professionals / Andrew Weiss. — Lanham, Maryland : Rowman & Littlefield, [2018]. — 1 online resource (XXI, 195 pages). — (Library Information Technology Association (LITA) guides).
- Марц, Натан. Большие данные [Текст] : принципы и практика построения масштабируемых систем обработки данных в реальном времени / Натан Марц, Джеймс Уоррен ; [пер. с англ. и ред. И. В. Берштейна]. — Москва [и др.] : Вильямс, 2017. — 368 с. : ил., табл.; 25 см.
- MySQL 8 для больших данных : эффективная обработка данных с помощью MySQL 8, Hadoop, NoSQL API и других инструментов для больших данных / Шаббир Чаллавала, Джадип Лакхатария, Чинтан Мехта, Кандарп Патель ; пер. с англ. А. В. Логунова. — Москва : ДМК Пресс, 2018. — 225 с. : ил., табл.; 22 см.
- Пентленд, Алекс. Социальная физика [Текст] : [как Большие данные помогают следить за нами и отбирают у нас частную жизнь : 16+] / Алекс Пентланд ; [перевод с английского Е. Ботневой]. — Москва : АСТ, cop. 2018. — 350, [1] с. : ил.; 21 см. — (Цифровая экономика и цифровое будущее).
- Расширенная аналитика с PySpark : практические примеры анализа больших наборов данных и использованием Python и Spark : перевод с английского / Акаш Тандон, Сэнди Райза, Ури Ласерсон [и др.]. — Санкт-Петербург : БХВ-Петербург, 2023. — 224 с. : ил., табл.; 24 см. — (O'Reilly).
- Целых, А. Н. Применение временных рядов для анализа больших данных : учебное пособие по курсу "Математические методы анализа больших данных" / А. Н. Целых, В. С. Васильев, Э. М. Котов ; Министерство науки и высшего образования Российской Федерации, Федеральное государственное автономное образовательное учреждение высшего образования "Южный федеральный университет", Инженерно-технологическая академия. — Ростов-на-Дону : [б. и.] ; Таганрог : Изд-во Южного федерального ун-та, 2021. — 83 с. : ил., табл.; 20 см.
- Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung. Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 p. — ISBN 978-3-319-06244-0. — doi:10.1007/978-3-319-06245-7.
- Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data (англ.). Gartner (27 июня 2011). Дата обращения: 12 ноября 2011. Архивировано 17 мая 2012 года.
- James Manyika et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 августа 2011). Дата обращения: 12 ноября 2011. Архивировано 11 декабря 2012 года.
Ссылки
- Большие данные в информатике. Большая российская энциклопедия. Автономная некоммерческая организация «Национальный научно-образовательный центр «Большая российская энциклопедия» (2023).
- Серьёзно о технологиях для Больших Данных | Открытые системы. СУБД | Издательство «Открытые системы» osp.ru
- Свежий взгляд на Большие Данные | Открытые системы. СУБД | Издательство «Открытые системы» osp.ru
- Что такое Big Data и почему их называют «новой нефтью». РБК Тренды (2023).