Шардирование

Шардирование
Шардирование
	англ. Sharding
Область использования	Системы управления базами данных, Распределённые вычисления

Шардирование
Шардирование
	англ. Sharding
Область использования	Системы управления базами данных, Распределённые вычисления

Шардирование (англ. sharding, также шардинг) — архитектурный приём, при котором общая база данных разбивается на более мелкие независимые фрагменты — шарды (от англ. shard — «осколок»). Каждый шард хранит подмножество общей информации и зачастую располагается на отдельном сервере или группе серверов, что позволяет распределять нагрузку, повышать производительность и обеспечивать отказоустойчивость системы^[1]^[2].

Основные цели шардирования:

горизонтальное масштабирование при росте данных и числа запросов;
сокращение времени отклика за счёт параллельной обработки;
повышение доступности — отказ одного шарда не выводит из строя всю систему;
устранение «узких мест» путём равномерного распределения данных^[3]^[4].

Процесс построения шард-кластера опирается на ряд ключевых компонентов^[5]:

Шарды — независимые подмножества общей базы, каждое из которых представляет полноценную СУБД-экземпляр.
Ключ шардирования (shard key) — одно или несколько полей, по которым вычисляется принадлежность записи конкретному шарду; от его выбора зависит равномерность нагрузки^[6].
Маршрутизатор запросов (Query Router, proxy) — промежуточный сервис, определяющий по ключу, в какой шард направить запрос.
Серверы конфигурации — хранят метаданные о распределении диапазонов ключей между шардами; маршрутизаторы периодически синхронизируются с ними.
Реплики — копии данных внутри шарда, повышающие отказоустойчивость и позволяющие выполнять чтения с нагрузки.
Распределённые таблицы — логические представления, которые не хранят данных, а перенаправляют запросы к локальным таблицам на нужных шардах^[3].

Шардирование внедряется поэтапно, каждый этап решает самостоятельную задачу^[5]^[3].

Планирование и проектирование

На этом этапе:

выявляются ограничения вертикального масштабирования и обосновывается необходимость шардинга;
выбирается ключ шардирования и метод распределения (диапазоны, хеш-функция, каталожный сервис);
определяется архитектура: используются ли встроенные механизмы СУБД или внешний proxy-слой;
разрабатывается схема маршрутизации и модель резервного копирования.

Реализация

Включает:

развёртывание узлов-шардов и, при необходимости, серверов конфигурации;
перенос существующих данных в соответствии с выбранной схемой;
адаптацию приложения: внедрение логики маршрутизации, поддержку распределённых транзакций.

Балансировка и эксплуатация

На этом этапе осуществляются:

непрерывный мониторинг «горячих» шардов и латентности;
решардинг — перераспределение диапазонов при появлении новых узлов;
резервное копирование и тестирование восстановления;
обновление версии СУБД и инфраструктуры без простоев^[7].

Преимущества

Горизонтальное масштабирование, снимающее физические ограничения одного сервера^[3].
Параллельная обработка запросов, ускоряющая чтение и запись^[2].
Локализованный сбой не затрагивает всю систему, что повышает доступность^[4].
Меньшие индексы внутри шарда и сокращение задержек поиска^[8].
Возможность географического размещения данных ближе к пользователям.

Недостатки

Существенная сложность проектирования, внедрения и поддержки; ошибки способны привести к потере данных^[1].
Риск неравномерной нагрузки («горячие» шарды) при неудачном выборе shard key^[1].
Кросс-шардовые JOIN-ы и распределённые транзакции усложняют логику приложения и снижают производительность^[8].
Ребалансировка данных во время решардинга — ресурсоёмкая операция с возможными простоями.
Не все традиционные СУБД имеют встроенную поддержку, что вынуждает применять внешние решения^[2].

Шардирование применяется в системах, где объём данных и поток запросов быстро растут^[4]^[9]:

крупные интернет-магазины и маркетплейсы (AliExpress, Ozon);
социальные сети и мессенджеры с десятками миллионов пользователей;
финансовые платформы и платёжные шлюзы, требующие высокой доступности транзакций;
многопользовательские онлайн-игры;
сервисы доставки и логистики, обрабатывающие маршруты и статусы в реальном времени;
глобальные CDN-платформы, размещающие данные ближе к региону потребления.

Инструменты условно делятся на четыре группы.

СУБД со встроенным шардированием

MongoDB, Apache Cassandra, Elasticsearch, ClickHouse, CockroachDB, YugabyteDB, Greenplum, Yandex Managed Service for YDB^[8].

Расширения к СУБД

Citus Data и Shardman для PostgreSQL^[10].

Proxy-решения

Vitess и ProxySQL для MySQL, Apache ShardingSphere, Milvus Proxy^[11].

Облачные сервисы

Google Cloud Spanner, Amazon Aurora, Azure Cosmos DB, Azure SQL Hyperscale, управляемые сервисы MongoDB и ClickHouse в Яндекс Облаке.

Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Шардирование

Структурные элементы процесса шардирования

Этапы работы

Планирование и проектирование

Реализация

Балансировка и эксплуатация

Преимущества и недостатки

Преимущества

Недостатки

Сферы применения

Инструменты для использования в шардировании

Примечания