Amazon Redshift

Amazon Redshift — облачная СУБД, ориентированная на построение хранилищ данных, входящая в состав Amazon Web Services. Сервис был запущен 15 февраля 2013 года[1].

В основе сервиса лежит архитектура массово-параллельной обработки (MPP)[2] и колоночное хранение данных[3]. Изначально Redshift был реализован на базе СУБД ParAccel (принадлежит Actian), которая, в свою очередь, основывалась на PostgreSQL 8.0.2[1]. Заявляется о способности обрабатывать до 16 ПБ на кластер (в сравнении с максимальными 16 ТБ в Amazon RDS).

Со временем сервис получил значительное развитие. В июле 2022 года стала общедоступной бессерверная версия Redshift Serverless. Современная версия Redshift обеспечивает глубокую интеграцию с озёрами данных на Amazon S3[3] и предлагает возможности Zero-ETL для анализа данных из операционных баз данных в режиме, близком к реальному времени[4].

Название англ. redshift — «красное смещение» — отсылает к корпорации Oracle (использующей красный цвет в рекламной продукции), продукты которой предполагается заместить благодаря переходу на эту СУБД.

Архитектура

Архитектура узлов

В основе архитектуры Amazon Redshift лежит кластер, который является ключевым инфраструктурным компонентом[5]. Кластер состоит из двух типов узлов: одного лидер-узла (англ. leader node) и одного или нескольких вычислительных узлов (англ. compute nodes)[5].

Лидер-узел функционирует как координатор: он принимает SQL-запросы от клиентских приложений, разрабатывает план их выполнения, компилирует код для этого плана и распределяет его между вычислительными узлами[5]. После завершения обработки лидер-узел собирает промежуточные результаты, агрегирует их и отправляет конечный результат обратно клиенту[5].

Вычислительные узлы являются основными исполнителями, которые хранят данные и выполняют основную часть вычислений[5]. Каждый узел обладает собственными ресурсами (процессором, памятью и дисковым пространством)[6] и получает инструкции от лидер-узла для параллельной обработки своей части данных[5]. Для дальнейшего распараллеливания каждый вычислительный узел разделён на логические единицы, называемые срезами (англ. slices)[5]. Каждому срезу выделяется своя часть памяти и дискового пространства узла, что позволяет выполнять операции параллельно не только между узлами, но и внутри каждого из них[5].

Такая структура обеспечивает массово-параллельную обработку (MPP), при которой множество вычислительных узлов и их срезов одновременно выполняют один и тот же код запроса над различными сегментами данных, что позволяет Redshift эффективно справляться со сложными аналитическими задачами[5].

Хранение данных

Для оптимизации аналитических нагрузок Amazon Redshift использует два ключевых подхода к хранению данных: колоночное хранение и сжатие.

Колоночное (столбцовое) хранение является фундаментальным принципом архитектуры Redshift. В отличие от традиционных СУБД, которые хранят данные построчно, Redshift организует их по колонкам, при этом значения из одной колонки хранятся на диске последовательно[7][8]. Такой подход значительно сокращает объём операций ввода-вывода (I/O) для аналитических запросов, которые, как правило, затрагивают лишь небольшое подмножество колонок таблицы[8]. Система считывает только те колонки, которые необходимы для выполнения запроса, что существенно ускоряет его выполнение[9].

Сжатие данных применяется для дальнейшего уменьшения объёма хранимой информации[9]. Поскольку данные в одной колонке однотипны, они хорошо поддаются сжатию[8]. Это не только экономит дисковое пространство, но и повышает производительность запросов за счёт сокращения объёма данных, считываемых с диска, и увеличения количества информации, которую можно разместить в памяти[7]. Redshift может автоматически применять оптимальные кодировки сжатия при загрузке данных с помощью команды COPY, либо их можно указать вручную при создании таблицы[10].

Обработка запросов

Процесс обработки запроса в Amazon Redshift начинается с его отправки клиентским приложением на лидер-узел. Лидер-узел анализирует (парсит) SQL-запрос и с помощью оптимизатора запросов (англ. Query Optimizer) создаёт наиболее эффективный план его выполнения, основываясь на статистике таблиц[11].

Далее лидер-узел компилирует шаги плана в исполняемый код и распределяет его по всем вычислительным узлам кластера. Вычислительные узлы и их срезы параллельно выполняют полученный код, каждый над своим сегментом данных. Этот этап включает сканирование, фильтрацию, объединение (англ. JOIN) и агрегацию на уровне узлов.

По завершении обработки промежуточные результаты отправляются обратно на лидер-узел, который выполняет финальную агрегацию и формирует итоговый ответ[12]. Готовый результат отправляется клиентскому приложению. Для ускорения повторных операций Redshift также кэширует результаты часто выполняемых запросов (англ. result caching)[11].

История

Запуск и становление (2012—2015)

Сервис Amazon Redshift был впервые анонсирован на конференции AWS re:Invent в ноябре 2012 года, а его официальный запуск состоялся 15 февраля 2013 года. В основе сервиса лежала технология компании ParAccel, использовавшая архитектуру массово-параллельной обработки (MPP) и модифицированную версию PostgreSQL 8.0.2. Запуск Redshift предложил рынку более экономичную альтернативу традиционным локальным хранилищам данных и ускорил миграцию аналитических нагрузок в облако[13].

В течение 2014 года сервис получил ряд обновлений, направленных на повышение гибкости и производительности. 23 января были представлены новые типы узлов, что предоставило пользователям больше вариантов для конфигурации кластеров[14]. 18 апреля был увеличен до 50 лимит одновременно выполняемых запросов в очередях управления рабочей нагрузкой (WLM), а 1 июля была добавлена новая оконная функция PERCENTILE_CONT[15].

Ключевые обновления 2015 года были сфокусированы на производительности и расширении функциональности. 28 июля Amazon представила новое поколение вычислительных узлов — DS2, которые обеспечивали более высокую производительность и большую ёмкость хранения[14]. Важным нововведением стал запуск поддержки пользовательских скалярных функций (англ. User-Defined Functions, UDF) на языке Python 2.7, анонсированный 19 ноября[14]. Это позволило выполнять специализированные вычисления непосредственно в кластере. Кроме того, была добавлена поддержка динамического применения некоторых свойств в конфигурации WLM, что позволило изменять параметры без перезагрузки кластера[14]. В мае того же года аналитическая платформа TIBCO Spotfire получила официальную поддержку Amazon Redshift[16].

Повышение производительности и управляемости (2016—2018)

В этот период обновления были направлены на повышение производительности, гибкости и управляемости сервиса. В 2016 году была увеличена пропускная способность при выполнении запросов, а производительность операции VACUUM повышена до 10 раз. Появилась возможность восстанавливать отдельные таблицы из снимка (англ. Table-level Restore), а для команд COPY и UNLOAD была добавлена поддержка ролей IAM.

Ключевым нововведением 2017 года стал запуск Redshift Spectrum — функции, которая позволила выполнять SQL-запросы напрямую к данным, хранящимся в озере данных на Amazon S3, без предварительной загрузки в кластер. Это позволило объединять в одном запросе локальные данные Redshift и данные из S3, а также отделило вычислительные мощности от хранилища. В этом же году были представлены новые типы узлов DC2 (англ. Dense Compute), которые предложили более высокую производительность по сравнению с предыдущим поколением DC1 при той же цене.

В ноябре 2018 года была представлена функция Elastic Resize (англ. Эластичное изменение размера), которая решила одну из главных проблем сервиса — медленное масштабирование[17]. Если ранее изменение размера кластера могло занимать до 24 часов, переводя его в режим «только для чтения», то новая функция позволила добавлять или удалять узлы за несколько минут[18]. Это дало возможность гибко адаптировать ресурсы под текущие нагрузки и стало важным шагом к повышению эластичности сервиса[19].

Новая архитектура и эластичность (2019—2020)

Период 2019—2020 годов ознаменовался фундаментальным архитектурным сдвигом для Amazon Redshift, направленным на разделение вычислительных ресурсов и хранилища, что значительно повысило эластичность и производительность сервиса.

Ключевым нововведением, представленным на конференции AWS re:Invent 2019, стало новое поколение узлов RA3 с управляемым хранилищем. Эта архитектура позволила независимо масштабировать вычислительную мощность и объём хранения данных, так как Redshift начал автоматически управлять перемещением данных между локальными SSD-накопителями на узлах и более объёмным хранилищем в Amazon S3. В марте 2019 года была запущена функция Concurrency Scaling (англ. масштабирование одновременных запросов), которая позволяет автоматически добавлять временные вычислительные кластеры для обработки пиковых нагрузок. Для ускорения запросов был анонсирован AQUA (англ. Advanced Query Accelerator) — аппаратно-ускоренный кэш, выносящий часть вычислений на уровень хранилища.

В 2020 году развитие новой архитектуры продолжилось. Инстансы RA3 получили широкое распространение, а семейство пополнилось более компактными узлами, сделав технологию доступнее. На конференции re:Invent 2020 были представлены две важные функции: Data Sharing (англ. обмен данными), позволившая безопасно предоставлять доступ к «живым» данным между различными кластерами Redshift без их копирования, и Redshift ML, которая интегрировала машинное обучение (через Amazon SageMaker) непосредственно в SQL-запросы. Также в предварительной версии появился нативный тип данных `SUPER` для работы с полуструктурированными данными, такими как JSON.

Среди других значимых обновлений этого периода — запуск в предварительной версии функции Federated Query (англ. федеративные запросы) для выполнения запросов к внешним базам данных, добавление поддержки геопространственных данных и улучшение управления рабочими нагрузками (WLM) за счёт очередей для коротких запросов (англ. Short Query Acceleration).

Эпоха Serverless и Zero-ETL (2021—2023)

Этот период ознаменовался двумя ключевыми тенденциями: упрощением использования сервиса за счёт бессерверной архитектуры и устранением сложных процессов загрузки данных благодаря концепции Zero-ETL.

В 2021 году на конференции AWS re:Invent была анонсирована предварительная версия Redshift Serverless — опции, позволяющей выполнять аналитические запросы без необходимости настраивать и управлять кластерами. В этом же году стала общедоступной функция обмена данными (англ. Data Sharing), а 28 апреля 2021 года — нативный тип данных `SUPER` для работы с полуструктурированными данными, такими как JSON. Также была запущена интеграция с AWS Data Exchange для использования сторонних наборов данных и расширены возможности Redshift ML за счёт добавления кластеризации методом k-средних.

Ключевым событием 2022 года стал полноценный запуск Redshift Serverless в июле. Эта версия автоматически выделяет и масштабирует ресурсы, а оплата производится только за фактически использованные мощности, что оптимизирует затраты при переменных нагрузках. На конференции re:Invent 2022 была анонсирована нативная интеграция с Apache Spark, позволяющая выполнять запросы к Redshift из таких сервисов, как Amazon EMR и AWS Glue, без сторонних коннекторов[20]. В этом же году была представлена предварительная версия интеграции Zero-ETL с Amazon Aurora, направленная на репликацию данных для анализа в режиме, близком к реальному времени. Среди других нововведений — функция автоматического копирования данных из Amazon S3 (англ. Auto-copy)[21] и динамическое маскирование данных для защиты конфиденциальной информации[22].

В 2023 году концепция Zero-ETL получила дальнейшее развитие: были анонсированы интеграции (в режиме предварительного просмотра) с Amazon Aurora PostgreSQL, Amazon RDS для MySQL и Amazon DynamoDB. Важным направлением стало внедрение искусственного интеллекта. Для Redshift Serverless были запущены функции масштабирования и оптимизации на основе ИИ (англ. AI-driven scaling and optimizations), которые прогнозируют нагрузку и автоматически настраивают ресурсы для достижения оптимального соотношения цены и производительности[23]. Кроме того, в редактор запросов был интегрирован генеративный ИИ-помощник Amazon Q (в предварительной версии), позволяющий генерировать SQL-запросы на естественном языке[23].

Современный этап: ИИ и Lakehouse (2024 — н.в.)

Период с 2024 года характеризуется глубокой интеграцией с искусственным интеллектом (ИИ), развитием архитектуры Lakehouse и расширением возможностей анализа данных в режиме, близком к реальному времени.

Ключевым направлением стала интеграция с генеративным ИИ. Появилась возможность вызывать большие языковые модели (LLM) из сервиса Amazon Bedrock напрямую из Redshift с помощью SQL-запросов. В редактор запросов был интегрирован ИИ-помощник Amazon Q, позволяющий генерировать SQL-код на естественном языке. Для бессерверной версии Redshift стала общедоступной функция масштабирования на основе ИИ (англ. AI-driven scaling), которая проактивно управляет ресурсами для достижения оптимального соотношения цены и производительности.

Концепция Zero-ETL получила значительное развитие: стали общедоступными интеграции с Amazon Aurora PostgreSQL, Amazon RDS для MySQL и Amazon DynamoDB. Также была добавлена поддержка потоковых источников, таких как Confluent Cloud, и корпоративных приложений (например, Salesforce) через AWS Glue. Для упрощения работы с реплицированными данными 21 января 2025 года были представлены новые SQL-функции, в том числе QUERY_ALL_STATES и TRUNCATECOLUMNS[24], а 24 января был анонсирован режим «History Mode» для отслеживания исторических изменений в источниках данных[25].

В рамках развития архитектуры Lakehouse стала общедоступной функция записи в общие базы данных из нескольких хранилищ (англ. multi-data warehouse writes), что упростило совместную работу и построение архитектур data mesh. Для повышения производительности запросов к озёрам данных на Amazon S3 была реализована поддержка инкрементного обновления материализованных представлений. Кроме того, была расширена интеграция со сторонними сервисами, например, с Twilio Segment для создания маркетинговых аудиторий непосредственно в хранилище[26].

Продолжилось совершенствование Redshift Serverless: максимальная ёмкость была увеличена до 1024 RPU (англ. Redshift Processing Units), а география присутствия расширена на 10 новых регионов AWS. В апреле 2025 года для этой версии стали доступны резервации (англ. Serverless Reservations), позволяющие снизить затраты при годовом обязательстве[27].

В 2025 году сервис получил ряд важных обновлений и столкнулся с операционными вызовами. С 30 января были усилены меры безопасности для новых ресурсов: по умолчанию отключён публичный доступ, введено обязательное шифрование и принудительное использование SSL-соединений[28]. Было объявлено о прекращении поддержки создания новых пользовательских функций (UDF) на языке Python после 30 октября с рекомендацией перехода на Lambda UDF[29]. 20-21 октября работа Redshift, как и многих других сервисов AWS, была нарушена из-за масштабного сбоя в регионе US-EAST-1, вызванного ошибкой в системе обновления DNS для Amazon DynamoDB[30][31].

Актуальная версия Amazon Redshift не имеет фиксированного номера версии, как у коробочного ПО, поскольку это полностью управляемый облачный сервис. AWS автоматически обновляет кластеры в рамках регулярных окон обслуживания[32][33][34][35].

Примечания

  1. 1 2 Amazon Redshift: Запуск и революция в мире облачных хранилищ данных. Airbyte. Дата обращения: 28 октября 2025. Архивировано 18 июля 2025 года.
  2. The evolution of Amazon redshift. ResearchGate. Дата обращения: 28 октября 2025.
  3. 1 2 Features. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 6 сентября 2025 года.
  4. Are there any other Redshift functions to be implemented this year? repost.aws. Дата обращения: 28 октября 2025.
  5. 1 2 3 4 5 6 7 8 9 Data warehouse system architecture - Querying best practices for Amazon Redshift. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 3 августа 2025 года.
  6. Amazon Redshift: как мы ускорили запросы в 100 раз. Habr (18 января 2021). Дата обращения: 28 октября 2025.
  7. 1 2 Optimizing Performance and Efficiency with Data Compression in Amazon Redshift. CloudThat. Дата обращения: 28 октября 2025. Архивировано 26 апреля 2025 года.
  8. 1 2 3 Redshift Columnar Storage 101. Panoply. Дата обращения: 28 октября 2025. Архивировано 28 марта 2025 года.
  9. 1 2 Amazon Redshift Architecture: 5 Key Components. Hevo Data. Дата обращения: 28 октября 2025. Архивировано 20 июля 2025 года.
  10. Compressing data on disk. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 2 августа 2025 года.
  11. 1 2 Optimizing Query Performance in Amazon Redshift. reintech.io. Дата обращения: 28 октября 2025.
  12. Massive Parallel Processing (MPP). s-squaresystems.com. S-Square Systems. Дата обращения: 28 октября 2025. Архивировано 19 мая 2025 года.
  13. Amazon Launches 'Profoundly Disruptive' Data Warehouse. TechNewsWorld. Дата обращения: 28 октября 2025. Архивировано 26 февраля 2024 года.
  14. 1 2 3 4 Document history - Amazon Redshift. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 22 июля 2025 года.
  15. Document history - Amazon Redshift. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 15 сентября 2025 года.
  16. TIBCO Spotfire получил официальную поддержку Amazon Redshift. asu-analitika.ru. Дата обращения: 28 октября 2025. Архивировано 3 августа 2021 года.
  17. Amazon Redshift Elastic Resize. Amazon Web Services (2018). Дата обращения: 28 октября 2025. Архивировано 7 августа 2025 года.
  18. Amazon Redshift now supports Elastic Resize. picnicerror.net (16 ноября 2018). Дата обращения: 28 октября 2025. Архивировано 15 февраля 2025 года.
  19. Concurrency and scalability strategies with Amazon Redshift (ANT301). AWS (2021). Дата обращения: 28 октября 2025.
  20. Amazon Redshift integration for Apache Spark. SoftwareOne. Дата обращения: 28 октября 2025.
  21. Amazon Redshift announces Auto-copy from Amazon S3. AWS News. Дата обращения: 28 октября 2025. Архивировано 1 мая 2025 года.
  22. AWS Dynamic Data Masking Announcement Solidifies a Commitment to Complete Data Privacy and Security. Security Boulevard (декабрь 2022). Дата обращения: 28 октября 2025. Архивировано 14 декабря 2022 года.
  23. 1 2 AWS Introduces Two Important Database Upgrades At re:Invent 2023. Constellation Research. Дата обращения: 28 октября 2025. Архивировано 4 августа 2025 года.
  24. Amazon Redshift introduces new SQL functions to simplify zero-ETL integrations. AWS News (21 января 2025). Дата обращения: 28 октября 2025. Архивировано 1 мая 2025 года.
  25. Amazon Redshift announces History mode for zero-ETL integrations. AWS News (24 января 2025). Дата обращения: 28 октября 2025. Архивировано 1 мая 2025 года.
  26. Twilio Segment Extends its Linked Audiences Capability Across Amazon Redshift. CXtoday. Дата обращения: 28 октября 2025.
  27. AWS Updates — April 2025. Adex (1 мая 2025). Дата обращения: 28 октября 2025. Архивировано 9 сентября 2025 года.
  28. Amazon Redshift announces security improvements for new resources. AWS News (30 января 2025). Дата обращения: 28 октября 2025. Архивировано 1 мая 2025 года.
  29. Behavior changes in Amazon Redshift. Amazon Web Services. Дата обращения: 28 октября 2025. Архивировано 21 января 2025 года.
  30. Amazon Web Services восстановила работу после 15-часового сбоя, затронувшего тысячи сайтов. iXBT.com (25 октября 2025). Дата обращения: 28 октября 2025.
  31. Сбой в облачной системе Amazon нарушил работу крупнейших онлайн-платформ. Exclusive.kz (22 октября 2025). Дата обращения: 28 октября 2025.
  32. Amazon Redshift - Big Data Analytics Options on AWS (амер. англ.). docs.aws.amazon.com. Дата обращения: 31 марта 2026.
  33. Хабр (рус.). Хабр. Дата обращения: 31 марта 2026.
  34. Облачные хранилища данных – Amazon Redshift – AWS (рус.). Amazon Web Services, Inc.. Дата обращения: 31 марта 2026.
  35. Cloud Data Warehouse - Amazon Redshift - AWS (амер. англ.). Amazon Web Services, Inc.. Дата обращения: 31 марта 2026.

Категории