Эксплуатация, администрирование и управление

Эксплуатация, администрирование и управление (англ. operations, administration, and management, часто сокращается как ОАиУ или OAM от англ. operations, administration, and maintenance) — комплекс процессов, действий, инструментов и стандартов, связанных с эксплуатацией, администрированием, управлением и обслуживанием любой системы. Чаще всего понятие применяется в сферах телекоммуникаций, компьютерных сетей и аппаратного обеспечения.

В частности, эксплуатация, администрирование и управление Ethernet (англ. Ethernet operations, administration and maintenance, EOAM) — это протокол, предназначенный для внедрения, мониторинга и устранения неисправностей в Ethernet метрополитенских и глобальных сетях. Протокол обеспечивает такие функции ОАиУ, как обнаружение устройств, мониторинг каналов, удалённое определение неисправностей и удалённое выполнение петлевых тестов.

Согласно руководствам IETF, методы OAM классифицируются на активные (англ. Active), использующие генерацию выделенных пакетов для мониторинга, пассивные (англ. Passive), наблюдающие за существующим пользовательским трафиком без создания дополнительных пакетов, и гибридные (англ. Hybrid), сочетающие элементы обоих подходов^[1].

Управление неисправностями и мониторинг производительности (G.8013/Y.1731, редакция 2023 года)^[2] — определяет методы мониторинга производительности для обеспечения SLA и планирования ёмкости, включая современные функции: измерение потери кадров (ETH-LM), синтетическое измерение потерь (ETH-SLM), а также измерение задержки и её вариации (ETH-DM)^[3]. Для управления неисправностями стандарт определяет проверки связности, петлевые тесты, трассировку каналов и подавление сигналов тревоги (AIS, RDI) для эффективного выявления, верификации, локализации и оповещения о проблемах в операторских сетях.
Управление связностью и неисправностями (IEEE 802.1ag, интегрирован в состав стандарта IEEE 802.1Q)^[4] — определяет стандартизированные проверки связности, петлевые тесты и трассировку каналов для управления неисправностями в корпоративных и операторских сетях. Также стандарт делит сеть на 8 иерархических административных доменов.
Детектирование на канальном уровне (IEEE 802.1AB, актуальная версия — IEEE 802.1AB-2016 с дополнениями 2021 года, включающими поддержку YANG)^[5] — определяет методы определения для всех краевых устройств провайдера (PE), обслуживающих общий экземпляр сервиса, и/или для всех краевых устройств и P-маршрутизаторов, относящихся к единому домену сети.
Ethernet в первом километре, изначально определённый в IEEE 802.3ah (инкорпорирован в основную версию стандарта IEEE 802.3)^[6] — механизмы мониторинга и диагностики Ethernet-каналов доступа. Включает инструменты для обнаружения устройств, удалённого обнаружения неисправностей, удалённых и локальных петлевых тестов, а также мониторинга состояния и производительности.
Переключение защиты Ethernet (ITU-T G.8031, актуальная редакция 2018 года)^[7] — реализует переключение защиты по аналогии с APS SONET/ MSP SDH для Ethernet-магистралей.

OAMP (традиционно — OAM&P) расшифровывается как эксплуатация (англ. operations), администрирование (англ. administration), обслуживание (англ. maintenance) и предоставление ресурсов (англ. provisioning). В последние годы добавляется ещё буква T — устранение неисправностей (англ. troubleshooting), что отражает использование термина в сфере эксплуатации сетей. Термин применяется как для обозначения всей совокупности дисциплин, так и для конкретных программных решений и функций, которые применяются компаниями для обеспечения этих задач.

Хотя само понятие и термин возникли в области проводной телефонии, дисциплина распространилась и на другие сферы, связанные с обслуживанием — такие как кабельное телевидение и многие аспекты интернет-сервисов и эксплуатации сетей. «Ethernet OAM» — ещё одна относительно новая область применения подобной терминологии.

Эксплуатация включает автоматический мониторинг среды, выявление и диагностику неисправностей, а также оповещение администраторов. Администрирование обычно связано со сбором статистики производительности, учётных данных для выставления счетов, анализом использования ресурсов для планирования ёмкости и поддержанием надёжности систем. Также включает поддержание баз данных обслуживания, которые применяются, например, для расчёта периодических платежей. Техническое обслуживание подразумевает обновления, исправления, внедрение новых функций, резервное копирование и восстановление данных, а также мониторинг состояния носителей данных. Ключевая задача — Диагностика и устранение неисправностей. Provisioning («предоставление ресурсов») — настройка новых пользователей, устройств и сервисов.

Несмотря на то, что обе концепции рассчитаны примерно на одни и те же рынки, OAMP охватывает больше аспектов, чем пять пунктов, выделяемых в FCAPS (см. подробнее FCAPS; эта терминология была вне телеком-среды популярнее, чем OAMP). В условиях Центров управления сетями (NOC) понятия OAMP и OAMPT всё чаще используются для описания жизненного цикла управления проблемами, особенно с распространением операторского (Carrier-Grade) Ethernet: телеком-терминология всё глубже интегрируется в традиционно IP-ориентированную область.

В современных стандартах IETF и ITU-T расширенные термины OAMP и OAMPT считаются устаревшими в пользу унифицированного термина OAM. При этом функция предоставления ресурсов (англ. provisioning) концептуально отделяется от задач эксплуатации и технического обслуживания^[1].

Эксплуатация

Это процедуры, выполняемые в ходе обычной работы сети.

В их числе — организационные процессы повседневной деятельности: передача дежурства, эскалация, управление крупными инцидентами, вызовы по тревоге, регламенты поддержки, регулярные обновления (включая электронные письма и совещания). В этой группе — ежедневные контрольные листы, графики дежурств и смен, правила реагирования на вызовы и открытия заявок, документация производителей (технические спецификации, руководства операторов). IETF рекомендует отказаться от термина «out-of-band» (OOB), заменяя его более точной классификацией по способу генерации трафика и конгруэнтности пути^[1].

Администрирование

Это поддерживающие процедуры, необходимые для каждодневной эксплуатации — такие как правила обращения с типовыми паролями, доступ к оборудованию и инструментам, формы учёта рабочего времени, протоколы и повестки собраний, отчёты по обслуживанию клиентов.

Это не обязательно «сетевое администрирование», но также и администрирование эксплуатации сетей.

Обслуживание

Задачи, невыполнение которых негативно скажется на работе сервиса или системы, но которые не всегда напрямую связаны с отказом. Это конфигурационные и аппаратные изменения, выполняемые в ответ на ухудшение работы системы. Процедуры включают планирование профилактики и технического обслуживания поставщика, стандартные конфигурационные изменения сетевого оборудования по политике/проекту, регулярные проверки оборудования, замену аппаратуры, обновление программного обеспечения и микропрограмм. Также к обслуживанию может относиться снятие административных прав доступа как мера политики безопасности. Современное профилактическое обслуживание опирается на проактивный мониторинг (например, по стандарту ITU-T G.8013/Y.1731)^[2] и активный OAM (согласно RFC 9772, 9634)^[8]^[9] для выявления деградации сервиса до возникновения сбоев.

Предоставление ресурсов

Введение в эксплуатацию новых сервисов, организация новых каналов и установка оборудования, внедрение новой аппаратуры. Для этих процессов обычно существуют пошаговые инструкции и чек-листы, которым необходимо строго следовать и по которым требуется подтверждение выполнения. Также включает процессы интеграции и ввода в действие с передачей результата другим этапам жизненного цикла бизнеса.

В современных программно-определяемых сетях (SDN) ручные инструкции заменяются декларативным подходом Intent-Based Networking (IBN), который автоматически транслирует высокоуровневые бизнес-намерения в сетевые политики^[10].^[11]

Диагностика неисправностей

Диагностика проводится при наличии неисправности или сбоя, может приводить к мероприятиям по обслуживанию или применению временных мер до полноценного ремонта. Процедуры диагностики включают базы знаний, руководства и алгоритмы, обеспечивающие весь цикл работы инженеров эксплуатационных служб — от начальной диагностики до углублённого поиска причин. Часто этот этап включает моделирование проблем и традиционно является точкой сопряжения с этапом проектирования.

Для обнаружения и локализации сбоев в сетях Ethernet (в рамках стандарта IEEE 802.1ag) применяются диагностические процедуры Loopback и Linktrace. Процедура Loopback используется для проверки доступности узлов и верификации неисправностей на канальном уровне, действуя аналогично утилите ping. Процедура Linktrace выполняет трассировку пути следования трафика для точной локализации участка со сбоем, подобно команде traceroute^[12].

Для автоматизированного анализа генерируемых OAM-данных, выявления аномалий и автоматического определения первопричин неисправностей применяются алгоритмы машинного обучения и платформы AIOps^[13].^[14]

IETF уделяет повышенное внимание безопасности протоколов OAM, требуя обязательного включения раздела управления безопасностью в новые спецификации^[15]. Кроме того, ведётся разработка механизмов защиты целостности телеметрических данных для технологий In-situ OAM (IOAM)^[16]^[17].

RFC 3429 (англ.). IETF. Дата обращения: 13 июня 2024.
RFC 7276 (англ.). IETF. Дата обращения: 13 июня 2024.
Ethernet Operations, Administration, and Maintenance (англ.). Cisco. Дата обращения: 13 июня 2024.
Operational Efficiency in ERP and CMMS with integration of AI (англ.). ZippiAI. Дата обращения: 13 июня 2024.
Kevin Daines. EFM OAM Tutorial (англ.). IEEE. Дата обращения: 13 июня 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Эксплуатация, администрирование и управление

Стандарты

OAMP

Процедуры

Эксплуатация

Администрирование

Обслуживание

Предоставление ресурсов

Диагностика неисправностей

Безопасность

Примечания

Литература

Категории