FCAPS

FCAPS — модель и структура для управления компьютерными сетями, определённая Международной организацией по стандартизации (ISO) в рамках концепции управляющей сети телекоммуникаций (TMN). Аббревиатура FCAPS расшифровывается как ошибки (fault), конфигурация (configuration), учёт (accounting), производительность (performance), безопасность (security), что соответствует основным категориям задач управления сетями, выделяемым в ISO-модели. В организациях, не использующих биллинг, категория учёт (accounting) иногда заменяется на администрирование (administration)[1].

Предпосылки

ISO под руководством группы OSI разработала модель управления сетью как основной подход к структурированию функций систем сетевого управления. Эта модель называется моделью управления сетью OSI или моделью управления сетью ISO, поэтому полное название может быть модель управления сетью OSI/ISO.

Комплексное управление ИТ-инфраструктурой организации является её фундаментальной задачей. Сотрудники и клиенты зависят от ИТ-сервисов, для которых требуется высокая доступность и производительность, а возникающие проблемы должны быстро обнаруживаться и устраняться. Среднее время восстановления (MTTR) должно быть минимальным, чтобы ограничить простои, способные привести к потерям дохода или жертвам.

История

Термин FCAPS впервые появился в начале 1980-х годов в рабочих черновиках (N1719) стандарта ISO 10040 «Обзор управления системами OSI» (SMO). Первоначально предполагалось разработать пять отдельных протоколов для каждой функциональной области. Практический опыт показал схожесть этих протоколов, в связи с чем рабочая группа ISO (ISO/TC97/SC16/WG4, позднее — ISO-IEC/JTC1/SC21/WG4) решила создать единый протокол для всех пяти областей — CMIP. В 1990-х гг. МСЭ-Т (ITU-T) в рамках своих работ по TMN доработала FCAPS как часть рекомендации M.3400 по функциям управления[2]. Идея FCAPS оказалась удобной для преподавания теории управления сетями: большинство профильных учебников начинают с объяснения FCAPS.

Пять функциональных областей модели

Модель управления сетью OSI выделяет пять областей, иногда называемых «моделью FCAPS». FCAPS считается предшественником более новой модели FAB, определённой в бизнес-процессном фреймворке eTOM: FAB расшифровывается как исполнение (fulfillment), гарантии (assurance), выставление счетов (billing). Примерное соответствие между двумя моделями выглядит так:

FCAPS и ISO (FAB) модели
FCAPS FAB
Ошибки (Fault) Гарантии (Assurance)
Конфигурация (Configuration) Исполнение (Fulfillment)
Учёт (Accounting) Выставление счетов (Billing)
Производительность (Performance) Гарантии (Assurance)
Безопасность (Security) Исполнение (Fulfillment)

Модель FCAPS ориентирована на сетевой уровень («снизу-вверх»), а FAB-на «сверху-вниз», фокусируясь на клиентах и бизнес-процессах. Основные промышленные стандарты управления сетями — SNMP (IETF) и CMIP (ITU-T).

Управление ошибками

Ошибка (fault) — это событие, имеющее критическую значимость. Цель управления ошибками — обнаруживать, изолировать, устранять и фиксировать ошибки, возникающие в сети. Анализ трендов позволяет также предсказывать сбои для поддержания непрерывной доступности сети. Этого достигают мониторингом состояния на предмет аномалий.

При возникновении ошибки компонент сети часто отправляет уведомление оператору по закрытому или открытому протоколу, например SNMP (примеры решений: WhatsUp Gold, HP OpenView, Sun Solstice — ранее Net Manager), либо пишет сообщение в консоль для регистрации и дальнейшей передачи. Административная станция может оповещать администратора по электронной почте, на экране или via пейджинг, чтобы вовремя принять меры: например, собрать больше данных для диагностики или включить резервное оборудование.

Журналы ошибок используются для компиляции статистики по качеству обслуживания отдельных компонентов, подсетей или всей сети, а также для выявления «слабых» элементов. Ошибки чаще всего связаны с задачами управления ошибками и конфигурацией.

Сетевые элементы возбуждают сигналы тревоги («ловушки», «индикации»), которые отслеживаются системой управления ошибками — такую функцию называют наблюдением за сигналами тревоги[2]. К системам управления ошибками относятся HP Network Node Manager i[3], IBM Tivoli[4], EMC Smarts, CA Spectrum, NetIQ, Nettrac от TTI Telecom, NETeXPERT от Objective Systems Integrators, opEvents от Opmantek[5], vSure от Centina, Infosim StableNet[6], iReveal[7], ERAMON и другие. Для изоляции ошибок используют специализированные инструменты, например Delphi. Обычно управление ошибками является основным назначением сетевого операционного центра.

Управление конфигурацией

Цели управления конфигурацией:

  • сбор и хранение конфигураций сетевых устройств (локально или удалённо);
  • упрощение процесса конфигурирования;
  • отслеживание всех изменений конфигурации;
  • настройка каналов или путей в несвитчируемых сетях;
  • планирование масштабирования и расширения.

Управление конфигурацией заключается в отслеживании информации о настройках системы и всех вносимых изменениях. Это критически важно, поскольку большинство сетевых проблем связано именно с изменениями — обновлением конфигураций, ПО или аппаратной части. Корректная стратегия управления включает регистрацию всех модификаций аппаратуры и программного обеспечения сети: например, смену версий ОС маршрутизаторов, добавление новых интерфейсных модулей. Обычно такие действия отслеживаются не вручную, а с помощью специализированных программ, например CiscoWorks 2000, HP Network Automation[8], ERAMON, Infosim. Opmantek и WhatsUp Gold используют SNMP и Windows Management Instrumentation для сбора информации о производительности, конфигурациях и инфраструктуре[9][10]. Существуют и свободные решения, такие как Open-AudIT.

Управление учётом

Задача управления учётом — сбор статистики использования ресурсов пользователями.

Управление учётом связано с отслеживанием информации об использовании сети, чтобы вести биллинг или начисление расходов отдельным пользователям, подразделениям, бизнес-юнитам. Для многих крупных организаций IT-отделы функционируют как центры затрат, и расходы рассчитываются исходя из объёма использованных ресурсов.

В сетях без биллинга вместо «учёта» (accounting) выделяют администрирование (administration): управление перечнем пользователей, паролями, правами доступа, а также выполнение задач обслуживания (резервное копирование, синхронизация и т. д.).

Учёт также называют управлением выставлением счетов (billing management). На основе собранной статистики возможно взимать плату и устанавливать лимиты на использование ресурсов (дисковое пространство, пропускная способность линии, ЦПУ-время и пр.).

Управление производительностью

Управление производительностью направлено на поддержание заданного уровня работы сети. Оно позволяет инвестировать в развитие сети, оценивать её эффективность, контролировать такие параметры, как пропускная способность, задержки, процент потерь пакетов, загрузку каналов, уровень ошибок и др.

Необходимая информация обычно собирается средствами SNMP, с возможностью активного мониторинга или автоматических оповещений при выходе за пределы критических значений. Отслеживание производительности позволяет выявлять проблемы до их проявления, фиксировать тенденции, настраивать пороговые значения тревог (alarm), которые далее обрабатываются по стандартным процедурам управления ошибками. Реальные продукты для контроля производительности: Tivoli Netcool/Proviso[11] (IBM), CA Performance Management (CA Technologies)[12], opEvents от Opmantek[5], SolarWinds[13].

Управление безопасностью

Управление безопасностью — это процесс контроля доступа к сетевым ресурсам. Безопасность данных достигается в основном средствами аутентификации и шифрования, а доступ настраивается через параметры ОС и СУБД.

Задачи включают администрирование аутентификации, авторизации, аудит доступа, работу с фаерволами, системами предотвращения вторжений и политиками безопасности (например, списками доступа). Элементы сети ведут журналы, анализируемые при аудите. Многие компоненты телекоммуникационных сетей генерируют сигнал тревоги по событиям безопасности[14], который отслеживается в рамках обычного наблюдения[15] системы управления ошибками. Таким образом, инженеры сетевого операционного центра могут оперативно реагировать на выявленные инциденты.

Система управления сетью

С точки зрения модели управления сетью, управляющая станция (NMS, англ. Network Management Station) — это устройство или система, выполняющая приложения управления сетью, предназначенные для мониторинга и контроля сетевых элементов (например, хостов, шлюзов, терминальных серверов). Сетевые элементы используют агенты управления для выполнения команд управляющей станции. Для обмена данными между станциями и агентами применяется SNMP. Определение NMS приведено в RFC 1157.

NMS реализует FCAPS для всей сети, обеспечивая учёт ошибок, конфигураций, ресурсов, производительности и безопасности. В небиллинг-организациях «учёт» (accounting) может заменяться «администрированием» (administration).

На рынке представлены разнообразные промышленные и open-source решения NMS: Nokia NetAct, IBM NetCool, Opmantek, а также NMIS, OpenNMS.

Примечания

Литература

  • ISO/IEC 10040, 1998, «Information technology — Open Systems Interconnection — Systems management overview» (доступно по адресу: http://www.itu.int/rec/T-REC-X.701-199708-I)
  • ITU-T, 1996, «M.3010 Принципы функционирования телекоммуникационной управляющей сети»
  • ITU-T, 1997, «M.3400 Функции управления в TMN»
  • ITU-T, «M.3050 Enhanced Telecom Operations Map (eTOM) — The business process framework»

Ссылки