3 Эскалации

Обзор

Используя эскалации, вы можете создавать пользовательские сценарии для отправки оповещений или выполнения удаленных команд.

С практической точки зрения эскалации означают, что:

  • Пользователи могут быть информированы о новых проблемах немедленно
  • Оповещения могут повторяться до решения проблемы
  • Отправка оповещения может быть выполнена с задержкой
  • Оповещения могут эскалироваться другой "более высокой" группе пользователей
  • Удаленные команды могут быть выполнены незамедлительно или когда проблема не решена за длительный период времени
  • Могут быть отправлены сообщения о восстановлении

Действия эскалируются на основании шага эскалации. Каждый шаг имеет длительность по времени.

Вы можете задать и длительность по умолчанию, и пользовательскую длительность для каждого отдельного шага. Минимальная длительность одного шага эскалации 60 секунд.

Вы можете начать действия, такие как отправка оповещения или выполнение команд, с любого шага. Шаг первый используется для немедленных действий. Если вы хотите отложить действие, вы можете назначить его на следующий шаг. Для каждого шага можно назначать несколько действий.

Количество шагов эскалаций не ограниченно.

Эскалации задаются при настройке действия.

Различные аспекты поведения эскалаций

Давайте рассмотрим что произойдет при разных обстоятельствах, если действие содержит несколько шагов эскалаций.

Ситуация Поведение
Узел сети, о котором идет речь, переходит в состояние обслуживания после отправки первоначального оповещения о проблеме Выполняются все оставшиеся шаги эскалации. Обслуживание не может прервать операции; обслуживание имеет влияние в отношении действие началось/не началось, но не имеет влияния на операции.
Период времени указанный в условии Период времени действия завершается после первоначальной отправки оповещения Выполняются все оставшиеся шаги эскалации. Условие Период времени не может прервать операции; это условие имеет влияние в отношении действия началось/не началось, но не имеет влияния на операции.
Проблема началась в процессе обслуживания и продолжается (не исправлена) после окончания обслуживания Все шаги эскалации выполнятся начиная с момента завершения обслуживания.
Проблема началась в процесса обслуживания без сбора данных и продолжается (не исправлена) после окончания обслуживания Действие должно дождаться пока триггер не перейдет в состояние проблема, до выполнения всех шагов эскалации.
Разные эскалации следуют в тесном порядке и перекрываются Выполнение каждой новой эскалации заменяет предыдущую эскалацию, но как минимум один шаг эскалации обязательно выполняется из предыдущей эскалации. Такое поведение тесно связано с действиями на события, которые создаются на КАЖДОЕ вычисление проблемы триггера.
Действие деактивировано в процессе исполнения эскалации (таком как, выполняется отправка сообщения) Сообщение в процессе отправки будет отправлено, затем другие сообщения по этой эскалации не будут отправляться. Последующие сообщения будет иметь следующий текст в начале тела сообщения: Возьмите на заметку: Эскалация отменена: действие '<Имя действия>' деактивировано. Таким образом получатель будет проинформрован о том, что эскалация отменена и дальнейшие шаги не будут выполнены. Это сообщение отправляется адресатам указанным в текущем шаге эскалации.

Примеры эскалаций

Пример 1

Отправка повторяющихся оповещений каждые 30 минут (в общей сложности 5 раз) группе 'MySQL администраторы'. Для настройки:

  • Задайте Период эскалации по умолчанию равным '1800' секундам (30 минут) в общих атрибутах действия
  • На вкладке Операции, укажите шаги эскалаций С '1' До '5'
  • Выберите группу 'MySQL администраторы' получателями сообщения

Оповещения будут отправлены в 0:00, 0:30, 1:00, 1:30, 2:00 часов после начала проблемы (если, конечно, проблема не будет решена раньше).

Если проблема решена и сообщение о восстановлении настроено, оно будет отправлено всем тем, кто получил хотя бы одно сообщение в этом сценарии эскалаций.

Если триггер, который вызвал активную эскалацию был деактивирован, Zabbix отправит информационное сообщение об этом всем, кто уже получил оповещения.

Пример 2

Отправка оповещения с задержкой о давней проблеме. Для настройки:

  • Задайте Период эскалации по умолчанию равным '36000' секунд (10 часов) в общих атрибутах действия
  • На вкладке Операции, укажите шаги эскалации С '2' До '2'

Оповещение будет отправлено только на Шаге 2 сценария эскалации, или через 10 часов после начала проблемы.

Вы можете изменить текст сообщения на что-то вроде 'Проблема не решена более чем 10 часов'.

Пример 3

Эскалирование проблемы Руководству.

В первом примере мы настраивали периодическую отправку сообщений Администраторам MySQL. В этом случае, администраторы получат четыре сообщения до того, как проблема будет эскалирована Менеджеру баз данных. Обратите внимание, что менеджер получит сообщение только в случае если проблема еще не подтверждена, предположительно, никто не работает над ней.

Обратите внимание на использование макроса {ESC.HISTORY} в сообщении. Этот макрос будет содержать информацию обо всех ранее выполненных шагах этой эскалации, таких как отправленные оповещения и выполненные команды.

Пример 4

Более сложный сценарий. После нескольких сообщений Администраторам MySQL и эскалации менеджеру, Zabbix попытается перезапустить базу данных MySQL. Это произойдет, если проблема присутствует через 2:30 часов и еще не была подтверждена.

Если проблема все еще существует, спустя еще 30 минут Zabbix отправит сообщение всем гостевым пользователям.

Если и это не поможет, спустя еще час Zabbix перезагрузит сервер с этой базой данных MySQL (вторая удаленная команда), используя IPMI команды.

Пример 5

Эскалация с несколькими операциями назначенными на один шаг и с использованием пользовательских интервалов. Период эскалации по умолчанию равен 30 минутам.

Оповещения будут отправлены в следующем порядке:

  • MySQL администраторам в 0:00, 0:30, 1:00, 1:30 после начала проблемы
  • Менеджеру баз данных в 2:00 и 2:10 (в этом случае более короткая пользовательская длительность менее 600 секунд перекрывает длительную пользовательскую длительность равную 3600 секундам)
  • Zabbix администраторам в 2:00, 2:10, 2:20, 2:30 после начала проблемы (задана пользовательская длительность шага равная 600 секундам)
  • Гостевые пользователи в 4:00 часа после начала проблемы (интервал по умолчанию равный 30 минутам возвращается между шагами 8 и 11)