Avec les escalades, vous pouvez créer des scénarios personnalisés pour envoyer des notifications ou exécuter des commandes à distance.
Concrètement cela signifie que :
Les actions sont escaladées en fonction de l'étape d'escalade. Chaque étape a une durée dans le temps.
Vous pouvez définir à la fois la durée par défaut et une durée personnalisée d'une étape individuelle. La durée minimale d'une étape d'escalade est de 60 secondes.
Vous pouvez démarrer des actions, telles que l'envoi de notifications ou l'exécution de commandes, à partir de n'importe quelle étape. La première étape concerne les actions immédiates. Si vous souhaitez retarder une action, vous pouvez l'affecter à une étape ultérieure. Pour chaque étape, plusieurs actions peuvent être définies.
Le nombre d'étapes d'escalade n'est pas limité.
Les escalades sont définies lors de la configuration d'une opération. Les escalades sont prises en charge uniquement pour les opérations problématiques, pas pour la récupération.
Considérons ce qui se passe dans différentes circonstances si une action contient plusieurs étapes d'escalade.
Situation | Comportement |
---|---|
L'hôte en question passe en maintenance après l'envoi de la notification de problème initiale | Selon le paramètre Suspendre les opérations pour les problèmes supprimés dans la configuration de l'action, tout les étapes d'escalade restantes sont exécutées soit avec un retard causé par la période de maintenance, soit sans retard. Une période de maintenance n'annule pas les opérations. |
La période de temps définie dans la condition d'action Période de temps se termine après l'envoi de la notification initiale | Toutes les étapes d'escalade restantes sont exécutées. La condition Période ne peut pas arrêter les opérations ; il a un effet sur le moment où les actions sont démarrées/non démarrées, pas sur les opérations. |
Un problème commence pendant la maintenance et continue (n'est pas résolu) après la fin de la maintenance | Selon le paramètre Suspendre les opérations pour les problèmes supprimés dans la configuration de l'action, toutes les étapes d'escalade sont exécutées dès la fin de la maintenance ou immédiatement. |
Un problème commence pendant une maintenance sans donnée et continue (n'est pas résolu) après la fin de la maintenance | Il doit attendre que le déclencheur se déclenche, avant que toutes les étapes d'escalade ne soient exécutées. |
Différentes escalades se succèdent et se chevauchent | L'exécution de chaque nouvelle escalade remplace l'escalade précédente, mais pour au moins une étape d'escalade qui est toujours exécutée sur l'escalade précédente. Ce comportement est pertinent dans les actions sur les événements qui sont créés avec CHAQUE évaluation de problème du déclencheur. |
Lors d'une escalade en cours (comme l'envoi d'un message), en fonction de tout type d'événement : - l'action est désactivée En fonction de l'événement déclencheur : - le déclencheur est désactivé - l'hôte ou l'élément est désactivé Selon un événement interne concernant les déclencheurs : - le déclencheur est désactivé Selon un événement interne concernant les éléments/règles de découverte de bas niveau : - l'élément est désactivé<br >- l'hébergeur est désactivé |
Le message en cours est envoyé puis un autre message sur l'escalade est envoyé. Le message de suivi contiendra le texte d'annulation au début du corps du message (NOTE: Escalation canceled) indiquant la raison (par exemple, **NOTE: Escalation canceled: action '<Action name>' disabled). De cette façon, le destinataire est informé que l'escalade est annulée et qu'aucune autre étape ne sera exécutée. Ce message est envoyé à tous ceux qui ont reçu les notifications auparavant. La raison de l'annulation est également consignée dans le fichier journal du serveur (à partir du Niveau de débogage 3=Avertissement). Notez que le message Escalation canceled* est également envoyé si les opérations sont terminées, mais les opérations de récupération sont configurées et ne sont pas encore exécutées. |
Lors d'une escalade en cours (comme l'envoi d'un message) l'action est supprimée | Plus aucun message n'est envoyé. Les informations sont consignées dans le fichier journal du serveur (à partir du Niveau de débogage 3=Avertissement), par exemple : escalation canceled: action id:334 deleted |
Envoi d'une notification répétée une fois toutes les 30 minutes (5 fois au total) à un groupe 'MySQL Administrators'. Pour le configurer :
Les notifications seront envoyées 0:00, 0:30, 1:00, 1:30, 2:00 heures après le début du problème (à moins, bien sûr, que le problème ne soit résolu plus tôt).
Si le problème est résolu et qu'un message de récupération est configuré, il sera envoyé à ceux qui ont reçu au moins un message de problème dans ce scénario d'escalade.
Si le déclencheur qui a généré une escalade active est désactivé, Zabbix envoie un message informatif à ce sujet à tous ceux qui ont déjà reçu des notifications.
Envoi d'une notification différée concernant un problème de longue date. Configurer :
Une notification ne sera envoyée qu'à l'étape 2 du scénario d'escalade, ou 10 heures après le début du problème.
Vous pouvez personnaliser le texte du message avec quelque chose comme "Le problème date de plus de 10 heures".
Faire remonter le problème au Boss.
Dans le premier exemple ci-dessus, nous avons configuré l'envoi périodique de messages aux administrateurs MySQL. Dans ce cas, les administrateurs recevront quatre messages avant que le problème ne soit transmis au gestionnaire de base de données. Notez que le responsable ne recevra un message que si le problème n'est pas encore acquitté, c'est-à-dire que personne n'y travaille.
Détails de l'opération 2 :
Notez l'utilisation de la macro {ESC.HISTORY} dans le message personnalisé. La macro contiendra des informations sur toutes les étapes précédemment exécutées sur cette escalade, telles que les notifications envoyées et les commandes exécutées.
Un scénario plus complexe. Après plusieurs messages aux administrateurs MySQL et une escalade vers le responsable, Zabbix essaiera de redémarrer la base de données MySQL. Cela se produira si le problème existe depuis 2h30 et qu'il n'a pas été acquitté.
Si le problème persiste, après 30 minutes supplémentaires, Zabbix enverra un message à tous les utilisateurs invités.
Si cela ne résout pas le problème, après une heure supplémentaire, Zabbix redémarrera le serveur avec la base de données MySQL (deuxième commande à distance) à l'aide des commandes IPMI.
Une escalade avec plusieurs opérations affectées à une étape et des intervalles personnalisés utilisés. La durée de l'étape de fonctionnement par défaut est de 30 minutes.
Les notifications seront envoyées comme suit :