Plusieurs paramètres de configuration définissent le comportement du serveur Zabbix lorsqu'une vérification d'agent (Zabbix, SNMP, IPMI, JMX) échoue et qu'une interface hôte devient inaccessible.
Une interface hôte est traitée comme inaccessible après un échec de vérification (erreur réseau, timeout) par les agents Zabbix, SNMP, IPMI ou JMX. Notez que les vérifications actives de l'agent Zabbix n'influencent d'aucune façon la disponibilité de l'interface.
À partir de ce moment, UnreachableDelay définit la fréquence à laquelle une interface est revérifiée à l'aide de l'un des éléments (y compris les règles LLD) dans cette situation d'inaccessibilité et ces revérifications seront déjà effectuées par les pollers d'inaccessibilité (ou des pollers IPMI pour les vérifications IPMI). Par défaut, 15 secondes avant le prochain contrôle.
Dans le journal du serveur Zabbix, l'inaccessibilité est indiquée par des messages comme ceux-ci :
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
Notez que l'élément exact qui a échoué est indiqué ainsi que le type d'élément (agent Zabbix).
Le paramètre Timeout affectera également la rapidité avec laquelle une interface est revérifiée pendant l'inaccessibilité. Si le Timeout est de 20 secondes et UnreachableDelay de 30 secondes, la prochaine vérification aura lieu 50 secondes après la première tentative.
Le paramètre UnreachablePeriod définit la durée totale de la période d'inaccessibilité. Par défaut, UnreachablePeriod est de 45 secondes. UnreachablePeriod doit être plusieurs fois supérieur à UnreachableDelay, afin qu'une interface soit revérifiée plusieurs fois avant qu'une interface ne devienne indisponible.
Lorsque la période d'inaccessibilité est terminée, l'interface est à nouveau interrogée, priorité décroissante pour l'élément qui a rendu l'interface en état inaccessible. Si l'interface inaccessible réapparaît, la surveillance revient à la normale automatiquement :
Une fois l'interface disponible, l'hôte n'interroge pas tous ses éléments immédiatement pour deux raisons :
Ainsi, une fois l'interface disponible, les éléments ne sont pas interrogés immédiatement, mais ils sont reportés à leur prochaine planification.
Après la fin de UnreachablePeriod et que l'interface n'ait pas réapparu, l'interface est considérée comme indisponible.
Dans le journal du serveur, cela est indiqué par des messages comme ceux-ci :
et sur l'interface Web l'icône de disponibilité de l'hôte passe du vert/gris au jaune/rouge (les détails de l'interface inaccessible peuvent être vus dans la boîte qui est affichée lorsque la souris est positionnée sur l'icône de disponibilité de l'hôte) :
Le paramètre UnavailableDelay définit la fréquence à laquelle une interface est vérifiée pendant l'indisponibilité de l'interface.
Par défaut, il est initialisé de 60 secondes (donc dans le cas "désactivation temporaire", le message de journal ci-dessus, signifiera la désactivation des vérifications pendant une minute).
Lorsque la connexion à l'interface est rétablie, la surveillance revient aussi à la normale automatiquement :