Vários parâmetros de configuração definem como o servidor Zabbix deve se comportar quando uma verificação de agente (Zabbix, SNMP, IPMI, JMX) falhar e um host tornar-se inacessível.
Um host é tratado como inacessível após uma verificação de agente falhar (erro de rede, timeout).
A partir desse momento o parâmetro UnreachableDelay define a frequência de novas verfificações nesta situação de inacessibilidade e tais verificações serão já feitas por unreachable pollers. O padrão é de 15 segundos antes da próxima verificação.
No log do servidor Zabbix a inacessibilidade é indicada por mensagens como as seguintes:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
Note-se que o item exato que falhou é indicado, assim como o tipo de item (agente Zabbix).
O parâmetro // Timeout // também afetará o quão cedo um item será verificado novamente durante o período de inacessibilidade. Se o tempo de espera é de 20 segundos e UnreachableDelay 30 segundos, a próxima verificação será em 50 segundos após a primeira tentativa.
O parâmetro UnreachablePeriod define quanto tempo o período de inalcançabilidade será no total. Por padrão o UnreachablePeriod é de 45 segundos. O UnreachablePeriod deve ser várias vezes maior do que UnreachableDelay, para que os itens sejam verificados novamente mais de uma vez antes de um host tornar-se indisponível.
Se o host inacessível reaparecer, o monitoramento retornará ao normal automaticamente:
Após a UnreachablePeriod termina e o host não aparecer, o host é tratado como indisponíveis.
No log do servidor isso é indicado por mensagens como estas:
e no frontend o ícone de disponibilidade do host passa de verde para vermelho (note que, ao passar o mouse por cima, uma dica com a descrição de erro é exibido):
O parâmetro UnavailableDelay define a frequência com que itens são verificados durante a indisponibilidade do host.
Por padrão, ele é de 60 segundos (por isso, neste caso, "desativando temporariamente",na mensagem acima, vai significar verificações desabilitadas por um minuto).
Quando a conexão com o host é restaurada, o monitoramento retorna ao normal automaticamente, também: