12 Nieosiągalne/niedostępne ustawienia interfejsu hosta

Przegląd

Kilka parametrów konfiguracji określa, jak serwer Zabbix powinien się zachować, gdy nie powiedzie się sprawdzenie agenta (Zabbix, SNMP, IPMI, JMX), a interfejs hosta staje się niedostępny.

Nieosiągalny interfejs

Interfejs hosta jest traktowany jako nieosiągalny po nieudanym sprawdzeniu (błąd sieciowy, timeout) przez agentów Zabbix, SNMP, IPMI lub JMX. Należy zauważyć, że aktywne sprawdzenia agenta Zabbix nie wpływają w żaden sposób na dostępność interfejsu.

Od tego momentu UnreachableDelay określa, jak często interfejs jest ponownie sprawdzany za pomocą jednej z pozycji (w tym reguł LLD) w sytuacji nieosiągalności, a takie ponowne sprawdzenia będą wykonywane już przez pollery nieosiągalne (lub pollery IPMI dla sprawdzeń IPMI). Domyślnie wynosi to 15 sekund przed następnym sprawdzeniem.

W logu serwera Zabbix nieosiągalność jest sygnalizowana przez wiadomości takie jak te:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Należy zauważyć, że dokładnie wskazana jest pozycja, która nie powiodła się oraz jej typ (agent Zabbix).

Parametr Timeout również wpływa na to, jak szybko interfejs jest ponownie sprawdzany podczas nieosiągalności. Jeśli Timeout wynosi 20 sekund, a UnreachableDelay 30 sekund, następne sprawdzenie odbędzie się po 50 sekundach od pierwszej próby.

Parametr UnreachablePeriod określa, jak długo trwa w sumie okres nieosiągalności. Domyślnie UnreachablePeriod wynosi 45 sekund. UnreachablePeriod powinien być kilkukrotnie większy niż UnreachableDelay, aby interfejs był sprawdzany więcej niż raz przed uznaniem go za niedostępny.

Przełączanie interfejsu z powrotem na dostępny

Po zakończeniu okresu nieosiągalności, interfejs jest ponownie sprawdzany, zmniejszając priorytet pozycji, która spowodowała uznanie interfejsu za nieosiągalny. Jeśli nieosiągalny interfejs ponownie się pojawi, monitoring automatycznie wraca do normalnego stanu:

resuming Zabbix agent checks on host "New host": connection restored

Gdy interfejs staje się dostępny, host nie sprawdza wszystkich swoich pozycji natychmiast z dwóch powodów:

  • Może to przeciążyć hosta.
  • Czas przywrócenia interfejsu nie zawsze pokrywa się z planowanym czasem rozkładu sprawdzania pozycji.

Dlatego po przywróceniu dostępności interfejsu, pozycje nie są sprawdzane natychmiast, ale są planowane do następnej rundy sprawdzania.

Niedostępny interfejs

Po zakończeniu okresu UnreachablePeriod i braku pojawienia się interfejsu, interfejs jest traktowany jako niedostępny.

W logu serwera jest to sygnalizowane przez wiadomości takie jak:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

a w frontendzie ikona dostępności hosta zmienia kolor z zielonego/szarego na żółty/czerwony (szczegóły dotyczące nieosiągalnego interfejsu można zobaczyć w podpowiedzi, która jest wyświetlana po najechaniu myszką na ikonę dostępności hosta):

Parametr UnavailableDelay określa, jak często interfejs jest sprawdzany podczas jego niedostępności.

Domyślnie wynosi on 60 sekund (więc w tym przypadku "tymczasowe wyłączenie", z wiadomości powyżej, oznacza wyłączenie sprawdzeń na jedną minutę).

Gdy połączenie z interfejsem zostaje przywrócone, również monitorowanie automatycznie wraca do normalnego stanu:

enabling Zabbix agent checks on host "New host": interface became available