12 不可达/不可用主机设置

概述

当agent检查(Zabbix, SNMP, IPMI, JMX)失败并且主机变得不可达时,一些配置 参数 定义了 Zabbix server 作何反应。

不可达主机接口

主机接口在检查失败后被视为不可访问(网络 错误,超时)由 Zabbix、SNMP、IPMI 或 JMX agent。请注意,Zabbix agent主动检查不会以任何方式影响接口可用性。

UnreachableDelay 那一刻起定义了在这种无法访问的情况下使用其中一项(包括 LLD 规则)重新检查接口的频率,并且此类重新检查将由无法访问的轮询器(或用于 IPMI 检查的 IPMI 轮询器)执行。默认情况下,下次15 秒后再次检查。

在 Zabbix 服务器日志中,不可达性由以下消息指示这些:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

请注意,指示失败的确切监控项和监控项类型 (Zabbix agent)。

在主机不可达期间,Timeout 参数也会影响主机再次被检查的时间。如果Timeout 是 20 秒,但是 UnreachableDelay 是 30 秒, 下一次检查在 50 秒后 。

UnreachablePeriod参数定义了不可达的总时长。 UnreachablePeriod 应该比 UnreachableDelay大几倍, 这样在主机变为不可用之前,主机会被检查不止一次。

如果不可达主机再次出现,监控自动恢复正常:

恢复 Zabbix agent 对主机 "New host"的检查: 连接恢复

将主机接口状态切换回可用

当不可达期结束时,再次轮询接口, 降低使主机接口状态无法访问的监控项的优先级 状态。如果不可达接口再次出现,则监控自动恢复正常:

resuming Zabbix agent checks on host "New host": connection restored

一旦接口可用,主机不会立即轮询所有监控项有两个原因:

  • 它可能会使主机过载。
  • 主机接口恢复时间并不总是与监控项计划轮询时间匹配。

因此,在主机接口可用后,监控项不会立即被轮询,但他们将被重新安排到下一次轮询。

不可用主机状态

主机不可达期结束后主机没有再次出现, 视主机为不可用。

在server 日志中,不可用是通过类似下面的消息来表示的:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

前端 主机可用性图标由绿色(或灰色)变为红色(注意,在鼠标经过时会提示错误描述):

UnavailableDelay 参数定义了在主机不可用期间,主机被检查的频率。

默认为 60 秒 (所以此时从上面的日志信息来看, "temporarily disabling"意味着禁用检查一分钟)。

当主机连接恢复时,监控也会自动恢复正常:

enabling Zabbix agent checks on host "New host": interface became available