11 不可达/不可用主机接口设置

概述

当 Agent 检查(Zabbix、 SNMP、IPMI、JMX)失败并且主机变得不可达时,一些配置 参数 定义了 Zabbix 作何反应。

不可达主机接口

Zabbix、SNMP、IPMI 或 JMX Agent 检查失败(网络错误、超时)后,主机接口将被视为无法访问。请注意,Zabbix agent 主动检查不会以任何方式影响接口可用性。

UnreachableDelay 那一刻起定义了在这种无法访问的情况下使用其中一项(包括 LLD 规则)重新检查接口的频率,并且此类重新检查将由无法访问轮询器(或用于 IPMI 检查的 IPMI 轮询器)执行。默认情况下,下次15 秒后再次检查。

异步轮询器执行的检查不会移至无法访问的轮询器。

在 Zabbix server 日志中,不可达性会出现以下消息:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

请注意,会指示失败的确切监控项以及监控项类型(Zabbix agent)。

在主机不可达期间, Timeout 参数也会影响主机再次被检查的时间。如果 Timeout 是20秒,但 UnreachableDelay 是30秒,下一次检查在50秒后。

UnreachablePeriod 参数定义了不可达的总时长, UnreachablePeriod 默认是45秒。 UnreachablePeriod 应该比 UnreachableDelay 大几倍,这样在主机变为不可用之前,主机会被检查不止一次。

将主机接口状态切换回可用

当不可达时期结束时,再次轮询接口,降低导致主机接口无法访问的监控项的优先级状态。如果不可达接口再次出现,则监控自动恢复正常:

resuming Zabbix agent checks on host "New host": connection restored

一旦接口可用,主机不会立即轮询所有监控项,有两个原因: - 它可能会使主机过载。 - 主机接口恢复时间并不总是与监控项计划轮询时间匹配。

因此,在主机接口可用后,监控项不会立即被轮询,但他们将被重新安排到下一次轮询。

不可用主机接口

主机不可达期间结束后,主机接口没有再次出现,视主机接口为不可用。

在 server 日志中,不可用会出现以下消息:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

前端 主机可用性图标由绿色/灰色变为黄色/红色(将鼠标置于主机可用性图标上时,在提示框中显示主机不可访问接口详细信息):

UnavailableDelay 参数定义了在主机不可用期间,主机被检查的频率。

默认为 60 秒(所以此时从上面的日志信息来看,"temporarily disabling" 意味着禁用检查一分钟)。

当主机连接恢复时,监控也会自动恢复正常:

enabling Zabbix agent checks on host "New host": interface became available