此章节展示了监控Zabbix高可用集群作为服务的一个简单配置示例。
在配置服务监控前,需要先配置对应的主机:
component:HA node 1
component:HA node 2
下一步是建立服务树。在此示例中,只包含基础的设置以及三个服务: Zabbix cluster (父) 和两个子服务 Zabbix server node 1 和Zabbix server node 2.
在服务页面,打开 编辑 模式并点击创建服务:
在服务配置窗口中,输入名称Zabbix cluster 并选取检查框高级配置。
配置额外规则:
Zabbix集群需要两个子服务 - 用于各自的HA节点。如果两个HA节点均产生至少为警告 级别的告警信息,父服务的状态将设置为灾难。要实现上述需求,需要配置如下的额外规则:
N
个子服务有状态
状态或以上切换到标签 界面并添加标签 Zabbix:server
。此标签后续会用于服务动作和SLA报告。
保存新建的服务。
点击Zabbix集群服务旁边的加号图标(只有编辑模式才能看到加号图标)来创建子服务。
在服务配置窗口输入名称Zabbix server node 1。注意,父服务的参数已经用Zabbix集群预先填充了。
该服务的可用性受主机HA node 1产生的问题所影响,通过component:HA node 1
问题标签所标记。在问题标签参数中输入:
切换到 标签 面板并添加服务标签:Zabbix server:node 1
。此标签会用于后续的服务动作和SLA报告。
保存新建的服务。
创建另一个子服务 "Zabbix server node 2".
设置问题标签:
切换到标签 面板并添加服务标签:Zabbix server:node 2
。
保存新建的服务。
在此示例中,预期的Zabbix集群性能是100%,排除了每半年一次的一小时维护时间。
首先需要添加一个服务级别协议。
转到 服务->SLA 菜单点击创建SLA。输入名称 Zabbix集群性能 并 设置SLO为100%。
Zabbix集群有 Zabbix:server
标签。要使用该SLA来测量Zabbix集群的性能,需要在服务标签的参数中指定:
在实际设置中,还可以更新所需的报告周期、时区和开始日期,或把时间表从24/7改为自定义。就这个例子来说,默认设置就够了。
切换到例外停机时间 面板并添加用于例行维护的停机时间,这样SLA就不会将这些时间段计算在内了。在例外停机时间面板总点击添加(Add)链接,输入停机时间名称、计划开始时间和持续时长。
点击添加(Add)来保存新建的SLA。
切换到SLA报告界面查看关于Zabbix集群的SLA报告。
还可以在服务 界面下查看SLA信息。