Esta es una traducción de la página de documentación original en español. Ayúdanos a mejorarla.

#4 Comprobaciones de IPMI

Descripción general

Puede monitorear el estado y la disponibilidad de Intelligent Platform Dispositivos de interfaz de gestión (IPMI) en Zabbix. Para realizar comprobaciones de IPMI El servidor Zabbix debe estar inicialmente configurado con Soporte IPMI.

IPMI es una interfaz estandarizada para "apagado de luces" remoto o Gestión "fuera de banda" de sistemas informáticos. Permite monitorear estado del hardware directamente desde la llamada gestión "fuera de banda" tarjetas, independientemente del sistema operativo o de si la máquina está encendido en absoluto.

La monitorización IPMI de Zabbix funciona solo para dispositivos compatibles con IPMI (HP iLO, DELL DRAC, IBM RSA, Sun SSP, etc.).

Un proceso de administrador de IPMI programa las comprobaciones de IPMI por parte de los encuestadores de IPMI. Un host siempre es sondeado por un solo sondeador IPMI a la vez, reducir el número de conexiones abiertas a BMC controladores. Por lo tanto, es seguro aumentar el número de IPMI. encuestadores sin preocuparse por la sobrecarga del controlador BMC. El IPMI El proceso de administrador se inicia automáticamente cuando al menos un encuestador IPMI Está empezado.

Consulte también problemas conocidos para verificaciones de IPMI.

Configuración

Configuración del host

Se debe configurar un host para procesar comprobaciones de IPMI. Una interfaz IPMI debe agregarse, con los respectivos números de IP y puerto, e IPMI se deben definir los parámetros de autenticación.

Consulte la configuración de hosts para obtener más información. detalles.

Configuración del servidor

De forma predeterminada, el servidor Zabbix no está configurado para iniciar ninguna IPMI sondeadores, por lo que cualquier elemento IPMI agregado no funcionará. Para cambiar esto, abra el Archivo de configuración del servidor Zabbix (zabbix_server.conf) como raíz y busca la siguiente línea:

# InicioIPMIPollers=0

Descoméntalo y establece el conteo de sondeadores en, digamos, 3, para que diga:

InicioIPMIPollers=3

Guarde el archivo y luego reinicie zabbix_server.

Configuración del elemento

Al configurar un elemento en un nivel de host:

  • Seleccione 'Agente de IPMI' como Tipo
  • Ingrese un elemento clave que sea único dentro del host (digamos, ipmi.fan.rpm)
  • Para Interfaz de host, seleccione la interfaz IPMI relevante (IP y Puerto). Tenga en cuenta que debe existir una interfaz IPMI en el host.
  • Especifique el sensor IPMI (por ejemplo, 'FAN MOD 1A RPM' en Dell Poweredge) para recuperar la métrica. Por defecto, la identificación del sensor debe especificarse. También es posible utilizar prefijos antes del valor:
    • id: - para especificar el ID del sensor;
    • name: - para especificar el nombre completo del sensor. Esto puede ser útil en situaciones en las que los sensores solo se pueden distinguir especificando el nombre completo.
  • Seleccione el tipo de información respectivo ('Numérico (flotante)' en este caso; para sensores discretos - 'Numérico (sin signo)'), unidades (la mayoría probablemente 'rpm') y cualquier otro atributo de artículo requerido
Comprobaciones soportadas

El agente IPMI admite la métrica integrada ipmi.get, que devuelve información relacionada con el sensor IPMI y se puede utilizar para el descubrimiento de sensores IPMI.
Valor de retorno: objeto JSON

Tiempo de espera y terminación de la sesión

Los tiempos de espera de los mensajes de IPMI y los recuentos de reintentos se definen en la biblioteca OpenIPMI. Debido al diseño actual de OpenIPMI, no es posible realizar estos valores configurables en Zabbix, ni a nivel de interfaz ni de elemento.

El tiempo de espera de inactividad de la sesión de IPMI para LAN es de 60 +/-3 segundos. Actualmente no es posible implementar el envío periódico de Activate Session comando con OpenIPMI. Si no hay comprobaciones de elementos IPMI de Zabbix a un BMC en particular por más del tiempo de espera de la sesión configurado en BMC y luego la siguiente comprobación de IPMI después de que expire el tiempo de espera se agotará debido a tiempos de espera de mensajes individuales, reintentos o errores de recepción. Después de eso, un nuevo se abre la sesión y se inicia una nueva exploración completa del BMC. Si tu quieres Para evitar escaneos innecesarios del BMC, se recomienda configurar el IPMI intervalo de sondeo de elementos por debajo del tiempo de espera de inactividad de la sesión de IPMI configurado en BMC.

Notas sobre sensores discretos IPMI

Para encontrar sensores en un host, inicie el servidor Zabbix con DebugLevel=4 activado. Espere unos minutos y busque registros de descubrimiento de sensores en Zabbix archivo de registro del servidor:

$ grep 'Sensor agregado' zabbix_server.log
       8358:20130318:111122.170 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:7 id:'CATERR' tipo_lectura:0x3 ('estado_discreto') tipo:0x7 ('procesador') nombre_completo:'(r0. 32.3.0).CATERR'
       8358:20130318:111122.170 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'CPU Therm Trip' tipo de lectura:0x3 ('estado_discreto') tipo:0x1 ('temperatura') nombre_completo:'( 7.1).Disparo térmico de la CPU'
       8358:20130318:111122.171 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Registro de eventos del sistema' tipo de lectura:0x6f ('específico del sensor') tipo:0x10 ('event_logging_disabled') nombre_completo:' (7.1).Registro de eventos del sistema'
       8358:20130318:111122.171 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'PhysicalSecurity' tipo de lectura:0x6f ('específico del sensor') tipo:0x5 ('seguridad_física') nombre_completo:'(23.1 ).Seguridad física'
       8358:20130318:111122.171 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'IPMI Watchdog' tipo de lectura:0x6f ('sensor específico') tipo:0x23 ('watchdog_2') nombre_completo:'( 7.7).Perro guardián de IPMI'
       8358:20130318:111122.171 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'Estadísticas de la unidad de energía' tipo de lectura:0x6f ('específico del sensor') tipo:0x9 ('unidad_de_potencia') nombre_completo:' (21.1).Estadísticas de la unidad de potencia
       8358:20130318:111122.171 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Ctrl %' tipo_lectura:0x1 ('umbral') tipo:0x1 ('temperatura') nombre_completo:' (3.1).P1 Ctrl Térmico %'
       8358:20130318:111122.172 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Margin' tipo de lectura:0x1 ('umbral') tipo:0x1 ('temperatura') nombre_completo:'( 3.2).Margen térmico P1
       8358:20130318:111122.172 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 2' tipo de lectura:0x1 ('umbral') tipo:0x4 ('ventilador') nombre_completo:'( 29.1).Ventilador del sistema 2'
       8358:20130318:111122.172 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 3' tipo de lectura:0x1 ('umbral') tipo:0x4 ('ventilador') nombre_completo:'( 29.1).Ventilador del sistema 3'
       8358:20130318:111122.172 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'P1 Mem Margin' tipo de lectura:0x1 ('umbral') tipo:0x1 ('temperatura') nombre_completo:'( 7.6).Margen de memoria P1
       8358:20130318:111122.172 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Temperatura del panel frontal' tipo de lectura:0x1 ('umbral') tipo:0x1 ('temperatura') nombre_completo:'( 7.6).Temperatura del panel frontal'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'Temperatura de la placa base' tipo de lectura:0x1 ('umbral') tipo:0x1 ('temperatura') nombre_completo:'(7.6 ).Temperatura del zócalo'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:9 id:'BB +5.0V' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo:' (7.1).BB +5.0V'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:14 id:'BB +3.3V STBY' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo: '(7.1).BB +3.3V EN ESPERA'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:9 id:'BB +3.3V' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo:' (7.1).BB +3.3V'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:17 id:'BB +1.5V P1 DDR3' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo :'(7.1).BB +1.5V P1 DDR3'
       8358:20130318:111122.173 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:17 id:'BB +1.1V P1 Vccp' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo :'(7.1).BB +1.1V P1 Vccp'
       8358:20130318:111122.174 Sensor agregado: host:'192.168.1.12:623' tipo_id:0 id_sz:14 id:'BB +1.05V PCH' tipo_lectura:0x1 ('umbral') tipo:0x2 ('voltaje') nombre_completo: '(7.1).BB +1.05V PCH'

Para decodificar los tipos y estados de los sensores IPMI, se necesita una copia de Especificaciones de IPMI 2.0 está disponible (tenga en cuenta que no hay más actualizaciones según la especificación IPMI).

El primer parámetro para comenzar es "reading_type". Utilice la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" de las especificaciones para decodificar Código "lectura_tipo". La mayoría de los sensores en nuestro ejemplo tienen "reading_type:0x1" que significa sensor de "umbral". "Tabla 42-3, Sensores Códigos de tipo" muestra que "tipo:0x1" significa sensor de temperatura, "tipo:0x2" - sensor de voltaje, "tipo:0x4" - Ventilador, etc. Los sensores de umbral a veces son llamados sensores "analógicos" ya que miden parámetros continuos como temperatura, voltaje, revoluciones por minuto.

Otro ejemplo: un sensor con "lectura_tipo:0x3". "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" dice que los códigos de tipo de lectura 02h-0Ch significa sensor "discreto genérico". Los sensores discretos tienen hasta 15 posibles estados (en otras palabras, hasta 15 bits significativos). Por ejemplo, para sensor 'CATERR' con "tipo:0x7" la "Tabla 42-3, Códigos de tipo de sensor" muestra que este tipo significa "Procesador" y el significado de individuo bits es: 00h (el bit menos significativo) - IERR, 01h - Disparo térmico, etc.

Hay pocos sensores con "reading_type:0x6f" en nuestro ejemplo. Para estos sensores, la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" recomienda utilizar la "Tabla 42-3, Códigos de tipo de sensor" para decodificar el significado de los bits. Por ejemplo, el sensor 'Power Unit Stat' tiene el tipo "tipo:0x9", lo que significa "Unidad de poder". Offset 00h significa "Apagado/Apagado". En otras palabras si el bit menos significativo es 1, entonces el servidor se apaga. para probar esto bit, el bity función con Se puede utilizar la máscara '1'. La expresión desencadenante podría ser como

bitand(last(/www.example.com/Power Unit Stat,#1),1)=1

para advertir sobre el apagado del servidor.

Notas sobre nombres de sensores discretos en OpenIPMI-2.0.16, 2.0.17, 2.0.18 y 2.0.19

Nombres de sensores discretos en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 a menudo tener un "0" adicional (o algún otro dígito o letra) adjunto al final. Por ejemplo, mientras ipmitool y OpenIPMI-2.0.19 muestran el sensor nombres como "PhysicalSecurity" o "CATERR", en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 los nombres son "PhysicalSecurity0" o "CATERR0", respectivamente.

Al configurar un elemento de IPMI con el servidor Zabbix usando OpenIPMI-2.0.16, 2.0.17 y 2.0.18, use estos nombres que terminen en "0" en el sensor IPMI campo de elementos de agente de IPMI. Cuando su servidor Zabbix se actualiza a un nuevo Distribución de Linux, que utiliza OpenIPMI-2.0.19 (o posterior), elementos con estos sensores discretos de IPMI pasarán a ser "NO COMPATIBLES". Tienes que cambie sus nombres de sensor IPMI (elimine el '0' al final) y espere durante algún tiempo antes de que vuelvan a estar "Habilitados".

Notas sobre la disponibilidad simultánea de umbral y sensor discreto

Algunos agentes IPMI proporcionan tanto un sensor de umbral como un sensor discreto. bajo el mismo nombre. Siempre se da preferencia al sensor de umbral.

Notas sobre la terminación de la conexión

Si no se realizan comprobaciones de IPMI (por cualquier motivo: todos los elementos de IPMI del host deshabilitado/no compatible, host deshabilitado/eliminado, host en mantenimiento, etc.) la conexión IPMI terminará desde el servidor Zabbix o proxy en 3 a 4 horas dependiendo de la hora en que se inició el servidor/proxy Zabbix.