This is a translation of the original English documentation page. Help us make it better.

4 IPMI ellenőrzés

Áttekintés

Figyelemmel kísérheti az Intelligens Platform állapotát és elérhetőségét Management Interface (IPMI) eszközök a Zabbixban. IPMI-ellenőrzések elvégzéséhez A Zabbix szervernek kezdetben kell lennie configured ezzel IPMI támogatás.

Az IPMI egy szabványosított interfész a távoli "világítás ki" ill Számítógépes rendszerek "sávon kívüli" kezelése. Lehetővé teszi a megfigyelést hardver állapotát közvetlenül az úgynevezett "sávon kívüli" menedzsmenttől kártyák, függetlenül az operációs rendszertől vagy attól, hogy a gép az egyáltalán be van kapcsolva.

A Zabbix IPMI felügyelet csak az IPMI-támogatással rendelkező eszközökön működik (HP iLO, DELL DRAC, IBM RSA, Sun SSP stb.).

A Zabbix 3.4 óta egy új IPMI-kezelő folyamat került az ütemezésbe IPMI-ellenőrzések IPMI-lekérdezők által. Most egy házigazdát mindig csak egy szavaz meg IPMI poller egyszerre, csökkentve a BMC-vel nyitott kapcsolatok számát vezérlők. Ezekkel a változtatásokkal biztonságosan növelheti az IPMI számát pollerek, anélkül, hogy aggódnának a BMC vezérlő túlterhelése miatt. Az IPMI menedzser folyamat automatikusan elindul, ha legalább egy IPMI lekérdező elindul.

Lásd még ismert problémák IPMI ellenőrzésekhez.

Konfiguráció

Gazdakonfiguráció

A gazdagépet be kell állítani az IPMI-ellenőrzések feldolgozására. IPMI interfész kell hozzá kell adni a megfelelő IP- és portszámokkal, valamint IPMI-vel hitelesítési paramétereket kell megadni.

További információért lásd a gazdagépek konfigurálása részletek.

Szerver konfigurációja

Alapértelmezés szerint a Zabbix szerver nincs konfigurálva IPMI indítására pollerek, így a hozzáadott IPMI elemek nem fognak működni. Ennek megváltoztatásához nyissa meg a Zabbix szerver konfigurációs fájl (zabbix_server.conf) rootként és keresse meg a következő sort:

# StartIPMIPollers=0

Törölje a megjegyzést, és állítsa a pollerek számát mondjuk 3-ra, így a következőképpen jelenik meg:

StartIPMIPollers=3

Mentse el a fájlt, majd indítsa újra a zabbix_servert.

Elemkonfiguráció

Ha [elemet konfigurál] (/manual/config/items/item) gazdagép szinten:

  • Válassza ki az „IPMI-ügynök” lehetőséget típusként
  • Adjon meg egy egyedi elemet [kulcs] (/manual/config/items/item/key) a gazdagépen belül (mondjuk ipmi.fan.rpm)
  • A Host interfészhez válassza ki a megfelelő IPMI interfészt (IP és kikötő). Vegye figyelembe, hogy a gazdagépen léteznie kell egy IPMI interfésznek.
  • Adja meg az IPMI érzékelőt (például „FAN MOD 1A RPM” a Dellnél Poweredge) a metrika lekéréséhez. Alapértelmezés szerint az érzékelő azonosítója meg kell határozni. Lehetőség van előtagok használatára is a érték:
    • id: - az érzékelő azonosítójának megadása;
    • name: - az érzékelő teljes nevének megadása. Ez hasznos lehet benne olyan helyzetek, amikor az érzékelőket csak megadással lehet megkülönböztetni a teljes név.
  • Válassza ki a megfelelő információtípust ("Numeric (float)" ebben ügy; diszkrét érzékelők esetén - 'Numeric (unsigned)'), egységek (a legtöbb valószínűleg „rpm”) és minden egyéb kötelező elemattribútum
Támogatott ellenőrzések

Az alábbi táblázat az IPMI által támogatott beépített elemeket írja le ügynöki ellenőrzések.

Tételkulcs
Leírás Visszatérési érték Megjegyzések
ipmi.get
IPMI-érzékelővel kapcsolatos információk. JSON-objektum Ez az elem használható IPMI-érzékelők felfedezéséhez.
A Zabbix 5.0.0 óta támogatott .

Időtúllépés és munkamenet befejezése

Az IPMI üzenetek időtúllépései és az újrapróbálkozások száma az OpenIPMI könyvtárban van meghatározva. Az OpenIPMI jelenlegi kialakítása miatt ezek elkészítése nem lehetséges Zabbixban konfigurálható értékek, sem interfész, sem elem szinten.

Az IPMI munkamenet inaktivitási időtúllépése a LAN-nál 60 +/-3 másodperc. Jelenleg az nem lehetséges a Munkamenet aktiválása időszakos küldése parancsot OpenIPMI-vel. Ha nincs IPMI-elemellenőrzés a Zabbixtól a adott BMC több mint a BMC-ben konfigurált munkamenet időtúllépés esetén az időtúllépés lejárta után következő IPMI ellenőrzés időtúllépés miatt egyedi üzenetek időtúllépései, újrapróbálkozásai vagy fogadási hiba. Utána egy új munkamenet megnyílik, és elindul a BMC teljes újraellenőrzése. Ha akarod a BMC szükségtelen újraellenőrzésének elkerülése érdekében tanácsos beállítani az IPMI-t elemlekérdezési intervallum az IPMI munkamenet inaktivitási időtúllépése alatt BMC-ben van konfigurálva.

Notes on IPMI discrete sensors

To find sensors on a host start Zabbix server with DebugLevel=4 enabled. Wait a few minutes and find sensor discovery records in Zabbix server logfile:

$ grep 'Added sensor' zabbix_server.log
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:7 id:'CATERR' reading_type:0x3 ('discrete_state') type:0x7 ('processor') full_name:'(r0.32.3.0).CATERR'
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'CPU Therm Trip' reading_type:0x3 ('discrete_state') type:0x1 ('temperature') full_name:'(7.1).CPU Therm Trip'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'System Event Log' reading_type:0x6f ('sensor specific') type:0x10 ('event_logging_disabled') full_name:'(7.1).System Event Log'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'PhysicalSecurity' reading_type:0x6f ('sensor specific') type:0x5 ('physical_security') full_name:'(23.1).PhysicalSecurity'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'IPMI Watchdog' reading_type:0x6f ('sensor specific') type:0x23 ('watchdog_2') full_name:'(7.7).IPMI Watchdog'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'Power Unit Stat' reading_type:0x6f ('sensor specific') type:0x9 ('power_unit') full_name:'(21.1).Power Unit Stat'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Ctrl %' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.1).P1 Therm Ctrl %'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.2).P1 Therm Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 2' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 2'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 3' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 3'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'P1 Mem Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).P1 Mem Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Front Panel Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Front Panel Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'Baseboard Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Baseboard Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +5.0V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +5.0V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +3.3V STBY' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V STBY'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +3.3V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.5V P1 DDR3' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.5V P1 DDR3'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.1V P1 Vccp' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.1V P1 Vccp'
       8358:20130318:111122.174 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +1.05V PCH' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.05V PCH'

To decode IPMI sensor types and states, get a copy of IPMI 2.0 specifications at http://www.intel.com/content/www/us/en/servers/ipmi/ipmi-specifications.html (At the time of writing the newest document was http://www.intel.com/content/dam/www/public/us/en/documents/product-briefs/second-gen-interface-spec-v2.pdf)

The first parameter to start with is "reading_type". Use "Table 42-1, Event/Reading Type Code Ranges" from the specifications to decode "reading_type" code. Most of the sensors in our example have "reading_type:0x1" which means "threshold" sensor. "Table 42-3, Sensor Type Codes" shows that "type:0x1" means temperature sensor, "type:0x2" - voltage sensor, "type:0x4" - Fan etc. Threshold sensors sometimes are called "analog" sensors as they measure continuous parameters like temperature, voltage, revolutions per minute.

Another example - a sensor with "reading_type:0x3". "Table 42-1, Event/Reading Type Code Ranges" says that reading type codes 02h-0Ch mean "Generic Discrete" sensor. Discrete sensors have up to 15 possible states (in other words - up to 15 meaningful bits). For example, for sensor 'CATERR' with "type:0x7" the "Table 42-3, Sensor Type Codes" shows that this type means "Processor" and the meaning of individual bits is: 00h (the least significant bit) - IERR, 01h - Thermal Trip etc.

There are few sensors with "reading_type:0x6f" in our example. For these sensors the "Table 42-1, Event/Reading Type Code Ranges" advises to use "Table 42-3, Sensor Type Codes" for decoding meanings of bits. For example, sensor 'Power Unit Stat' has type "type:0x9" which means "Power Unit". Offset 00h means "PowerOff/Power Down". In other words if the least significant bit is 1, then server is powered off. To test this bit, the bitand function with mask '1' can be used. The trigger expression could be like

bitand(last(/www.example.com/Power Unit Stat,#1),1)=1

to warn about a server power off.

Megjegyzések a diszkrét érzékelőnevekhez az OpenIPMI-2.0.16, 2.0.17, 2.0.18 és 2.0.19 verziókban

Az OpenIPMI-2.0.16, 2.0.17 és 2.0.18 diszkrét érzékelők nevei gyakran egy további "0" (vagy más számjegy vagy betű) van hozzáfűzve a vége. Például míg az 'ipmitool' és az OpenIPMI-2.0.19 megjeleníti az érzékelőt "PhysicalSecurity" vagy "CATERR" nevek az OpenIPMI-2.0.16-ban, 2.0.17-ben és 2.0.18 a nevek "PhysicalSecurity0" vagy "CATERR0", illetőleg.

Amikor IPMI-elemet konfigurál a Zabbix szerverrel az OpenIPMI-2.0.16 használatával, 2.0.17 és 2.0.18, használja ezeket a „0”-ra végződő neveket az IPMI érzékelőben az IPMI ügynök elemeinek mezője. Amikor a Zabbix szervert egy újra frissítik Linux disztribúció, amely OpenIPMI-2.0.19 (vagy újabb) elemet használ ezek az IPMI diszkrét érzékelők "NEM TÁMOGATOTT" lesznek. Neked kell változtassa meg az IPMI-érzékelő nevét (a végén távolítsa el a „0”-t), és várjon egy ideig, mielőtt ismét „Engedélyezett” állapotba kapcsolnak.

Megjegyzések a küszöbértékkel és a diszkrét érzékelő egyidejű elérhetőségével kapcsolatban

Egyes IPMI-ügynökök küszöbérték-érzékelőt és különálló érzékelőt is kínálnak ugyanazon a néven. A 2.2.8 és 2.4.3 előtti Zabbix verziókban a az első biztosított érzékelőt választották. A 2.2.8 és 2.4.3 verzió óta mindig a küszöbérzékelőt részesítjük előnyben.

Megjegyzések a kapcsolat megszakításával kapcsolatban

Ha az IPMI-ellenőrzések nem kerülnek végrehajtásra (bármilyen okból: minden gazdagép IPMI-elem letiltva/nem támogatott, a gazdagép letiltva/törölve, a gazdagép karbantartás alatt stb.) az IPMI kapcsolat megszakad a Zabbix szervertől vagy proxytól a 3-ban 4 óráig a Zabbix szerver/proxy indításának időpontjától függően.