Главная

Saturday, 3 August 2019

Схлопывание (flapping) событий в Zabbix.

Всем привет. 

Триггеры в системе мониторинга Zabbix несут полезную информационную нагрузку. Их полезность зависит от кода условия который вы в нем укажите. 

Вот пригодилось лично мне пару условий которые я недавно нашел в сети и публикую их вам ниже.

Оценить производительность системы можно так:
{server:system.cpu.load.last()} > 5

Производительность системы с 10-ти минутной историей:
{server:system.cpu.load.min(10m)} > 5

Оценить доступность сервиса по http можно так:
{server:net.tcp.service[http].last()} = 0

Доступность сервиса с 10-ти минутной историей:
{server:net.tcp.service[http].max(5m)} = 0
OR
{server:net.tcp.service[http].max(#3)} = 0

Как преодолеть схлопывание (Flapping) события? Это связано с количеством оповещений в рамках данной проблемы.

Исходное условие пишется так:
{server:system.cpu.load.last()} > 5

А должно быть так:
({TRIGGER.VALUE}=0 and {server:system.cpu.load.last()}>5)
OR
({TRIGGER.VALUE}=1 and {server:system.cpu.load.last()}>1)

Для оценки производительности системы:
({TRIGGER.VALUE}=0 and {server:system.cpu.load.min(5m)}>3)
OR
({TRIGGER.VALUE}=1 and {server:system.cpu.load.max(2m)}>1)

Для оценки свободного места:
({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,pfree].last()}<10)
OR
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,pfree].min(10m)}<30)

Для оценки доступности SSH-сервиса:
({TRIGGER.VALUE}=0 and {server:net.tcp.service[ssh].max(#3)}=0)
OR
({TRIGGER.VALUE}=1 and {server:net.tcp.service[ssh].min(#10)}=0)

Для оценки аномалии производительности системы в течении недели:
{server:system.cpu.load.avg(1h)} > 2 *
{server:system.cpu.load.avg(1h,7d)}

На сегодня все.

No comments:

Post a Comment

А что вы думаете по этому поводу?