Nyukers Galaxy: Метрики мониторинга.

Friday, 21 August 2020

Метрики мониторинга.

Всем привет.

Вкратце шпаргалка какие метрики мониторяться и как в инфраструктуре предприятия.

Метрики хоста:

CPU
Memory
Processes
Disk
Network

Чем мониторим?

Агенты мониторинга системы мониторинга:
Zabbix-Agent
Более универсальные инструменты с плагинами:
сollectd
telegraf
NetData
Сервисы cloud-платформы:
Stackdriver (GCP)
CloudWatch (AWS)

Метрики сервера:

CPU
RAM
Disk
Network
Security

Чем мониторим?

zabbix-agent на сервере + штатные шаблоны Zabbix
Prometheus Node exporter

Web-сервер:

Статус сервиса веб-сервера
Доступность портов
RPS (Requests Per Second)
HTTP коды завершения
Ошибки веб-сервера
SSL сертификаты
Время отклика

Чем мониторим?

zabbix-agent на сервере + штатные шаблоны Zabbix
Simply check с сервера Zabbix
Web сценарии с одного из хостов в мониторинге
Кастомные пользовательские параметры (UserParameter)
Сообщения в логах

Сервер приложений:

Статусы сервисов
RPS (php, redis, rabbitMQ, прочие)
Использование буфера
Использование очереди
Количество и статус процессов
Ошибки сервисов в логах

Чем мониторим?

zabbix-agent на сервере + штатные шаблоны Zabbix
Simply check с сервера Zabbix
Кастомные пользовательские параметры
Сообщения в логах

База данных:

Cтатус сервиса базы
Статус репликации
Seconds behind master
RPS
Объем операций
Размеры буферов
Аналитика запросов

Чем мониторим?

zabbix-agent на сервере + штатные шаблоны Zabbix
Кастомные пользовательские параметры
Сообщения в логах

Метрики Docker-контейнеров:

CPU
Memory
Network
Block I/O
Docker Daemon

Чем мониторим?

Docker stats
cAdvisor
Heapster
collectd

Метрики сервисов:

БД, очереди
Load balancer
Сервер приложения
Сторонние сервисы
Все, от чего зависит стабильность работы вашего продукта

Как выбрать что собирать и анализировать?

USE-Method от Brendan Gregg. Больше подходит для выбора инфраструктурных метрик:

Utilization (использование), например загрузка диска
Saturation (насыщение), например очередь диска
Errors (ошибки), например ошибки I/O диска

RED-метод. Больше подходит для выбора метрик приложений и сервисов:

Rate - запросы в секунду
Errors - ошибок в секунду
Duration - время на каждый запрос

Four Golden Signals от Google (принцип выбора метрик, описанный в
книге Site Reliability Engineering от Google):

Latency - время ответа
Traffic - частота запросов
Errors (ошибки) - частота ошибок
Saturation (насыщение) - насколько утилизирован ресурс

Бизнес-метрики:

посещения
конверсия
продажи
скачивания приложения

Как мониторим?

Кастомные пользовательские параметры
Вычисляемые элементы данных.

1 comment:

Anonymous14 November 2020 at 07:17
Очень толковая книга по мониторингу Practical Monitoring
by Mike Julian, 2018.
ReplyDelete
Replies

А что вы думаете по этому поводу?