Всем привет.
Вкратце шпаргалка какие метрики мониторяться и как в инфраструктуре предприятия.
Метрики хоста:
USE-Method от Brendan Gregg. Больше подходит для выбора инфраструктурных метрик:
книге Site Reliability Engineering от Google):
Вкратце шпаргалка какие метрики мониторяться и как в инфраструктуре предприятия.
Метрики хоста:
- CPU
- Memory
- Processes
- Disk
- Network
- Агенты мониторинга системы мониторинга:
- Zabbix-Agent
- Более универсальные инструменты с плагинами:
- сollectd
- telegraf
- NetData
- Сервисы cloud-платформы:
- Stackdriver (GCP)
- CloudWatch (AWS)
- CPU
- RAM
- Disk
- Network
- Security
- zabbix-agent на сервере + штатные шаблоны Zabbix
- Prometheus Node exporter
- Статус сервиса веб-сервера
- Доступность портов
- RPS (Requests Per Second)
- HTTP коды завершения
- Ошибки веб-сервера
- SSL сертификаты
- Время отклика
- zabbix-agent на сервере + штатные шаблоны Zabbix
- Simply check с сервера Zabbix
- Web сценарии с одного из хостов в мониторинге
- Кастомные пользовательские параметры (UserParameter)
- Сообщения в логах
- Статусы сервисов
- RPS (php, redis, rabbitMQ, прочие)
- Использование буфера
- Использование очереди
- Количество и статус процессов
- Ошибки сервисов в логах
- zabbix-agent на сервере + штатные шаблоны Zabbix
- Simply check с сервера Zabbix
- Кастомные пользовательские параметры
- Сообщения в логах
- Cтатус сервиса базы
- Статус репликации
- Seconds behind master
- RPS
- Объем операций
- Размеры буферов
- Аналитика запросов
- zabbix-agent на сервере + штатные шаблоны Zabbix
- Кастомные пользовательские параметры
- Сообщения в логах
- CPU
- Memory
- Network
- Block I/O
- Docker Daemon
- Docker stats
- cAdvisor
- Heapster
- collectd
- БД, очереди
- Load balancer
- Сервер приложения
- Сторонние сервисы
- Все, от чего зависит стабильность работы вашего продукта
USE-Method от Brendan Gregg. Больше подходит для выбора инфраструктурных метрик:
- Utilization (использование), например загрузка диска
- Saturation (насыщение), например очередь диска
- Errors (ошибки), например ошибки I/O диска
- Rate - запросы в секунду
- Errors - ошибок в секунду
- Duration - время на каждый запрос
книге Site Reliability Engineering от Google):
- Latency - время ответа
- Traffic - частота запросов
- Errors (ошибки) - частота ошибок
- Saturation (насыщение) - насколько утилизирован ресурс
- посещения
- конверсия
- продажи
- скачивания приложения
- Кастомные пользовательские параметры
- Вычисляемые элементы данных.
Очень толковая книга по мониторингу Practical Monitoring
ReplyDeleteby Mike Julian, 2018.