Главная

Friday, 21 August 2020

Метрики мониторинга.

Всем привет.

Вкратце шпаргалка какие метрики мониторяться и как в инфраструктуре предприятия.



Метрики хоста:
  • CPU
  • Memory
  • Processes
  • Disk
  • Network
Чем мониторим?
  • Агенты мониторинга системы мониторинга:
  • Zabbix-Agent
  • Более универсальные инструменты с плагинами:
  • сollectd
  • telegraf
  • NetData
  • Сервисы cloud-платформы:
  • Stackdriver (GCP)
  • CloudWatch (AWS)
Метрики сервера:
  • CPU
  • RAM
  • Disk
  • Network
  • Security
Чем мониторим?
  • zabbix-agent на сервере + штатные шаблоны Zabbix
  • Prometheus Node exporter
Web-сервер:
  • Статус сервиса веб-сервера
  • Доступность портов
  • RPS (Requests Per Second) 
  • HTTP коды завершения
  • Ошибки веб-сервера
  • SSL сертификаты
  • Время отклика
Чем мониторим?
  • zabbix-agent на сервере + штатные шаблоны Zabbix
  • Simply check с сервера Zabbix
  • Web сценарии с одного из хостов в мониторинге
  • Кастомные пользовательские параметры (UserParameter)
  • Сообщения в логах
Сервер приложений:
  • Статусы сервисов
  • RPS (php, redis, rabbitMQ, прочие)
  • Использование буфера
  • Использование очереди
  • Количество и статус процессов
  • Ошибки сервисов в логах
Чем мониторим?
  • zabbix-agent на сервере + штатные шаблоны Zabbix
  • Simply check с сервера Zabbix
  • Кастомные пользовательские параметры
  • Сообщения в логах
База данных:
  • Cтатус сервиса базы
  • Статус репликации
  • Seconds behind master
  • RPS
  • Объем операций
  • Размеры буферов
  • Аналитика запросов
Чем мониторим?
  • zabbix-agent на сервере + штатные шаблоны Zabbix
  • Кастомные пользовательские параметры
  • Сообщения в логах
Метрики Docker-контейнеров:
  • CPU
  • Memory
  • Network
  • Block I/O
  • Docker Daemon
Чем мониторим?
  • Docker stats
  • cAdvisor
  • Heapster
  • collectd
Метрики сервисов:
  • БД, очереди
  • Load balancer
  • Сервер приложения
  • Сторонние сервисы
  • Все, от чего зависит стабильность работы вашего продукта
Как выбрать что собирать и анализировать?

USE-Method от Brendan Gregg. Больше подходит для выбора инфраструктурных метрик:
  • Utilization (использование), например загрузка диска
  • Saturation (насыщение), например очередь диска
  • Errors (ошибки), например ошибки I/O диска
RED-метод. Больше подходит для выбора метрик приложений и сервисов:
  • Rate - запросы в секунду
  • Errors - ошибок в секунду
  • Duration - время на каждый запрос
Four Golden Signals от Google (принцип  выбора  метрик,  описанный  в
книге Site Reliability Engineering от Google):
  • Latency - время ответа
  • Traffic - частота запросов
  • Errors (ошибки) - частота ошибок
  • Saturation (насыщение) - насколько утилизирован ресурс
Бизнес-метрики:
  • посещения
  • конверсия
  • продажи
  • скачивания приложения
Как мониторим?
  • Кастомные пользовательские параметры
  • Вычисляемые элементы данных.


1 comment:

  1. Очень толковая книга по мониторингу Practical Monitoring
    by Mike Julian, 2018.

    ReplyDelete

А что вы думаете по этому поводу?