Transcript
Page 1: Gnevshev   мониторинг
Page 2: Gnevshev   мониторинг

Мониторинг Mail.Ru

Page 3: Gnevshev   мониторинг

О мониторинге в целом

Page 4: Gnevshev   мониторинг

Для чего нужен мониторинг?● Своевременное выявление неисправностей.● Составление графиков загруженности.● Снижение финансовых рисков компании.● Предоставление средств для анализа и

прогнозирования.

Page 5: Gnevshev   мониторинг

Каковы цели и функции мониторинга?● Обеспечение минимального простоя.● Сбор данных для анализа и планирования.● Автоматическое устранение неисправностей.

Page 6: Gnevshev   мониторинг

Требования к мониторингу:● скорость;● отказоустойчивость;● масштабируемость;● расширяемость;● средства анализа;● надёжность;● удобство.

Page 7: Gnevshev   мониторинг

Возможности open-source систем мониторинга

Page 8: Gnevshev   мониторинг

Мониторинг Mail.ru

Page 9: Gnevshev   мониторинг

Взгляд в прошлое● 12 лет развития мониторинга Mail.ru;● рост со 200 серверов до 10000, с 1 ЦОД до 9● 100-кратный рост числа и разнообразия сетевых

устройств;● 10000-кратный рост трафика.

Page 10: Gnevshev   мониторинг

Мониторинг Mail.Ru — это:● 140 типов мониторинга;● 160 тыс. объектов наблюдения;● 2,5 Тбайт графиков;● 150 млн записей об алертах.

Page 11: Gnevshev   мониторинг

Мониторинг Mail.Ru Свободные решениядля мониторинга

+ Распределённая конфигурация+ Быстрый: параллельный опрос в 1000+ потоков+ Отказоустойчив+ Адаптирован под наши бизнес-процессы+ Интегрирован с корпоративными системами учёта

☐ Медленнee работает☐ Требует больше ресурсов☐ Недостаточно масштабируется☐ Недостаточно резервируется☐ Недостаточно интегрируется☐ Неудобен в настройке☐ Практически не расширяется☐ Медленно исправляют ошибки

Page 12: Gnevshev   мониторинг

Устройство мониторинга Mail.ru

Page 13: Gnevshev   мониторинг

Главный экран

Page 14: Gnevshev   мониторинг

Основные типы мониторинга Mail.Ru

● HTTP● PING● POP3/IMAP● TCP● DNS

● Собственные протоколы iproto, statd

● Сетевая инфрастуктура: линки, роутинг, каналы

● Базы данных

● SNMP — состояние о десятках и сотнях объектов с каждого сервера

Page 15: Gnevshev   мониторинг

Управляющий сервер● демон на каждый протокол

или функцию;● асинхронный опрос в сотни

и тысячи потоков;● полная реплика конфигурации;● Perl, net-snmp и AnyEvent;● перехватчик trap'ов.

daemon-snmp

daemon-http

daemon-*

...

daemon-external

Page 16: Gnevshev   мониторинг

Управляющий сервер внешнего мониторинга● во всех крупных регионах;● усечённая конфигурация;● мониторинг только внешних объектов.

Page 17: Gnevshev   мониторинг

Графики: сбор данных и хранение● мгновенные замеры;● большой трафик: много пакетов;● большая нагрузка на диски;● агрегирование: avg, sum, count.

Page 18: Gnevshev   мониторинг

Серверы и др. оборудование

Управляющий сервер

БД

Хранилище

Веб- и API-серверы

мониторинга

Кластер мониторинга

Статистические данные

большой трафик

Page 19: Gnevshev   мониторинг

Резервирование и балансировка

Серверы

Кластер мониторинга

ЦОД 1

ЦОД NПользователи и потребители

ЦОД 2

Роутер Роутер

Page 20: Gnevshev   мониторинг

Синхронизация

Кластер мониторинга

ЦОД 1 Кластер мониторинга

ЦОД 2

Кластер мониторинга

ЦОД N

Page 21: Gnevshev   мониторинг

И всё-таки у нас есть и другиесистемы мониторинга

Мониторинг Mail.Ru

Page 22: Gnevshev   мониторинг

Протокол SNMP● универсальный;● поддерживается почти всем оборудованием;● имеет богатый набор программных решений.

Page 23: Gnevshev   мониторинг

Управляющий сервер

SNMP Get SNMP GetBulk

t

Response (OID)

Get (OID)

20–200 запросов 1–4 запроса

Управляемый сервер

Управляющий сервер

Управляемый сервер

Response (OID)

Get (OID)

Response (OID)

Get (OID)

...

Response (OID)

Get (OID)

Response (OIDs)

GetBulk(...)

Response (OIDs)

GetBulk(...)

Page 24: Gnevshev   мониторинг

SNMP GetBulkМассив OIDS:.1.3.6.1.4.1.2021.2.1.101.1.3.6.1.4.1.2021.2.1.100.1.3.6.1.4.1.2021.2.1.2.1.3.6.1.4.1.2021.8.1.101.1.3.6.1.4.1.2021.8.1.100.1.3.6.1.4.1.2021.8.1.2.1.3.6.1.4.1.2021.9.1.101.1.3.6.1.4.1.2021.9.1.100.1.3.6.1.4.1.2021.9.1.2

OID: .1.3.6.1.4.1.2021

GetBulk(N, M, OIDs...)

N — nonrepeaters — количество OID-ов от начала массива, для которых не нужно выводить всё дерево

M — max repeaters — количество ответных OID-ов в SNMP-ответе для последующих OID из массива запроса

N

M

Page 25: Gnevshev   мониторинг

FLAP-мониторинг● часто/регулярно ненадолго появляющиеся алерты не

ловятся невооружённым взглядом.

Page 26: Gnevshev   мониторинг

Особенности

Page 27: Gnevshev   мониторинг

Зоны ответственности● множество команд системных администраторов;● множество проектов;● гибкая настройка мониторинга под команду или проект;● возможность выделить аварийную зону в отдельный

экран.

Page 28: Gnevshev   мониторинг

Зоны ответственности

Page 29: Gnevshev   мониторинг

Мониторинг мониторинга● все ноды внутри кластера;● кластеры каждый с каждым;● особые тестовые алерты.

Page 30: Gnevshev   мониторинг

Повышение качества работы дежурных инженеров путём сбора и анализа статистики:1. Время появления алерта.2. Время принятия алерта в обработку дежурным. Фиксируется имя

дежурного.3. Время окончательного уведомления. Указывается имя нового

ответственного и время, за которое он обещал исправить проблему.4. Время устранения неполадки.5. Все звонки дежурных фиксируются в логах IP-телефонии. Они содержат

время звонка, вызываемый номер и результат: продолжительность разговора или причину неудачного звонка, когда номер был занят или недоступен.

Page 31: Gnevshev   мониторинг

Круглосуточная дежурная смена● смены по несколько дежурных инженеров;● в каждом дата-центре минимум по человеку;● координация работы.

Page 32: Gnevshev   мониторинг

Графики

Page 33: Gnevshev   мониторинг

Dashboard

Page 34: Gnevshev   мониторинг

statd

Page 35: Gnevshev   мониторинг

Учёт оборудования

Page 36: Gnevshev   мониторинг

Информация о сервере

Page 37: Gnevshev   мониторинг

Автоматический сбор сведений

Page 38: Gnevshev   мониторинг

Итак, мониторинг Mail.ru:● развивается независимо;● быстрый;● распределённый;● отказоустойчивый;● базируется на свободных решениях;● активно использует SNMP;● рисует графики;● сохраняет все события навечно;● интегрирован в корпоративные информационные системы;● предоставляет средства для анализа и планирования.

Page 39: Gnevshev   мониторинг

Александр ГневшевЗаместитель директора по эксплуатации

[email protected]

СПАСИБО!


Recommended