Event-based self-healing monitoring / Кирилл Сотников (Cognician)

Preview:

Citation preview

Self-healed* (*Самопочин)

• https://github.com/cognician

Стандартный конвейер

Начало

Обычное состояние

Failover

• Надежно

• Гибко

• Просто

• Не использует существующие ресурсы

• Поддержка большого количества языков

• Дёшево (относительно)

• Event-based

AWS Lambda

Решение

Alert Fatigue

Улучшенный конвейер

Сценарий: кончилось место на диске

Общая схема

Решение 1

Решение 2

Сценарий: сервис недоступен

Общая схема

Решение 1

Решение 2

Результат

Сценарий: возросла нагрузка

Общая схема

Решение 1

Решение 2

transmogrifier

Сценарий: поймали исключение

Общая схема

Решение 1

Решение 2

Сценарий: падение региона

Всё пропало

Решение 1

Решение 2

Работа с социалками

• s8tn1kv@gmail.com

• https://github.com/lowl4tency

• hangops.slack.com #hangops_ru

• https://twitter.com/yellow_madops

Спасибо ^_^