Обзор семейства CiscoCrosswork · Маршрутизация событий...

Обзор семействаCisco Crosswork

Новое поколение средствавтоматизации дляоператоров связи

Системный инженер

Иноземцев Иван

Автоматизация в сетях операторов связи

Повторяющиеся, независимые друг от друга операции, возможно, в разных рабочих группах

Охватывает весь жизненный цикл процессов планирования и эксплуатации

Closed-loop Automation

Описание жизненного цикла в виде виде настроек ПО автоматизации, используя ML для увеличения конечной производительности

Семейство продуктов Crosswork

Первое решение для автоматизированного управления мультивендорными

операторскими сетями

Cбор данных

Сбор данных в стандартизированном формате

Аналитика и машинное обучение

Дополненный интеллект Проактивное управление

Упорядочивание организационных подходов к управлению сетью

Closed-loop Automation

Семейство продуктов CrossworkCisco Crosswork

WAEWAN Automation Engine (+SR-PCE)

NSONetwork Services Orchestrator

CrossworkChange Automation

CrossworkHealth Insights

CrossworkSituation Manager

Оркестрация

EPNMEvolved Programmable Network Manager

Планирование и оптимизация

Управление сетью

Разрешение инцидентовВыявление и устранение аномалийКонтроль здоровья сети

Crosswork Data Gateway

Масштабируемый сбор данных

CrossworkNetwork Insights

Аналитикапротоколов маршрутизации

CrossworkOptimization

Оптимизация в реальном времени

CrossworkDomain Insights

Визуализация и отчеты

*Конкретные продукты из семейства могут быть на различных стадиях разработки

Crosswork Data Gateway

Data Gateway

Health InsightsSituation Manager

Network Automation

Optimization Engine

Network Insights

Data Gateway

Безопасный шлюз к оборудованию для on-premise и облачных приложений• Сбор телеметрии• Нормализация данных• Политики контроля доступа к

данным

Change Automation

Network Insights

Situation Manager

Health Insights

Data Gateway

Разветвленные сценарии автоматизации для минимизации человеческого фактора

Мониторинг состояния устройств и сети и запуск сценариев восстановления

Облачная платформа аналитики кросс-доменной маршрутизации

Корреляция событий и ChatOps для сокращения времени устранения аварии

Унифицированная и безопасная доставка сообщений мониторинга в приложения

Cisco NSO Cisco WAE Cisco EPN-M

Компоненты Cisco Crosswork

CrossworkSituation Manager

Эффекты масштаба в современных сетях

Migrate Live Production to IPКросс-доменные и мульти-технологические услуги

Изолированные группы эксплуатации: потеря контекста и наглядности

Множество разрозненных инструментов мониторинга

Отсутствие централизованной базы знаний о решении инцидентов

Сложно описать правила анализа первопричины отказа на сети

Дублированные инциденты и не сгруппированные поинцидентам аварии

Сложно контролировать множество источников данных одновременно

При изменении организационной структуры часть инцидентов решается новыми инженерами заново

SDN/NFV

IoTINFRA

… и к чему они приводят

*Forrester research

MTTI MTTK MTTVMTTF

Mean-Time-To-Identify

Mean-Time-To-Know

Mean-Time-To-Fix

Mean-Time-To-Validate

Растет суммарное время идентификации инцидента (MTTI) и поиска первопричины (MTTK) т.е. ~80% от среднего времени разрешения инцидента (MTTR, Mean-Time-To-Restore).

Традиционный подход к анализу аварий и сопутствующие затруднения

Потеря данных

Ошибочные срабатывания идублированные

инциденты

Долгое разрешение инцидентов

Вовлечение большого

количества инженеров

Входящая фильтрация аварийных сообщений

Выявление аномалий по правилам или

пороговым значениям

Ручная корреляция и сопоставление

аварийных сообщений

Интерактивные конференц-звонки

Автоматизация обработки инцидентов AIOps

Получение первичных событий из систем мониторинга и напрямую с оборудования

Выявление аварий посредством машинного обучения

Группировка событий в ситуации и предположение первопричины аварии (ML-driven)

Полу-автоматическое назначение исполнителей

ChatOps и подтверждение или уточнение root-cause

Переиспользованиезнаний и обучение ML

Раннее обнаружение, меньше инцидентов, выше производительность, короче MTTR

Тип операции Homo Sapience AIOpsАнализ событий (1M) Дни Секунды

Корреляция событий (1М) Дни Секунды

Выявление аномалий Часы Секунды

Выявление повторяющихся аномалий Минуты Секунды

Создание/обновление тикетов Минуты Секунды

Устранение аварии Минуты С обучением

Определение первопричины аварии Минуты С обучением

Восстановление сервиса Минуты Секунды

Пополнение базы знаний Минуты Секунды

Работа для машин

Работа для людей

Машинное обучение в мониторинге и эксплуатации сетей

Потоки данных Crosswork Situation Manager

Отслеживание инцидентовNSO

Аудит

Crosswork Network

Automation

Приложения Инфраструктура БезопасностьSLA Агрегаторы

События События События События События События События

ИнцидентыОбогащение данных

SD-WAN

Конфигурация

Inventory

Топология

Обратная связь

Интеграционные адаптеры Situation Manager

{Rules}

Снижение времени разрешения инцидентов с помощью Machine Learning

Программирование логики и пороговых значений§ Множественные ветвления IF–THEN-

ELSE§ Сравнения с фиксированными

значениямиПравила требуются для любого события§ Бесчисленное количество сценариев§ Правила невозможно создать для

ещё не возникавших отказов§ Каждое новое приложение или

апгрейд инфраструктуры требует обновления правил

§ Постоянно выделенные инженерные ресурсы на обновление правил

Алгоритмы машинного обучения существуют более 50 лет§ Реализации большинства алгоритмов

доступны Open Source§ К сожалению, зачастую они

бесполезны для обработки сырых данных с сети

Алгоритмы ML ”с учителем” требуют исторических данных для тренировки§ Невозможно натренировать алгоритм

для никогда не случавшегося отказа (как в случае с использованием статических правил)

Совмещение машинного обучения с учителем и без

ilarit

Маршрутизация событий между алгоритмами

Потоковая кластеризация событий в реальном времени§ Фильтрация и расчет энтропии§ Вероятностные алгоритмы с нечеткой логикой,

лингвистический анализ, группировка по времени и топологической близости

§ Атрибутизация данных вместо явного сравнения значений§ Группировка событий в ситуации

Обучаемость§ Алгоритмы адаптируются к эволюции сети§ Простота внедрения

Описание способов обработки данных о событиях§ Минимальное время на создание§ Одно описание лучше 100 явных правил

Готово к реальному миру§ Адаптировано к реальным сценариям§ Внедрено в крупных и очень крупных сетях§ 14 патентов

Кластеризация потока событийUnsupervised, Supervised и Reinforcement Machine Learning

Без учителя С учителем С учителем и подкреплением

Обнаружение ситуацииФильтрация Реакция среды Процесс Предсказание

Лингвистический анализ

Graph Entropy

Паттерны timestamps

Логическая топология

AI EngineФильтрация случайных событий

Cookbook Neural feedback

Предсказание Root Cause

Динамическое назначение исполнителя

Переиспользованиезнаний

Algorithmic Clustering Engine (ACE)

ilarit

Nagios

Oracle

СобытияИнциденты

(a.k.a. Situation)

Средства мониторинга

Маршрутизация событий между алгоритмами

Firewall Incident01/07/17 10:14:21 AMCRM, Website and Order Services Impacted

Database Incident01/07/17 11:19:37 AMBI Service Impacted

Storage Incident01/07/17 12:14:06 AMPayment Service Impacted

Алгоритмическая кластеризация в реальном

времени

Сравнение методик кластеризации

Методика Точность (качество)

Переиспользуемость(количество) Затраты

Правила Высокая Низкая Высокая

Временная Низкая Высокая Низкая

Лингвистическая Средняя Средняя Низкая

Топологическая Средняя Средняя Низкая

Algorithm Clustering Engine Высокая Высокая Низкая

Архитектура Situation Manager

SMKnowledge

MooBotsWorkflow,

Notifications& Remediation

LAMsLinked Access Module

Event Ingestion

Log Events

Monitoring Events

Change Events

IT Service Desk

Event Feeds

Events

Alerts

Situations

SNMP, Netcool, BMC BEM, CA Spectrum, HP NNM/OM

Splunk, Log Files, syslog

Jenkins, Chef, Puppet

AppDynamics, New Relic, Nagios

ServiceNow, Remedy, HPSM, CA-SM, Maximo, etc.

BMCAtrium, HP/IBM/CA CMDB, AMDOCS, File, any database, etc.

MS-Lync, Y!chat, Google+, Jabber, etc.

CLI, Java, JavaScript, C++, ObjC, SQL, PERL, etc.

SigalizersMachine Learning

SituationRoom

UI & Collaboration

Real-time Bus

ExternalKnowledge

Script and Process etc.

IRC/Chat/Chatbots

NotificationsPagerDuty, OpsGenie, XMatters

SERVICE INTENTОписан на YANG

NSOService

Manager

Device Manager

Service Model

Device Model

Situation Manager

Корреляция событий

Описание сервиса

Параметры устройства

Активное тестирование

Turn-up тестирование

Конфигурация устройства

Соб

ыти

Zero Touch Assurance

Изменение процесса разрешения инцидентов после внедрения Situation Manager

Поиск причины аварии

Анализ

Авто-тикет

Авто-рассылка

Анализ Рассылка ФиксТикетКорреляция Звонок

MTTD: 15 минут MTTR: 104 минут

MTTD: secs MTTR: < 60 минут Ценность Crosswork Situation Manager

Устранение

Само-обучение

Пополнение базы знаний

Поиск причины

АлгоритмыЛюди

Ситуация

Сравнение времени разрешения инцидентов

Среднее время устранение аварии Время на

обнаружение

Время на поиск причины

Время на устранение

Время на проверку

MTTI MTTK MTTF MTTV

MTTI MTTK MTTVMTTF

Поддержка устранения аварииПредложение

первопричины аварии на основе

предыдущих данных

Снижение информационного

шумаАвтоматизация проверочного тестирования

75%Де-дупликация событий

и учет релевантности аварии

34%Снижение количества

тикетов

43%Улучшение сроков

разрешения инцидентов

66%Снижение замеченных пользователями аварий

* Source: Feedback from Customers

Преимущества Situation Manager для операторов связи

Crosswork Change Automation and Health Insight

Network Change Automation and Health Insights

Ассоциация событий и сценариев устранения

Отрицательная обратная связь

Programmable Remediation Closed-Loop

Пользовательские KPI и аварии

Улучшения Ansible для

сетевых сценариев

Configurable Feedback-driven

В качестве инструмента активации используется

Автоматизированное выполнение на сети действий по устранению аварий. Действия запускаются при наступлении событий мониторинга как в явном виде, так и в виде TCA (threshold crossing alarms)

API для интеграции с системами поддержки операций

Мониторинг и предсказание метрик сети

Мониторинг Восстановление

Рекомендательнаясистема

Автоматическое определение

релевантных KPI и авто-мониторинг

Выявление аномалий

Динамическое определение пороговых

значений метрики на основе реальных

исторических данных

Уведомления об авариях в интерфейсе и API и

автоматический запуск восстановительных операций в Change

Automation

События

Health Insights: запуск действий на основе текущих данных

Рекомендательная система Список KPI

Система корреляции

Восстановление(Change Automation)

Smart Monitoring Smart Baselining Smart Remediation

Телеметрия

Восстановительное воздействие

Состояние и конфигурация

Health Insights: пользовательские KPI

• KPI могут быть потоковыми или групповыми

• KPI могут активированы на конкретном устройстве или на

группе устройств

• KPI поддерживают гибкую настройку создания аварий по

превышению порогового значения

• Пороговые значения могут быть обычными статическими

значениями, или полагаться на статистические вычисления:

среднее по скользящему окну, среднеквадратичное

отклонение, персентиль и т.д.

Health Insights: визуализация в реальном времени

Health Insights: события

• Основываются на анализе данных из Time-Series Database

• Правила могут описываются на специальном языке

• Для интеграции с нижележащими системами можно

потреблять телеметрические данные непосредственно из

шины Kafka

• Реализовано как отслеживание превышения пороговых

значений, так и анализ трендов

Health Insights: отчеты и панели

Определяемая пользователем автоматизация изменений

Служба оповещения Обмен информации о

состоянии сети в реальном времени

Конфигурационные изменения(NETCONF/YANG, SSH/CLI)

Network Service

Orchestrator

Автоматизация изменений

Контроль состояния

Коллектор

Change Automation: автоматизация с обратной связью

Библиотека Plays

Plays последовательно вызываются из Playbook

Запуск playbook в

Ansible

Планировщик

Запуск playbook по расписанию

REST API:• Запустить или назначить время

исполнения playbook• Подписка на нотификации и проверка

статуса исполнения playbook

Конфигурация сервиса

Телеметрия, события

§ Playbooks: Cisco, Advanced Services и/или заказчик самостоятельно

§ Plays: инженеры Cisco

Библиотека Playbooks

Модуль исполнения запрашивает playbook

Pre-check

VerifyRoll-back

Post-check

Модуль исполнения

Execute

Ansible «на стероидах»

Task-1

Task-2

Task-3

Run in order

Стандартные Plays

Task-1

Task-2

Task-3

Run in parallel

Улучшения в Change Automation

Task-1

Task-2

Task-3

Run in order

Schedule-A Schedule-B

Check-modeDry-run

NSO dry-run+

Ansible nativeRollback

Check-modeDry-run

NSO basedRollback Single-step

Не забыть об API для интеграции с другими системами!

• Создать конфигурацию из шаблона и параметров сервиса

• Может потребовать сбор дополнительных данных для заполнения всех параметров

• Уже сложнее

• Нужно предусмотреть переходы между всеми состояниями сервиса

• Может потребоваться контроль занятия или освобождения ресурсов

• Трудно или невозможно

• Удалить все занятые сервисом ресурсы

• Но не удалять ресурсы, общие с другими сервисами

Создать Изменить Удалить

Если у

вас нет NSO

• nso_verify сравнивает параметры в таске с реальными данными на сети

• nso_action запускает action (например, check-sync) и проверяет вывод

• nso_config работает с конфигурационной базой данных CDB

• nso_show вывод данных из CDB

• nso_query вывод данных из CDB и использованием XPath

Модули NSO для Ansible

Спасибо за внимание!

www.facebook.com/CiscoRu

www.instagram.com/ciscoru

www.youtube.com/user/CiscoRussiaMedia

www.vk.com/cisco

Оцените данную сессию в мобильном приложении конференции

Контакты:

Тел.: +7 495 9611410www.cisco.com

Обзор семейства CiscoCrosswork · Маршрутизация событий...

Documents

5 событий 20.02.12

Потоковая обработка данных с помощью модели акторов (Actor Model)

ASP.NET MVC - Binary Studio mvc part 3,4.pdf · url маршрутизация url маршрутизация впервые была представлена в asp.net 3.5 sp1 url

Калейдоскоп образовательных событий 2012

Сети и системы телекоммуникаций. Маршрутизация

Календарь событий-2016

Обзор событий по рекламе

Jerusalem and Календарь культурных событий …cdn.exiteme.com/exitetogo/ru.jerusalem-hotels.org.il/userfiles/... · культурных событий Иерусалима

Cистема мобильной регистрации событий

Настройка и маршрутизация аварийных сообщений

5 событий недели

Приоритетная обработка событий

Современные тренды корпоративных событий

Jerusalem and Календарь культурных событий Иерусалима...Календарь культурных событий Иерусалима 2017 Jerusalem

АВТОНОМНЫЕ РЕГИСТРАТОРЫ АВАРИЙНЫХ СОБЫТИЙ

Калейдоскоп событий

Анализатор событий для предотвращения событий. Р. Мустафаев

5 событий недели 13.02

Авентура, агентство событий

Рим Зайдуллин "Эффективная маршрутизация в вычислительном облаке"