View
33
Download
0
Category
Preview:
Citation preview
Обзор семействаCisco Crosswork
Новое поколение средствавтоматизации дляоператоров связи
Системный инженер
Cisco
Иноземцев Иван
Автоматизация в сетях операторов связи
Повторяющиеся, независимые друг от друга операции, возможно, в разных рабочих группах
Охватывает весь жизненный цикл процессов планирования и эксплуатации
Closed-loop Automation
Описание жизненного цикла в виде виде настроек ПО автоматизации, используя ML для увеличения конечной производительности
Семейство продуктов Crosswork
Первое решение для автоматизированного управления мультивендорными
операторскими сетями
Cбор данных
Сбор данных в стандартизированном формате
Аналитика и машинное обучение
Дополненный интеллект Проактивное управление
Упорядочивание организационных подходов к управлению сетью
Closed-loop Automation
Семейство продуктов CrossworkCisco Crosswork
WAEWAN Automation Engine (+SR-PCE)
NSONetwork Services Orchestrator
CrossworkChange Automation
CrossworkHealth Insights
CrossworkSituation Manager
Оркестрация
EPNMEvolved Programmable Network Manager
Планирование и оптимизация
Управление сетью
Разрешение инцидентовВыявление и устранение аномалийКонтроль здоровья сети
Crosswork Data Gateway
Масштабируемый сбор данных
CrossworkNetwork Insights
Аналитикапротоколов маршрутизации
CrossworkOptimization
Оптимизация в реальном времени
CrossworkDomain Insights
Визуализация и отчеты
*Конкретные продукты из семейства могут быть на различных стадиях разработки
Crosswork Data Gateway
Data Gateway
Health InsightsSituation Manager
Network Automation
Optimization Engine
Network Insights
Data Gateway
Безопасный шлюз к оборудованию для on-premise и облачных приложений• Сбор телеметрии• Нормализация данных• Политики контроля доступа к
данным
Change Automation
Network Insights
Situation Manager
Health Insights
Data Gateway
Разветвленные сценарии автоматизации для минимизации человеческого фактора
Мониторинг состояния устройств и сети и запуск сценариев восстановления
Облачная платформа аналитики кросс-доменной маршрутизации
Корреляция событий и ChatOps для сокращения времени устранения аварии
Унифицированная и безопасная доставка сообщений мониторинга в приложения
Cisco NSO Cisco WAE Cisco EPN-M
Компоненты Cisco Crosswork
CrossworkSituation Manager
Эффекты масштаба в современных сетях
Migrate Live Production to IPКросс-доменные и мульти-технологические услуги
Изолированные группы эксплуатации: потеря контекста и наглядности
Множество разрозненных инструментов мониторинга
Отсутствие централизованной базы знаний о решении инцидентов
Сложно описать правила анализа первопричины отказа на сети
Дублированные инциденты и не сгруппированные поинцидентам аварии
Сложно контролировать множество источников данных одновременно
При изменении организационной структуры часть инцидентов решается новыми инженерами заново
SDN/NFV
IoTINFRA
X
… и к чему они приводят
*Forrester research
MTTR
MTTI MTTK MTTVMTTF
Mean-Time-To-Identify
Mean-Time-To-Know
Mean-Time-To-Fix
Mean-Time-To-Validate
80% *
Растет суммарное время идентификации инцидента (MTTI) и поиска первопричины (MTTK) т.е. ~80% от среднего времени разрешения инцидента (MTTR, Mean-Time-To-Restore).
Традиционный подход к анализу аварий и сопутствующие затруднения
Потеря данных
Ошибочные срабатывания идублированные
инциденты
Долгое разрешение инцидентов
Вовлечение большого
количества инженеров
Входящая фильтрация аварийных сообщений
Выявление аномалий по правилам или
пороговым значениям
Ручная корреляция и сопоставление
аварийных сообщений
Интерактивные конференц-звонки
A B
Автоматизация обработки инцидентов AIOps
Получение первичных событий из систем мониторинга и напрямую с оборудования
Выявление аварий посредством машинного обучения
Группировка событий в ситуации и предположение первопричины аварии (ML-driven)
Полу-автоматическое назначение исполнителей
ChatOps и подтверждение или уточнение root-cause
Переиспользованиезнаний и обучение ML
Раннее обнаружение, меньше инцидентов, выше производительность, короче MTTR
Тип операции Homo Sapience AIOpsАнализ событий (1M) Дни Секунды
Корреляция событий (1М) Дни Секунды
Выявление аномалий Часы Секунды
Выявление повторяющихся аномалий Минуты Секунды
Создание/обновление тикетов Минуты Секунды
Устранение аварии Минуты С обучением
Определение первопричины аварии Минуты С обучением
Восстановление сервиса Минуты Секунды
Пополнение базы знаний Минуты Секунды
Работа для машин
Работа для людей
Машинное обучение в мониторинге и эксплуатации сетей
Потоки данных Crosswork Situation Manager
Отслеживание инцидентовNSO
Аудит
Crosswork Network
Automation
Приложения Инфраструктура БезопасностьSLA Агрегаторы
События События События События События События События
ИнцидентыОбогащение данных
SD-WAN
Конфигурация
Inventory
Топология
Обратная связь
Интеграционные адаптеры Situation Manager
…
{Rules}
Снижение времени разрешения инцидентов с помощью Machine Learning
Программирование логики и пороговых значений§ Множественные ветвления IF–THEN-
ELSE§ Сравнения с фиксированными
значениямиПравила требуются для любого события§ Бесчисленное количество сценариев§ Правила невозможно создать для
ещё не возникавших отказов§ Каждое новое приложение или
апгрейд инфраструктуры требует обновления правил
§ Постоянно выделенные инженерные ресурсы на обновление правил
Алгоритмы машинного обучения существуют более 50 лет§ Реализации большинства алгоритмов
доступны Open Source§ К сожалению, зачастую они
бесполезны для обработки сырых данных с сети
Алгоритмы ML ”с учителем” требуют исторических данных для тренировки§ Невозможно натренировать алгоритм
для никогда не случавшегося отказа (как в случае с использованием статических правил)
Совмещение машинного обучения с учителем и без
Gra
phEn
tropy
Tim
e O
ccur
renc
e
Whi
telis
ting
Blac
klis
ting
Info
rmat
ion
alEn
tropy
Net
wor
kPr
oxim
ity
Text
ual
Sim
ilarit
y
Soft
Fuzz
yM
atch
ing
ACE
Маршрутизация событий между алгоритмами
Потоковая кластеризация событий в реальном времени§ Фильтрация и расчет энтропии§ Вероятностные алгоритмы с нечеткой логикой,
лингвистический анализ, группировка по времени и топологической близости
§ Атрибутизация данных вместо явного сравнения значений§ Группировка событий в ситуации
Обучаемость§ Алгоритмы адаптируются к эволюции сети§ Простота внедрения
Описание способов обработки данных о событиях§ Минимальное время на создание§ Одно описание лучше 100 явных правил
Готово к реальному миру§ Адаптировано к реальным сценариям§ Внедрено в крупных и очень крупных сетях§ 14 патентов
Кластеризация потока событийUnsupervised, Supervised и Reinforcement Machine Learning
Без учителя С учителем С учителем и подкреплением
Обнаружение ситуацииФильтрация Реакция среды Процесс Предсказание
Лингвистический анализ
Graph Entropy
Паттерны timestamps
Логическая топология
AI EngineФильтрация случайных событий
Cookbook Neural feedback
Предсказание Root Cause
Динамическое назначение исполнителя
Переиспользованиезнаний
Algorithmic Clustering Engine (ACE)
Gra
phEn
tropy
Tim
e O
ccur
renc
e
Whi
telis
ting
Blac
klis
ting
Info
rmat
iona
lEnt
rop
y
Net
wor
kPr
oxim
ity
Text
ual
Sim
ilarit
y
Soft
Fuzz
yM
atch
ing
Nagios
Oracle
ACE
СобытияИнциденты
(a.k.a. Situation)
Средства мониторинга
Маршрутизация событий между алгоритмами
Firewall Incident01/07/17 10:14:21 AMCRM, Website and Order Services Impacted
Database Incident01/07/17 11:19:37 AMBI Service Impacted
Storage Incident01/07/17 12:14:06 AMPayment Service Impacted
Алгоритмическая кластеризация в реальном
времени
Сравнение методик кластеризации
Методика Точность (качество)
Переиспользуемость(количество) Затраты
Правила Высокая Низкая Высокая
Временная Низкая Высокая Низкая
Лингвистическая Средняя Средняя Низкая
Топологическая Средняя Средняя Низкая
Algorithm Clustering Engine Высокая Высокая Низкая
Архитектура Situation Manager
SMKnowledge
MooBotsWorkflow,
Notifications& Remediation
LAMsLinked Access Module
Event Ingestion
Log Events
Monitoring Events
Change Events
IT Service Desk
Event Feeds
CMDB
Events
Alerts
Situations
SNMP, Netcool, BMC BEM, CA Spectrum, HP NNM/OM
Splunk, Log Files, syslog
Jenkins, Chef, Puppet
AppDynamics, New Relic, Nagios
ServiceNow, Remedy, HPSM, CA-SM, Maximo, etc.
BMCAtrium, HP/IBM/CA CMDB, AMDOCS, File, any database, etc.
MS-Lync, Y!chat, Google+, Jabber, etc.
CLI, Java, JavaScript, C++, ObjC, SQL, PERL, etc.
SigalizersMachine Learning
SituationRoom
UI & Collaboration
Real-time Bus
ExternalKnowledge
Script and Process etc.
IRC/Chat/Chatbots
NotificationsPagerDuty, OpsGenie, XMatters
SERVICE INTENTОписан на YANG
NSOService
Manager
Device Manager
CDB
Service Model
Device Model
Situation Manager
Корреляция событий
Описание сервиса
Параметры устройства
Активное тестирование
Turn-up тестирование
Конфигурация устройства
TCA
Обратная связь
Соб
ыти
е
Zero Touch Assurance
Изменение процесса разрешения инцидентов после внедрения Situation Manager
Поиск причины аварии
Анализ
Авто-тикет
Авто-рассылка
Анализ Рассылка ФиксТикетКорреляция Звонок
MTTD: 15 минут MTTR: 104 минут
MTTD: secs MTTR: < 60 минут Ценность Crosswork Situation Manager
Устранение
Само-обучение
Пополнение базы знаний
Поиск причины
АлгоритмыЛюди
Ситуация
Сравнение времени разрешения инцидентов
Среднее время устранение аварии Время на
обнаружение
Время на поиск причины
Время на устранение
Время на проверку
MTTI MTTK MTTF MTTV
MTTI MTTK MTTVMTTF
Поддержка устранения аварииПредложение
первопричины аварии на основе
предыдущих данных
Снижение информационного
шумаАвтоматизация проверочного тестирования
75%Де-дупликация событий
и учет релевантности аварии
34%Снижение количества
тикетов
43%Улучшение сроков
разрешения инцидентов
66%Снижение замеченных пользователями аварий
* Source: Feedback from Customers
Преимущества Situation Manager для операторов связи
Crosswork Change Automation and Health Insight
Network Change Automation and Health Insights
Ассоциация событий и сценариев устранения
Отрицательная обратная связь
Programmable Remediation Closed-Loop
Пользовательские KPI и аварии
Улучшения Ansible для
сетевых сценариев
Configurable Feedback-driven
В качестве инструмента активации используется
Автоматизированное выполнение на сети действий по устранению аварий. Действия запускаются при наступлении событий мониторинга как в явном виде, так и в виде TCA (threshold crossing alarms)
API для интеграции с системами поддержки операций
Мониторинг и предсказание метрик сети
Мониторинг Восстановление
Рекомендательнаясистема
Автоматическое определение
релевантных KPI и авто-мониторинг
Выявление аномалий
Динамическое определение пороговых
значений метрики на основе реальных
исторических данных
Обратная связь
Уведомления об авариях в интерфейсе и API и
автоматический запуск восстановительных операций в Change
Automation
События
Health Insights: запуск действий на основе текущих данных
Рекомендательная система Список KPI
Система корреляции
Восстановление(Change Automation)
KPIs
Smart Monitoring Smart Baselining Smart Remediation
Телеметрия
Восстановительное воздействие
API
Состояние и конфигурация
Health Insights: пользовательские KPI
• KPI могут быть потоковыми или групповыми
• KPI могут активированы на конкретном устройстве или на
группе устройств
• KPI поддерживают гибкую настройку создания аварий по
превышению порогового значения
• Пороговые значения могут быть обычными статическими
значениями, или полагаться на статистические вычисления:
среднее по скользящему окну, среднеквадратичное
отклонение, персентиль и т.д.
Health Insights: визуализация в реальном времени
Health Insights: события
• Основываются на анализе данных из Time-Series Database
• Правила могут описываются на специальном языке
• Для интеграции с нижележащими системами можно
потреблять телеметрические данные непосредственно из
шины Kafka
• Реализовано как отслеживание превышения пороговых
значений, так и анализ трендов
Health Insights: отчеты и панели
Определяемая пользователем автоматизация изменений
Служба оповещения Обмен информации о
состоянии сети в реальном времени
Конфигурационные изменения(NETCONF/YANG, SSH/CLI)
APIs
Network Service
Orchestrator
Автоматизация изменений
Контроль состояния
Коллектор
Change Automation: автоматизация с обратной связью
Библиотека Plays
Plays последовательно вызываются из Playbook
Запуск playbook в
Ansible
Планировщик
Запуск playbook по расписанию
REST API:• Запустить или назначить время
исполнения playbook• Подписка на нотификации и проверка
статуса исполнения playbook
Конфигурация сервиса
Телеметрия, события
§ Playbooks: Cisco, Advanced Services и/или заказчик самостоятельно
§ Plays: инженеры Cisco
Библиотека Playbooks
Модуль исполнения запрашивает playbook
Pre-check
VerifyRoll-back
Post-check
NOK
Модуль исполнения
OK
Execute
Ansible «на стероидах»
Task-1
Task-2
Task-3
Run in order
Стандартные Plays
Task-1
Task-2
Task-3
Run in parallel
Улучшения в Change Automation
Task-1
Task-2
Task-3
Run in order
Schedule-A Schedule-B
Check-modeDry-run
NSO dry-run+
Ansible nativeRollback
Check-modeDry-run
NSO basedRollback Single-step
Не забыть об API для интеграции с другими системами!
• Создать конфигурацию из шаблона и параметров сервиса
• Может потребовать сбор дополнительных данных для заполнения всех параметров
• Уже сложнее
• Нужно предусмотреть переходы между всеми состояниями сервиса
• Может потребоваться контроль занятия или освобождения ресурсов
• Трудно или невозможно
• Удалить все занятые сервисом ресурсы
• Но не удалять ресурсы, общие с другими сервисами
Создать Изменить Удалить
Если у
вас нет NSO
• nso_verify сравнивает параметры в таске с реальными данными на сети
• nso_action запускает action (например, check-sync) и проверяет вывод
• nso_config работает с конфигурационной базой данных CDB
• nso_show вывод данных из CDB
• nso_query вывод данных из CDB и использованием XPath
Модули NSO для Ansible
Спасибо за внимание!
www.facebook.com/CiscoRu
www.instagram.com/ciscoru
www.youtube.com/user/CiscoRussiaMedia
www.vk.com/cisco
Оцените данную сессию в мобильном приложении конференции
Контакты:
Тел.: +7 495 9611410www.cisco.com
Recommended