26
Построение системы анализа производительности и планирования ресурсов ЕЦОД Фирстов Сергей Валерьевич Главный инженер Екатеринбургского ИВЦ сп ГВЦ филиала ОАО «РЖД»

Сергей Фирстов "Построение системы анализа производительности"

Embed Size (px)

Citation preview

Page 1: Сергей Фирстов "Построение системы анализа производительности"

Построение сист емы анализа произ водительност и и планирования ресурсов ЕЦОД

Фирстов Сергей ВалерьевичГлавный инженер Екатеринбургского ИВЦсп ГВЦ филиала ОАО «РЖД»

Page 2: Сергей Фирстов "Построение системы анализа производительности"

2

Проблематика

1. Ежегодный рост объемов хранимых данных от 15 до 50%

2. Внедрение нового и модернизация существующего ПО

3. Неконтролируемый рост нагрузки на аппаратную составляющую

4. Отсутствует накопление статистических данных по загрузке каждого

из компонент ИТ инфраструктуры в используемой СУИР IBM Tivoli

5. Недостаточно оперативно отслеживается загрузка компонент СХД

(LUNы, сервис процессоры, кэш, диски и пр.)

6. Недостаточно оперативно отслеживается загрузка коммутационного

оборудования (порты и др.)

7. Отсутствует прогнозирование и анализ загрузки компонент ЦОД

Page 3: Сергей Фирстов "Построение системы анализа производительности"

33

Прикладной уровень

Уровень операционных систем

Уровень виртуализации файловых систем

Уровень виртуализации томов

Физический уровень

Уровень виртуализации исполнения

Операционные системы

Гипервизоры

Виртуальные машины

Контроллеры томов

Сети

Grid Scheduler

Виртуальные диски

Уровень виртуализации данных

Виртуализациясерверов

ВиртуализацияСетей

ВиртуализацияРабочей нагрузки

Grid Middleware

Виртуализациясистем хранения

Виртуализация информации

Provisioning

Manag

emen

t

Orche

stration

Уровень управления

Стадии трансформации ИТ инфраструктуры

Page 4: Сергей Фирстов "Построение системы анализа производительности"

44

Качество Среды

КачествоПлатформы

zOS

AIX

Win

dow

s

Intel RISC zSeies

КритическиКритическиВажныеВажные

СреднейСреднейВажностиВажности

НизкойНизкойВажностиВажности

СтоимостьВладения

ЦенаПриобретения

Критичность для бизнеса

Аппаратные платформы

Опе

рац

ионн

ые

сред

ы

Подход к оптимизации модели ЦОДПодход к оптимизации модели ЦОД

Page 5: Сергей Фирстов "Построение системы анализа производительности"

СерверыПриложений

Системы Храненияи Архивирования

СерверыБаз Данных

Скв

озн

ое

упр

авл

ени

е с

ист

ем

ам

и,

сетя

ми

и

да

нны

ми

( T

ivo

li )

Дисковые подсистемы

SAN

SYNC COPY

Дисковые подсистемы

Подсистемы Резервного копирования

Technologies:• LPAR, PAV,• CoD• RMC, RMZ,PTC• HiperSWAP

Technologies:• LPAR, PAV,• CoD• RMC, RMZ,PTC• HiperSWAP

IBM System Storage.....

SAN Director

IBM Mainframe.....

CF

Parallel Sysplex & Data Sharing Technologies:• LPAR, IRD, WLM• CBU, CIU, CoD On/Off• zIIP, zAAP, IFL• Parallel Sysplex, GDPS

Technologies:• LPAR, IRD, WLM• CBU, CIU, CoD On/Off• zIIP, zAAP, IFL• Parallel Sysplex, GDPS

LAN

IBM Power …

LANSwitch

Blade Center

IBM Modular …

CLUSTER

Technologies:• DLPAR, mPAR• CuOD• HACMP

Technologies:• DLPAR, mPAR• CuOD• HACMP

Унифицированная инфраструктура

WLM

WLM

Page 6: Сергей Фирстов "Построение системы анализа производительности"

ИТ-услуги

Сервис-менеджмент

Виртуализация

Физический уровень

E-Mail, Collaboration Разработка ПОТестовые и пре-

производственные системы

Интенсивные вычисления

Информационная инфраструктура

Каталог ИТ-услуг

Портал запросов

Портал управления

Динамическое управление

МониторингSLA

производи-тельности

Виртуальныеприложения &Middleware

Виртуальные клиенты

Виртуальные сетиВиртуальные СХД

Виртуальные сервера

IBM & OtherStorage

NetworkingSystem x, BladeCenter

IBM System zPower Systems

Non-IBM Servers

ИТ-услуги готовые к использованию в облачных вычислениях

Page 7: Сергей Фирстов "Построение системы анализа производительности"

7

ИТ-как-сервис основа облачной модели предоставления ИТ

Инфраструктура-как-сервис (IaaS)

Платформа-как-сервис (PaaS)

Приложения-как-сервис (SaaS)

Middleware

Middleware

CollaborationCollaborationБизнес-

процессыБизнес-

процессы

CRM/ERP/HRCRM/ERP/HRОтраслевые приложенияОтраслевые приложения

Разделяемая, виртуализированная, динамическая инфраструктура

Web 2.0 Application

Runtime

Web 2.0 Application

Runtime

JavaRuntime

JavaRuntime

Smart Business Dev. & Test on the IBM CloudSmart Business Dev. & Test on the IBM Cloud

Примеры

СерверыСерверы СетиСети Системы храненияСистемы хранения

Инфраструктура ЦОД

Инфраструктура ЦОД

Базы данныхБазы

данныхСреды

разработкиСреды

разработки

Page 8: Сергей Фирстов "Построение системы анализа производительности"

ИНФРАСТРУКТУРНАЯ МОДЕЛЬУ

правление Б

езопасн

остьюУ

правле

ние Безо

пасностью

Упр

авле

ние С

истема

ми и С

ервисами

Упр

авлени

е Систем

ам

и и Сервиса

ми

Инж

ене

рны

е се

рвис

ы

ЦОДЦОД• ЦОД- Основной• ЦОД- Резервный ПомещенияПомещения ЭнергоснабжениеЭнергоснабжение КондиционированиеКондиционирование Кабельное

хозяйствоКабельное хозяйство

Интегрированная система управления и безопасностиИнтегрированная система управления и безопасности

ОсвещениеОсвещение

Клиенты и ОфисыКлиенты и Офисы ОфисыОфисы Мобильные клиентыМобильные клиенты

ЦентрыуправленияЦентрыуправления

Рабочие станцииРабочие станции

Инф

раст

рукт

урны

е се

рвис

ы

Пл

атф

орма

разработки

Пл

атф

орма

разраб

откиИнтеграционныйИнтеграционный Information

IntegrationInformationIntegration

Enterprise Service BusEnterprise Service Bus

People IntegrationPeople Integration

Processes IntegrationProcesses Integration

ИнфраструктурныйИнфраструктурный Cluster servicesCluster services

FileservicesFileservices

Print servicesPrint services

WebservicesWebservices

E-mailservicesE-mailservices

Time SyncTime Sync

Баз

овы

е с

ерви

сы

плат

фор

мы

Операционные СистемыОперационные Системы zOSzOS LinuxLinuxWindowsWindowsUNIXUNIX СпециализированныеСпециализированные

Каналы связиКаналы связи ЦОД-ЦОДканалыЦОД-ЦОДканалы

LAN ЦОДаLAN ЦОДа Внешние каналыВнешние каналы

SAN ЦОДаSAN ЦОДаСервисы коммуникацииСервисы коммуникации

ВиртуализацияВиртуализация Storage VirtualisationStorage Virtualisation

Network VirtualisationNetwork Virtualisation

HW HypervisorsHW Hypervisors

SW HypervisorsSW Hypervisors

Workstation VirtualisationWorkstation Virtualisation

Системы ХраненияСистемы Хранения Disk StorageDisk Storage

Tape StorageTape Storage

Copy ServicesCopy Services

BackupServicesBackupServices

ArchiveServicesArchiveServices

ILMServicesILMServices

Серверные платформыСерверные платформы MainframeMainframe RISCRISC x86x86 HPCHPC

При

клад

-ны

е Бизнес логикиБизнес логики ECMECMSCMSCMCRMCRMERPERP PLMPLMBW / BIBW / BI

HRHRAppl-xAppl-x MDMMDM

Баз ДанныхБаз Данных DB2DB2 OracleOracle MSQLMSQL ПрочиеПрочие

Page 9: Сергей Фирстов "Построение системы анализа производительности"

99

Архитектурные блоки

Page 10: Сергей Фирстов "Построение системы анализа производительности"

1010

Взаимозависимость архитектурных блоков

Page 11: Сергей Фирстов "Построение системы анализа производительности"

Операционная модель

Управление эксплуатациейУправление

приложениями

АСУ ГП

АСУ ПП

АСУ ФР, АСУ ТР

Мейнфреймы (Mainframe)

Сети (Network)

Системы хр. (Storage)

СУБД (Database)

Инфр. сервисы (Common Inf Services)

Пром. ПО (Middleware)

Безопастность (Security)

Управление элементами

Служба поддержки Технологические операции

Процессы обслуживания

Управление инженерной инфраструктурой

• Управление с консолей

• Обработка событий

• Распределение нагрузки и планирование заданий

• Резервное копирование

• Техническое обслуживание

• Инциденты / Проблемы

• Изменения / Конфигурации

• Исполнение запросов

• Нагрузка/Производительность

• Доступность

• Непрерывность услуг

• Уровни обслуживания (OLA)

• Взаимоотношения с поставщиками

• ЦОД

• Офисные здания

Принятие решений

• Корпоративная архитектура

Сервера (Other Servers)

Page 12: Сергей Фирстов "Построение системы анализа производительности"

Основные положения операционной модели (ОМ)

Определены целевые процессы ЦОД (в т.ч. требующие улучшения/модернизации)

Определены параметры сложности управления элементами (архитектурными блоками) инфраструктурной модели

Определены функции управления:

Служба поддержки

Технологическая функция (техническое управление)

Функция управления эксплуатацией

Функция управления приложениями

Функция управления процессами

Определено управление функциями:

Управление персоналом (обеспечение) – локальное в рамках ИВЦ

Управление предоставлением услуг (управление и ответственность за исполнение функции) – глобальное в рамках ГВЦ

Определены роли и штатные расписания в рамках функций

Page 13: Сергей Фирстов "Построение системы анализа производительности"

Дисковые подсистемы

Подсистемы Резервного копирования

Дисковые подсистемы

Основной центр

Резервныйцентр

CF

To

tal

Sto

rag

e P

rod

uct

ivit

y C

ente

rIB

M S

yste

ms

Dir

ecto

r

Net

Co

ol/

Om

nib

us

Tiv

oli

Bu

sin

ess

Ser

vice

s M

anag

emen

t (T

BS

M)

IBM

Tiv

oli

Сo

mp

osi

te

Ap

plic

atio

n M

amag

er

Ne

tco

ol/

Imp

act

Ne

tco

ol/

Rep

ort

er

Tiv

oli

N

etw

ork

M

ana

ger

Dis

kF

abric

R

eplic

atio

n

Da

ta

Replication

LAN

SAN

Уровень Устройств Уровень СистемУровень Бизнес Сервисов

Cluster

Tiv

oli

OM

EG

AM

ON

WAN

Tiv

oli

En

terp

rise

P

ort

al

Net

Co

ol

Web

To

p

ДГУ ИБП Кондиционер Датчики

Кл

иен

ты

Се

рвер

ы П

рил

ож

ений

Се

рвер

ы Б

аз

дан

ных

Си

стем

ы Х

ране

ния

Ин

фра

стр

укт

ура

Perfomance Management Event Management

TA

DD

M

z/O

SS

tora

ge

Net

wo

rkD

BIP

Ap

plic

atio

ns

Tra

nsa

ctio

nV

P

DW

Мониторинг и управлениe ИТ-ресурсами

Page 14: Сергей Фирстов "Построение системы анализа производительности"

Архитектура системы управления и мониторинга ресурсов

Ли

не

йн

ый

у

ро

ве

нь

До

ро

жн

ый

у

ро

ве

нь

Се

те

во

й

ур

ов

ен

ьService Management Center

ИВЦ

ЦОД

Линейные предприятия

Отделения

дорог

Ст

ра

те

гич

ес

кое

уп

ра

вл

ен

ие

Оп

ер

ат

ив

но

еу

пр

ав

ле

ни

еТ

акт

ич

ес

кое

уп

ра

вл

ен

ие

Dashboards: Ключевые

показатели ИТ ЦОД + ИВЦ

Dashboards: Ключевые

показатели ИТ ЦОД + ИВЦ

АРМыАРМыАРМыАРМы

Consoles: Приложений

дорожного уровня

ОС и СУБД Серверов Систем

Хранения Сетей

Consoles: Приложений

дорожного уровня

ОС и СУБД Серверов Систем

Хранения Сетей

Управление Мониторинг

Agents: Сетей (LAN) APMов

Agents: Сетей (LAN) APMов

Dashboards: Ключевые

показатели ИТ РЖД

Dashboards: Ключевые

показатели ИТ РЖД

Департамент КорпоративнойИнформатизации

АРМыАРМы

Ав

то

ма

ти

зац

ия

Page 15: Сергей Фирстов "Построение системы анализа производительности"

1515

Архитектурный блок системы управления ИТ инфраструктурой

Поддерживаемые процессы управления

Управление отказами FMT – Fault Management

• управление проблемами

Управление производительностью PMT – Performance Mgmt

• управление конфигурациями• управление проблемами• управление изменениями

Резервное копирование и восстановление BRT – Backup and recovery

• управление изменениями• управление качеством услуг• управление доступностью

Управление конфигурациями CFG – Configuration Management

• управление конфигурациями• управление проблемами• управление изменениями

Мониторинг приложений APMT – Application Monitoring

• управление событиями• управление проблемами• управление доступностью

Управление событиями EMT – Event Management

• управление проблемами• управление событиями• управление доступностью

Мониторинг серверов SMT – Server Monitoring

• управление проблемами• управление событиями• управление изменениями• управление доступностью

Сетевой мониторинг NMT – Network Monitoring

• управление проблемами• управление событиями• управление доступностью

Архитектурные блоки системы управления и мониторинга

Page 16: Сергей Фирстов "Построение системы анализа производительности"

16

Информационные системы ОАО «РЖД»

16

Количество информационных систем ОАО «РЖД» около 800 из них для грузовых перевозок около 500 (63%)

 Основные системы:● АСОУП (АС оперативного управления перевозками) - Базовая система для обработки и хранения всей поступающей информации из смежных систем ● АС Этран (АС Электронная Транспортная Накладная) - Система для оформления перевозочных документов на груз: ● АСУСт (АС управления станциями) - Система управления вагонными парками на станциях ● ГИД «Урал-ВНИИЖТ» (График исполненного движения поездов) - Система для контроля за продвижением поездов по диспетчерским участкам ОАО «РЖД»  ● АРМ Терминал,● АРМ Терминал-Маршрут (АРМ Слежение),● АРМ Терминал-Логист - Системы, устанавливаемые у клиентов для контроля за продвижением их вагонов по сети ОАО «РЖД» АСУ Т (АСУ локомотивного хозяйства) - Система управления локомотивным парком и бригадами АС ЭТД (Электронный документооборот) - Система электронного документооборота между подразделениями ОАО «РЖД» и между клиентом и ОАО «РЖД»

Количество информационных систем ОАО «РЖД» около 800 из них для грузовых перевозок около 500 (63%)

 Основные системы:● АСОУП (АС оперативного управления перевозками) - Базовая система для обработки и хранения всей поступающей информации из смежных систем ● АС Этран (АС Электронная Транспортная Накладная) - Система для оформления перевозочных документов на груз: ● АСУСт (АС управления станциями) - Система управления вагонными парками на станциях ● ГИД «Урал-ВНИИЖТ» (График исполненного движения поездов) - Система для контроля за продвижением поездов по диспетчерским участкам ОАО «РЖД»  ● АРМ Терминал,● АРМ Терминал-Маршрут (АРМ Слежение),● АРМ Терминал-Логист - Системы, устанавливаемые у клиентов для контроля за продвижением их вагонов по сети ОАО «РЖД» АСУ Т (АСУ локомотивного хозяйства) - Система управления локомотивным парком и бригадами АС ЭТД (Электронный документооборот) - Система электронного документооборота между подразделениями ОАО «РЖД» и между клиентом и ОАО «РЖД»

Page 17: Сергей Фирстов "Построение системы анализа производительности"

Автоматизированная система оперативного управления перевозками

17

Система АСОУП – это базовая система АСУЖТ в области управления перевозочным процессом.

На ее разработку ушло более 6000чел\лет работы программистов. Сегодня в состав АСОУП входит более 6000 программ, около 150 томов технической документации.

К системе АСОУП (16 в России, 15 в ближнем зарубежье) подключено более 25 тыс. абонентов. В среднем за сутки пользователям системы передается более 1млн. Сообщений. В единую дорожно-сетевую базу данных АСОУП-2, реализованную на СУБД DB-2 IBM, входят динамические модели: поездная, вагонная, локомотивная, бригадная, контейнерная, отправочная, модель заявок. Архитектура системы АСОУП построена по модульному принципу. Система работает на платформе mainframe.

Page 18: Сергей Фирстов "Построение системы анализа производительности"

1818

Сервер приложений (WebSphere)

Представление данных:

БД

БДDB2

Сетевой уровень

Дорожный уровень

Линейный уровень Станция

отправленияСтанцияперехода

ЖД 1

Серверы приложений

Станцияназначения

ЖД 2

Обработка данных:EJB

HTMLMQ-Series SOAP,IIOP

БДDB2

Серверы приложений

Базы данных идентичной структуры на DB2 на IBM-Z10. Идентичные серверы приложений в среде WebSphere Application Server (в сетевых дополнительные модули) на разных платформах, в первую очередь на IBM-Z10. В нормальном режиме все БД синхронизированы. Сетевая БД хранит всю информацию; дорожные, - по объектам, затрагивающим дорогу.

Прикладная система обращается к серверу приложений по одному из предоставляемых им стандартных протоколов в соответствии с описанием операций классов; АРМ – через HTML или 3270. Сервер приложений обращается к дорожной БД ( при междорожных операциях также к сетевой БД) при контроле и записывает информацию в дорожную, сетевую и, при междорожной операции, в другую дорожную БД. Транзакционный механизм – JTS.

Репликации НСИРепликации НСИ

Архитектура АСОУП

Page 19: Сергей Фирстов "Построение системы анализа производительности"

•приём сообщения 02 из АСОУП•приём сообщения 7042 из АРМ ДСП о занятии пути•приём сообщения 6005 из АРМ ТВК о погруженных вагонах•прием сообщения 6024 из АРМ ПС об убранных от клиента вагонах•прием сообщения 6002 из АРМ ДСЦ о сформированном составе•передача сообщения в АРМ ТВК о вагонах прибывших на станцию выгрузки•передача сообщения 02, 09,209 1397, в АСОУП•передачу всех сообщений в сервер АСКУПР

АРМ тех.конторы

•приём сообщения 1042 из АСОУП (подход)•передача сообщений 1042 об операциях с поездом и локомотивом в АСОУП•передача сообщений об изменении номера, индекса поезда •приём сообщения 6042 из АРМ ТК краткие сведения о поезде•передачу всех сообщений в сервер АСКУПР

АРМ ДСП

•прием сообщения 6001 из АРМ ТВК, накладная•передача сообщения в ТВК, подтверждение отправки•передача сообщений 421,422,423 в АСОУП•передачу всех сообщений в сервер АСКУПР

АРМ приемосдатчика

•передача сообщения 501 в ТВК, памятка о подаче и уборке•передача сообщений о подаче,выгрузке, уборке вагонов в АСОУП (1397.242)•передачу всех сообщений в сервер АСКУПР

АРМ приемосдатчика контейнерной

площадки

АРМ ДСЦ

•прием сообщения из АРМ ТК (ТГНЛ) на поезда в расформирование.•ведение модели путей сортировочного парка•передача сообщения в АРМ ТК о завершении формирования•передачу всех сообщений в АСКУПР

•Передача сообщений 6005 в АРМ ТК о погруженных вагонах•приём сообщений из АРМ ПС КП о погруженных контейнерах•приём сообщения из АРМ ТК о вагонах прибывших под выгрузку•передача сообщений о погруженных, выгруженных вагонах (410, 242) в АСОУП,ЕК ИОДВ•передачу всех сообщений в сервер АСКУПР

АРМ товарного кассира

Сервер АСУОЦ

Вагонная модель

Контейнерная модель Поездная модель модель

Отправочная модель

Модель подъездных путей

АСОУП

Схема информационного взаимодействия АСУ ОЦ

Page 20: Сергей Фирстов "Построение системы анализа производительности"

СПАСИБО ЗА ВНИМАНИЕ !

Page 21: Сергей Фирстов "Построение системы анализа производительности"

СПАСИБО ЗА ВНИМАНИЕ !

Page 22: Сергей Фирстов "Построение системы анализа производительности"

• Система предназначена для обеспечения бесперебойности и требуемого качества технологических и производственных процессов на всех объектах ЦОД Заказчика.

• Система должна обеспечить сбор и анализ данных по загрузке серверного оборудования, предоставить данные по использованию программного обеспечения, обеспечить сбор и анализ данных по производительности компонент СХД и коммутационного оборудования, анализ виртуальной инфраструктуры.

• Система также должна помочь оптимизировать затраты на эксплуатацию телекоммуникационной инфраструктуры и при интеграции с существующей системой IBM Tivoli снизить потери и издержки на эксплуатацию

• На основе проведённого анализа рынка предлагается в качестве системы сбора и анализа производительности использовать ПО

EMC w4net.

ПРОЕКТИРУЕМАЯ СИСТЕМА

Page 23: Сергей Фирстов "Построение системы анализа производительности"

Обеспечивает комплексное решение по управлению производительностью ИТ-инфраструктуры, являясь ключевым компонентом системы поддержки эксплуатации (OSS).

Связка EMC W4NET и IBM Tivoli

W4NET в состоянии собирать информацию из любых источников, которые поддерживают экспорт данных. Базовая функциональность W4NET включает: анализ SLA; анализ трендов; прогнозирование критической загрузки оборудования; поиск повторяющихся событий, требующих внимания со стороны обслуживающего персонала.

W4NET позволяет анализировать транзакции приложений, время отклика БД – практически любые параметры производительности ИТ инфраструктуры. Система W4NET гибка в настройке, обладает дружественным интерфейсом и характеризуется высокой производительностью. Имеется встроенный графический редактор отчётов. Встроенный редактор формул позволяет формировать сложные параметры производительности KQI, состоящие из простых KPI.

Page 24: Сергей Фирстов "Построение системы анализа производительности"

Система ЕМС W4NET позволяет осуществлять прогнозирование любой степени сложности. В качестве базовых функций могут быть использованы функции линейная, полиномиальная, метод скользящего среднего, можно задавать собственный вид функции.

Планирование мощности. Интеграция с ПО IBM Tivoli.

Интеграция с существующей системой мониторинга позволит вести статистическую базу по всем мгновенным параметрам производительности, собираемым Tivoli. Кроме того, возможно осуществлять сбор информации о времени возникновения и длительности аварийного события и осуществлять визуализацию его путём наложения на график статистики. Основная цель – понять, как событие могло воздействовать на производительность того или иного компонента или инфраструктуры в целом.

Page 25: Сергей Фирстов "Построение системы анализа производительности"

Использование комбинации ПО ЕМС W4NET и IBM Tivoli позволит осуществлять не только осуществлять полный контроль над состоянием всех компонент ЦОД, но и:- предоставлять отчётность в автоматическом режиме о текущей загрузке всех систем ИВЦ;- предоставлять отчёт о прогнозировании загрузки ресурсов;- предоставлять предупреждения о перегрузке (в том числе предстоящей) ресурсов;Комбинация данных систем позволит инициировать и начать развитие концепции CSI (Continuous Service Improvement) – постоянное улучшение сервиса. То есть анализ поведения того или иного компонента ИВЦ, оптимизация его поведения

Выводы 

Page 26: Сергей Фирстов "Построение системы анализа производительности"

СПАСИБО ЗА ВНИМАНИЕ !