40
Event Management på ICA Johan Södergren & Nicklas Ahlroth 2012-10-09

Johan Södergren & Nicklas Ahlroth 2012-10-097% 2,4% Fastigheter 40,4% Butiker ICA Sverige Royalty och/eller vinstdelning Från slutkunderna genom MAXI Special Fastighets-förvaltning

Embed Size (px)

Citation preview

Event Management på ICAEvent Management på ICA

Johan Södergren & Nicklas Ahlroth2012-10-09

Innehåll

Detta är ICA

Detta är ICA IT Services

Event och monitoring – en bakgrund

Eventprocessen och roller

Verktyg, integrationer och anpassningar

Hur mäter vi och utvecklar Eventprocessen

Utvecklingsplan – Event och verktyg

Event Management på ICA2

Detta är ICA

Event Management på ICA3

VisionVi ska göra varje dag lite enklare.

MissionMissionVi ska bli det ledande detaljhandelsföretaget med fokus på mat och måltider.

Event Management på ICA4

Affärsmodellen ger intäkter från flera håll

BankFörsäljning av

ICASverige

ICANorge

Varu- och tjänsteförsörjning

56,5% ICA SverigeLeveranser till ICA-butikernaFörsäljning av tjänster tillICA-butikerna

ICA NorgeLeveransertill franchise-butikernaFörsäljningav tjänstertill franchise-butikerna

FastigheterFörsäljning avfinansiella tjänsterAndra aktörersnyttjande avbankens infra-struktur ICA

Sverige ICA Norge

RimiBaltic

Bank

0,7% 2,4%Fastigheter

40,4%Butiker

ICA SverigeRoyalty och/eller vinstdelningFrån slutkunderna genom MAXI Special

FastigheterFastighets-förvaltningFastighets-försäljning

Rimi BalticVia helägda butiker

ICA NorgeFranchise-avgifter ochvia helägda butiker

Event Management på ICA5

Stort butiksnät i fem länder

RegionAntal butiker

31 december 2011

Sverige 1 334

Norge 550

Estland 82

Lettland 111Lettland 111

Litauen 46

TOTALT 2 123

Event Management på ICA6

Två ägare med gemensamt inflytande

Hakon Invest AB Royal Ahold N.V.

40% 60%

ICA AB

Event Management på ICA9

Detta är ICA IT Services

Event Management på ICA10

ICA IT Services

Personal• 500 anställda och 100 konsulter

• Stockholm, Västerås och Borås

Plattformar och miljöer:• IBM System z (driftas av Volvo IT)

• IBM System i ( driftas av Logica )• IBM System i ( driftas av Logica )

• Unix servers ~ 600 st

• Windows servers ~ 1400 st

• Oracle och MSSQL DB ~ 1500 st

• IBM WAS och Oracle WebLogic ~ 600 st

• Egenutvecklade affärssystem skall bytas utmot ”Larger Footprint Oracle”

Event Management på ICA11

Service Availability CenterOrganisation

Service Availability Center

Timo Iso

OperationalSecurity

Conny Richardsson

Service Availability

Operations

Service ManagementApplicationsICA Sweden

• HP Tools- Monitoring- CMS- APM- ITSM

Service Availability 24/7

Kristina Johansson

Skift 1

Skift 2

Skift 3

Skift 4

Skift 5

Skift 6

SAC ProcessesJoakim Anuell

SAC ToolsJoakim Anuell

• Incident Management• Change Management• Release Management• Problem Management• Configuration Management• Handover• Event Management• Availability Management

Event Management på ICA12

Event och monitoring- en bakgrund

Event Management på ICA13

Event och monitoring-Vad har gjorts?

�IBM Tivoli implementation

�24/7 organisation etablerad

�Monitoring and Event projekt startas

�Eventgenomgång för infrastrukturkomponenter

�Djupare eventgenomgång för 11 utvalda kritiska applikationer

Event Management på ICA

2000 …… 2008 2009 2010 2011

�HP Operations implementation�HP OMW�HP BAC – EUM/SLM�HP NNM�HP SiteScope

�Event process implementerad

�Generell eventgenomgång för 223 applikationer

�Events uppdaterade för 80 applikationer

14

24/7

Re

late

d

pro

cesses

Asig

ne

eM

onito

rin

g to

ol

Eventprocessen och roller

Event Management på ICA15

Event management - roller

Process manager Har ett direkt, “hands-on” ansvar för den detaljerade processdesignen, uppföljning av processen och det dagliga arbetet med processen. Arbetar också med processförbättringar.

Group manager/FörvaltningsledareFöljer upp arbetet med events och är ansvarig för att processen implementeras och efterlevs i sin respektive grupp/förvaltningsorganisation.

Event owner – Technical Owner/Product OwnerBeställer och äger eventspecifikationen, bidrar därmed med input till aktiviteten Event configuration. Är ansvarig för att förvalta event och tillhörande instruktioner så att övervakningen och informationen alltid är korrekt. Är ansvarig för att följaupp kvaliteten på eventet och förbättra om nödvändigt.

Event Management på ICA16

upp kvaliteten på eventet och förbättra om nödvändigt.

Event coordinator – 24/7First line för alla events, mottar och utför en första analys av eventet. Vidarebefordrar till rätt resurs för lösning.

AssigneeLöser events enligt instruktioner och följer upp om åtgärden var effektiv. Vidarebefordrar event till annan åtgärdsgrupp om det inte går att lösa. Har ett stort ansvar att logga vilka åtgärder som utförs i Service Manager! Stänger eventet när det ärlöst. Rollen innehas av diverse resurser i organisationen.

Event configuration manager Tar fram och underhåller event configuration policies och guidelines. Faciliterar granskningsmöten och är ansvarig för att övervakning implementeras. Agerar som stöd till Event owner.

Event uppstår Event fångas och bearbetas av HP OM

Event mottas och analyseras av Event

coordinator

24/7

PM skapas i Service Manager

Assignee

Event löses enligt instruktion eller

egen analysEvent stängs

Eventflödet

24/7 Assignee

Event Management på ICA17

Event owner

Beställningsflödet• Gå igenom incidenter som har inträffat den senaste tiden. Skulle några ha kunnat undvikas mha event? • Finns det manuella rutiner och kontroller som man f örlitar sig på för att kontrollera systemets status? Kan några av dessa flyttas över till HP OM?• Gå igenom ”inofficiella larm”, dvs hur blir man noti fierad idag om något är fel i applikationen? Kan exempelvis vara mail, sms, loggfil osv. Kan någ ot av detta flyttas över till HP OM? • Gå igenom tidigare Problems för att hitta idéer til l nya events. • Gå igenom krav inför kommande releaser, kan något k rav innebära en risk för incidenter när det implementeras? Behövs det då sättas upp en över vakningspunkt?• Gå igenom befintliga loggfiler för att se om det fi nns något felmeddelande som kan vara lämpligt att skapa events på. • Gå igenom eventuella BAC-mätningar och fundera på om något larm skulle kunna generas därifrån. • Gå igenom befintlig övervakning i HP OM med syfte a tt kontrollera relevans, severity, prioritering och att instruktioner finns och är tyd liga.

Gransknings

Event Management på ICA

Idéer till och ej klara event beställningar

Eventembryo

Eventembryo

Eventembryo

Eventembryo

Pågående arbete med event

beställningar

Event owner

Förgranskning av event beställningar

Eventconfiguration

manager

Kvalitetssäkring av event beställning

24/7Event owner

Tool administrator

Intern beställning

Event beställning

(OPS instruktion)

Gransknings-protokoll

Implementation av events i

produktionsmiljö

Event implementerat och

färdigt

Service Order

Event beställning

(OPS instruktion)

(BAC -> HP OMbeställning)

Event owner

Granskningsprotokoll

18

Verktyg, integrationer och anpassningar

Event Management på ICA19

Verktyg

Produkt

HP Operations Manager Server - Windows 2 servers varav en är fokalpunkt för alla larm

HP Operations Manager Agents ~2000 st

HP SiteScope 1 server~ 200 points

Event Management på ICA20

HP BAC 2 servers (1 GW och 1 DP)~ 80 st applikationer~300 st EUM transaktioner

HP NNM 2 servers~ 5000 noder

HP uCMDB 1 server

Monitoring modell och lager

HP Operations ManagerServer & Console

HP Agents

HTTPS agent Incident WS SNMP

HP NNM HP SiteScope HP BAC HP SIM

Event Management på ICA

Oracle EM Microsoft SCOM ICA Incident WS webMethods

Network – routers and switches

Storage – IBM Tapelibraries, EMC, IBM TSM Backups etc

OS – Windows, Solaris, AIX and Linux

Databases – MS SQL , Oracle and MySQL

Integration – webMethods, Oracle SOA etc

Web and Application servers – IBM WAS, Oracle WebLogic etc

Applications

21

HP OM – Integrationer och anpassningar

HP Service Manager

Incident

CMDB

ICA Event KnowledgeDatabase

Open incident

Incident Info

AcknowledgeMessage

Event Management på ICA22

HP Operations ManagerServer & Console

Event enrichment with CI-information

Additional event information and ops-instructions

HP OM – Event Enrichment

• Vi berikar HP OM larm med följande CMDB CI-informat ion om hosten :– Environment type (Production, Test, Development, Ver ification)– Status (Active, Planned , Retired)– Area (Mat, Bank)– Servertype (Unix, Windows)

• Applikationslarm är idag hårdkodade med namnet på d en applikation som larmet berör.

Event Management på ICA

• Läggs in som CMA attribut

23

ICA Event Knowledge DB

• Berikar larmet med information:– Varför vi har denna övervakning– Vad som hänt– Första åtgärd för operatören– Andra åtgärd för operatören

Event Management på ICA

• Möjlighet att kunna skapa HP ServiceManager ticket– Ändra Prio-nivå– Assignement group– Operator Text – Hämta

24

ICA Event Knowledge Database

Launch Tool ����…ICA Event Knowledge DB

Event Management på ICA25

ICA Event Knowledge Database - exempel

Event Management på ICA26

Hur mäter vi och utvecklar Eventprocessen

Event Management på ICA29

Event managementHur vi mäter

Implementerade mätningar

• Täckningsgrad

• Hur stor del av alla hostar och applikationer överv akas.

• Lösningstider event kontra användarrapporterade

Event Management på ICA

• Antal öppnade / stängda varningar

• Procentuell del av prioritet 1 samt prioritet 2 inc identer som initieras från events.

• Antal dubblettregistreringar

30

Event managementVad kan vi se?

Event Management på ICA31

Procentuell fördelning prio 1 och 2 incidenter Event vs. användarinitierade incidenter 4 mån.

Åtgärdsgrupp Fördelning

Network 47,62%

Storage 100%

Microsoft 10,34%

Integration 93,26%

Event Management på ICA

Integration 93,26%

AOB 82,14%

EMS 96,3%

Total 66,42%

32

Hur utvecklar och driver vi Event framåt

• Problemutredningar– Vilka larm fick vi?– Vilka borde vi fått?– Rätt instruktioner?

• Handover och projekt– Säkerställa larm och instruktioner

• Möten med 24/7• Möten med 24/7– Kommande produktionssättningar– Förbättringsförslag på larm, rutiner, instruktioner , verktyg– Avstämningar mellan 24/7 och åtgärdsgrupper

• Regelbundna förvaltningsmöten med plattformsgrupper– Förbättringsförslag på larm, rutiner, instruktioner , verktyg

• Event genomgångar med applikationsförvalntningar

Event Management på ICA33

Event management –review

Event Management på ICA34

Event management –review

Event Management på ICA35

Event management –review

Event Management på ICA36

Event management –EMS Assortment

Event Management på ICA37

Goda exempel ICA.seVad vi övervakar och mäter

• Plattformsövervakning– MS Windows server– MS IIS– MS SQL– Network

• Teknisk applikationsövervakning• Teknisk applikationsövervakning– Portping– Windows Services– NAS konnektivitet– GSA funktionalitet– Windows Eventlog

• Funktionell applikationsövervakning (HP BAC)– 37 EUM transaktioner varav 25 går förbi lastbalanse rare– HP BAC ���� HP OM larm på felande transaktioner

Event Management på ICA39

Goda exempel ICA.seProcentuell fördelning event vs. användarrapportera de incidenter

24/7 lösningsandel

• Prio 1: 50%

• Prio 2: 42%

• Prio 3:18%

Event Management på ICA

• Prio 3:18%

• Prio 4: 70%

40

ICA.se

• ICA.se är:

• 74% snabbare än medelapplikationen på att lösa prio 1 incidenter

• 58% snabbare än medelapplikationen på att lösa prio 2 incidenter

• 22% långsammare än medelapplikationen på att lösa pr io 3 incidenter

• 74% snabbare än medelapplikationen på att lösa prio 4 incidenter

Event Management på ICA

• Hur kom de dit?

• Relevant monitorering

• Goda instruktioner till 24/7

• Kontinuerlig utveckling av events & instruktioner

• BAC larm

41

UtvecklingsplanVerktyg och process

Event Management på ICA42

Utvecklingar

• ”Impact on….”

• Impaktanalys av event ( och change)

• Symptom & Cause

• Impact & Urgency

Event Management på ICA

• Impact & Urgency

• Mer stöd av SLA:er vid arbete med events

• Ny version av ICA Event Knowledge DB

• Mätning av hur stor del av alla middleware (database r, WAS etc) övervakas

43

HP Roadmap – Integration diagram

Incidents ExchangeOMi and SM

Launch capabilites

No. of Open Incidents, Change and Problems

KPI

BSM SM

Event Management på ICA

uCMDB

DDMANNMi

EUMOMW

CI Sync –AppResources to

HP SM

Eventsand CIs

Measurements

3rd party

Discovered CIs & Topologies

2

CI Sync –Applications

to BSM9

1

CI Sync –Servicemodels

to uCDMB

3CI Sync –Servicemodels

to BSM9

4

44