Upload
truongnhan
View
217
Download
4
Embed Size (px)
Citation preview
Innehåll
Detta är ICA
Detta är ICA IT Services
Event och monitoring – en bakgrund
Eventprocessen och roller
Verktyg, integrationer och anpassningar
Hur mäter vi och utvecklar Eventprocessen
Utvecklingsplan – Event och verktyg
Event Management på ICA2
VisionVi ska göra varje dag lite enklare.
MissionMissionVi ska bli det ledande detaljhandelsföretaget med fokus på mat och måltider.
Event Management på ICA4
Affärsmodellen ger intäkter från flera håll
BankFörsäljning av
ICASverige
ICANorge
Varu- och tjänsteförsörjning
56,5% ICA SverigeLeveranser till ICA-butikernaFörsäljning av tjänster tillICA-butikerna
ICA NorgeLeveransertill franchise-butikernaFörsäljningav tjänstertill franchise-butikerna
FastigheterFörsäljning avfinansiella tjänsterAndra aktörersnyttjande avbankens infra-struktur ICA
Sverige ICA Norge
RimiBaltic
Bank
0,7% 2,4%Fastigheter
40,4%Butiker
ICA SverigeRoyalty och/eller vinstdelningFrån slutkunderna genom MAXI Special
FastigheterFastighets-förvaltningFastighets-försäljning
Rimi BalticVia helägda butiker
ICA NorgeFranchise-avgifter ochvia helägda butiker
Event Management på ICA5
Stort butiksnät i fem länder
RegionAntal butiker
31 december 2011
Sverige 1 334
Norge 550
Estland 82
Lettland 111Lettland 111
Litauen 46
TOTALT 2 123
Event Management på ICA6
Två ägare med gemensamt inflytande
Hakon Invest AB Royal Ahold N.V.
40% 60%
ICA AB
Event Management på ICA9
ICA IT Services
Personal• 500 anställda och 100 konsulter
• Stockholm, Västerås och Borås
Plattformar och miljöer:• IBM System z (driftas av Volvo IT)
• IBM System i ( driftas av Logica )• IBM System i ( driftas av Logica )
• Unix servers ~ 600 st
• Windows servers ~ 1400 st
• Oracle och MSSQL DB ~ 1500 st
• IBM WAS och Oracle WebLogic ~ 600 st
• Egenutvecklade affärssystem skall bytas utmot ”Larger Footprint Oracle”
Event Management på ICA11
Service Availability CenterOrganisation
Service Availability Center
Timo Iso
OperationalSecurity
Conny Richardsson
Service Availability
Operations
Service ManagementApplicationsICA Sweden
• HP Tools- Monitoring- CMS- APM- ITSM
Service Availability 24/7
Kristina Johansson
Skift 1
Skift 2
Skift 3
Skift 4
Skift 5
Skift 6
SAC ProcessesJoakim Anuell
SAC ToolsJoakim Anuell
• Incident Management• Change Management• Release Management• Problem Management• Configuration Management• Handover• Event Management• Availability Management
Event Management på ICA12
Event och monitoring-Vad har gjorts?
�IBM Tivoli implementation
�24/7 organisation etablerad
�Monitoring and Event projekt startas
�Eventgenomgång för infrastrukturkomponenter
�Djupare eventgenomgång för 11 utvalda kritiska applikationer
Event Management på ICA
2000 …… 2008 2009 2010 2011
�HP Operations implementation�HP OMW�HP BAC – EUM/SLM�HP NNM�HP SiteScope
�Event process implementerad
�Generell eventgenomgång för 223 applikationer
�Events uppdaterade för 80 applikationer
14
24/7
Re
late
d
pro
cesses
Asig
ne
eM
onito
rin
g to
ol
Eventprocessen och roller
Event Management på ICA15
Event management - roller
Process manager Har ett direkt, “hands-on” ansvar för den detaljerade processdesignen, uppföljning av processen och det dagliga arbetet med processen. Arbetar också med processförbättringar.
Group manager/FörvaltningsledareFöljer upp arbetet med events och är ansvarig för att processen implementeras och efterlevs i sin respektive grupp/förvaltningsorganisation.
Event owner – Technical Owner/Product OwnerBeställer och äger eventspecifikationen, bidrar därmed med input till aktiviteten Event configuration. Är ansvarig för att förvalta event och tillhörande instruktioner så att övervakningen och informationen alltid är korrekt. Är ansvarig för att följaupp kvaliteten på eventet och förbättra om nödvändigt.
Event Management på ICA16
upp kvaliteten på eventet och förbättra om nödvändigt.
Event coordinator – 24/7First line för alla events, mottar och utför en första analys av eventet. Vidarebefordrar till rätt resurs för lösning.
AssigneeLöser events enligt instruktioner och följer upp om åtgärden var effektiv. Vidarebefordrar event till annan åtgärdsgrupp om det inte går att lösa. Har ett stort ansvar att logga vilka åtgärder som utförs i Service Manager! Stänger eventet när det ärlöst. Rollen innehas av diverse resurser i organisationen.
Event configuration manager Tar fram och underhåller event configuration policies och guidelines. Faciliterar granskningsmöten och är ansvarig för att övervakning implementeras. Agerar som stöd till Event owner.
Event uppstår Event fångas och bearbetas av HP OM
Event mottas och analyseras av Event
coordinator
24/7
PM skapas i Service Manager
Assignee
Event löses enligt instruktion eller
egen analysEvent stängs
Eventflödet
24/7 Assignee
Event Management på ICA17
Event owner
Beställningsflödet• Gå igenom incidenter som har inträffat den senaste tiden. Skulle några ha kunnat undvikas mha event? • Finns det manuella rutiner och kontroller som man f örlitar sig på för att kontrollera systemets status? Kan några av dessa flyttas över till HP OM?• Gå igenom ”inofficiella larm”, dvs hur blir man noti fierad idag om något är fel i applikationen? Kan exempelvis vara mail, sms, loggfil osv. Kan någ ot av detta flyttas över till HP OM? • Gå igenom tidigare Problems för att hitta idéer til l nya events. • Gå igenom krav inför kommande releaser, kan något k rav innebära en risk för incidenter när det implementeras? Behövs det då sättas upp en över vakningspunkt?• Gå igenom befintliga loggfiler för att se om det fi nns något felmeddelande som kan vara lämpligt att skapa events på. • Gå igenom eventuella BAC-mätningar och fundera på om något larm skulle kunna generas därifrån. • Gå igenom befintlig övervakning i HP OM med syfte a tt kontrollera relevans, severity, prioritering och att instruktioner finns och är tyd liga.
Gransknings
Event Management på ICA
Idéer till och ej klara event beställningar
Eventembryo
Eventembryo
Eventembryo
Eventembryo
Pågående arbete med event
beställningar
Event owner
Förgranskning av event beställningar
Eventconfiguration
manager
Kvalitetssäkring av event beställning
24/7Event owner
Tool administrator
Intern beställning
Event beställning
(OPS instruktion)
Gransknings-protokoll
Implementation av events i
produktionsmiljö
Event implementerat och
färdigt
Service Order
Event beställning
(OPS instruktion)
(BAC -> HP OMbeställning)
Event owner
Granskningsprotokoll
18
Verktyg
Produkt
HP Operations Manager Server - Windows 2 servers varav en är fokalpunkt för alla larm
HP Operations Manager Agents ~2000 st
HP SiteScope 1 server~ 200 points
Event Management på ICA20
HP BAC 2 servers (1 GW och 1 DP)~ 80 st applikationer~300 st EUM transaktioner
HP NNM 2 servers~ 5000 noder
HP uCMDB 1 server
Monitoring modell och lager
HP Operations ManagerServer & Console
HP Agents
HTTPS agent Incident WS SNMP
HP NNM HP SiteScope HP BAC HP SIM
Event Management på ICA
Oracle EM Microsoft SCOM ICA Incident WS webMethods
Network – routers and switches
Storage – IBM Tapelibraries, EMC, IBM TSM Backups etc
OS – Windows, Solaris, AIX and Linux
Databases – MS SQL , Oracle and MySQL
Integration – webMethods, Oracle SOA etc
Web and Application servers – IBM WAS, Oracle WebLogic etc
Applications
21
HP OM – Integrationer och anpassningar
HP Service Manager
Incident
CMDB
ICA Event KnowledgeDatabase
Open incident
Incident Info
AcknowledgeMessage
Event Management på ICA22
HP Operations ManagerServer & Console
Event enrichment with CI-information
Additional event information and ops-instructions
HP OM – Event Enrichment
• Vi berikar HP OM larm med följande CMDB CI-informat ion om hosten :– Environment type (Production, Test, Development, Ver ification)– Status (Active, Planned , Retired)– Area (Mat, Bank)– Servertype (Unix, Windows)
• Applikationslarm är idag hårdkodade med namnet på d en applikation som larmet berör.
Event Management på ICA
• Läggs in som CMA attribut
23
ICA Event Knowledge DB
• Berikar larmet med information:– Varför vi har denna övervakning– Vad som hänt– Första åtgärd för operatören– Andra åtgärd för operatören
Event Management på ICA
• Möjlighet att kunna skapa HP ServiceManager ticket– Ändra Prio-nivå– Assignement group– Operator Text – Hämta
24
Event managementHur vi mäter
Implementerade mätningar
• Täckningsgrad
• Hur stor del av alla hostar och applikationer överv akas.
• Lösningstider event kontra användarrapporterade
Event Management på ICA
• Antal öppnade / stängda varningar
• Procentuell del av prioritet 1 samt prioritet 2 inc identer som initieras från events.
• Antal dubblettregistreringar
30
Procentuell fördelning prio 1 och 2 incidenter Event vs. användarinitierade incidenter 4 mån.
Åtgärdsgrupp Fördelning
Network 47,62%
Storage 100%
Microsoft 10,34%
Integration 93,26%
Event Management på ICA
Integration 93,26%
AOB 82,14%
EMS 96,3%
Total 66,42%
32
Hur utvecklar och driver vi Event framåt
• Problemutredningar– Vilka larm fick vi?– Vilka borde vi fått?– Rätt instruktioner?
• Handover och projekt– Säkerställa larm och instruktioner
• Möten med 24/7• Möten med 24/7– Kommande produktionssättningar– Förbättringsförslag på larm, rutiner, instruktioner , verktyg– Avstämningar mellan 24/7 och åtgärdsgrupper
• Regelbundna förvaltningsmöten med plattformsgrupper– Förbättringsförslag på larm, rutiner, instruktioner , verktyg
• Event genomgångar med applikationsförvalntningar
Event Management på ICA33
Goda exempel ICA.seVad vi övervakar och mäter
• Plattformsövervakning– MS Windows server– MS IIS– MS SQL– Network
• Teknisk applikationsövervakning• Teknisk applikationsövervakning– Portping– Windows Services– NAS konnektivitet– GSA funktionalitet– Windows Eventlog
• Funktionell applikationsövervakning (HP BAC)– 37 EUM transaktioner varav 25 går förbi lastbalanse rare– HP BAC ���� HP OM larm på felande transaktioner
Event Management på ICA39
Goda exempel ICA.seProcentuell fördelning event vs. användarrapportera de incidenter
24/7 lösningsandel
• Prio 1: 50%
• Prio 2: 42%
• Prio 3:18%
Event Management på ICA
• Prio 3:18%
• Prio 4: 70%
40
ICA.se
• ICA.se är:
• 74% snabbare än medelapplikationen på att lösa prio 1 incidenter
• 58% snabbare än medelapplikationen på att lösa prio 2 incidenter
• 22% långsammare än medelapplikationen på att lösa pr io 3 incidenter
• 74% snabbare än medelapplikationen på att lösa prio 4 incidenter
Event Management på ICA
• Hur kom de dit?
• Relevant monitorering
• Goda instruktioner till 24/7
• Kontinuerlig utveckling av events & instruktioner
• BAC larm
41
Utvecklingar
• ”Impact on….”
• Impaktanalys av event ( och change)
• Symptom & Cause
• Impact & Urgency
Event Management på ICA
• Impact & Urgency
• Mer stöd av SLA:er vid arbete med events
• Ny version av ICA Event Knowledge DB
• Mätning av hur stor del av alla middleware (database r, WAS etc) övervakas
43
HP Roadmap – Integration diagram
Incidents ExchangeOMi and SM
Launch capabilites
No. of Open Incidents, Change and Problems
KPI
BSM SM
Event Management på ICA
uCMDB
DDMANNMi
EUMOMW
CI Sync –AppResources to
HP SM
Eventsand CIs
Measurements
3rd party
Discovered CIs & Topologies
2
CI Sync –Applications
to BSM9
1
CI Sync –Servicemodels
to uCDMB
3CI Sync –Servicemodels
to BSM9
4
44