21
Reducing Noisy Alerts from Nagios Monitoring Casual Talk #1 Takumi SAKAMOTO @takus 12615日金曜日

Reducing Noisy Nagios Alerts

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Reducing Noisy Nagios Alerts

Reducing Noisy Alerts from Nagios

Monitoring Casual Talk #1

Takumi SAKAMOTO@takus

12年6月15日金曜日

Page 2: Reducing Noisy Nagios Alerts

Self Introduction

• Takumi SAKAMOTO

• @takus

• DeNA Co., Ltd. (2012.4 ~)

• Operation Engineer ?

12年6月15日金曜日

Page 3: Reducing Noisy Nagios Alerts

Before Joining DeNA

12年6月15日金曜日

Page 4: Reducing Noisy Nagios Alerts

My365A Photo Sharing SNS

12年6月15日金曜日

Page 5: Reducing Noisy Nagios Alerts

12年6月15日金曜日

Page 6: Reducing Noisy Nagios Alerts

< 20 Servers

12年6月15日金曜日

Page 7: Reducing Noisy Nagios Alerts

After Joining DeNA

12年6月15日金曜日

Page 8: Reducing Noisy Nagios Alerts

Mobage

12年6月15日金曜日

Page 9: Reducing Noisy Nagios Alerts

> 1000 Servers

12年6月15日金曜日

Page 10: Reducing Noisy Nagios Alerts

What’s the Difference?

12年6月15日金曜日

Page 11: Reducing Noisy Nagios Alerts

Someone Said That ...

• What happens once in every million times happens 3500 times per day

http://blog.nomadscafe.jp/2011/05/post-12.html

12年6月15日金曜日

Page 12: Reducing Noisy Nagios Alerts

In the Context of Nagios ...

(Photo : Postal Loathing by justin)http://www.flickr.com/photos/justin/2412778/

12年6月15日金曜日

Page 13: Reducing Noisy Nagios Alerts

Too Many Alert Mails

• Problems

• continue to call our mobile phone

• sometimes hide more important alerts

• burden mail systems

12年6月15日金曜日

Page 14: Reducing Noisy Nagios Alerts

How to Reduce Unnecessary Alerts

12年6月15日金曜日

Page 15: Reducing Noisy Nagios Alerts

#1: Defining Service Dependencies

• Approach

• whatever you use for monitoring remote host status, the status depend on what you use for monitoring

• e.g. SNMP, NRPE, SSH ...

• define service dependencies between parent service and child services

12年6月15日金曜日

Page 16: Reducing Noisy Nagios Alerts

Consider Simple Case 1

• Your nagios monitors remote hosts via SNMP

• CPU, DISK, NTP, MEMORY

• all services are OK

Nagios

Remote Host

CPU

SNMPDISK

NTP

MEMORY

12年6月15日金曜日

Page 17: Reducing Noisy Nagios Alerts

• Nagios sometimes fails to check status by SNMP because of high server load

• In this case, nagios evaluates all service status are UNKNOWN and sends us 4 alert mails

Consider Simple Case 2

Nagios

CPU

SNMPDISK

NTP

MEMORY

???

Remote Host

12年6月15日金曜日

Page 18: Reducing Noisy Nagios Alerts

• If many servers become over-loaded once, nagios sends us a lot of noisy alert mails

• because it is obvious that SNMP doesn’t work well

Consider Simple Case 3

12年6月15日金曜日

Page 19: Reducing Noisy Nagios Alerts

• Nagios stop to send alert mail if SNMP returns UNKNOWN

• you will receive only a SNMP CRITICAL alerts

Defining SNMP Service Dependencies

define servicedependency { dependent_host_name host1 dependent_service_description CPU,DISK,MEMORY,NTP host_name host1 service_description SNMP notification_failure_criteria u}

12年6月15日金曜日

Page 20: Reducing Noisy Nagios Alerts

#2: Summarizing Similar Alerts

テキストSummarizer テキストSend Summary Alert

fluentdでNagiosアラートの集約

http://6pongi.wordpress.com/2012/06/08/fluentdnagios/

CPU

CPU

CPU

12年6月15日金曜日

Page 21: Reducing Noisy Nagios Alerts

What is your solution?

12年6月15日金曜日