Reducing Noisy Nagios Alerts

Preview:

DESCRIPTION

 

Citation preview

Reducing Noisy Alerts from Nagios

Monitoring Casual Talk #1

Takumi SAKAMOTO@takus

12年6月15日金曜日

Self Introduction

• Takumi SAKAMOTO

• @takus

• DeNA Co., Ltd. (2012.4 ~)

• Operation Engineer ?

12年6月15日金曜日

Before Joining DeNA

12年6月15日金曜日

My365A Photo Sharing SNS

12年6月15日金曜日

12年6月15日金曜日

< 20 Servers

12年6月15日金曜日

After Joining DeNA

12年6月15日金曜日

Mobage

12年6月15日金曜日

> 1000 Servers

12年6月15日金曜日

What’s the Difference?

12年6月15日金曜日

Someone Said That ...

• What happens once in every million times happens 3500 times per day

http://blog.nomadscafe.jp/2011/05/post-12.html

12年6月15日金曜日

In the Context of Nagios ...

(Photo : Postal Loathing by justin)http://www.flickr.com/photos/justin/2412778/

12年6月15日金曜日

Too Many Alert Mails

• Problems

• continue to call our mobile phone

• sometimes hide more important alerts

• burden mail systems

12年6月15日金曜日

How to Reduce Unnecessary Alerts

12年6月15日金曜日

#1: Defining Service Dependencies

• Approach

• whatever you use for monitoring remote host status, the status depend on what you use for monitoring

• e.g. SNMP, NRPE, SSH ...

• define service dependencies between parent service and child services

12年6月15日金曜日

Consider Simple Case 1

• Your nagios monitors remote hosts via SNMP

• CPU, DISK, NTP, MEMORY

• all services are OK

Nagios

Remote Host

CPU

SNMPDISK

NTP

MEMORY

12年6月15日金曜日

• Nagios sometimes fails to check status by SNMP because of high server load

• In this case, nagios evaluates all service status are UNKNOWN and sends us 4 alert mails

Consider Simple Case 2

Nagios

CPU

SNMPDISK

NTP

MEMORY

???

Remote Host

12年6月15日金曜日

• If many servers become over-loaded once, nagios sends us a lot of noisy alert mails

• because it is obvious that SNMP doesn’t work well

Consider Simple Case 3

12年6月15日金曜日

• Nagios stop to send alert mail if SNMP returns UNKNOWN

• you will receive only a SNMP CRITICAL alerts

Defining SNMP Service Dependencies

define servicedependency { dependent_host_name host1 dependent_service_description CPU,DISK,MEMORY,NTP host_name host1 service_description SNMP notification_failure_criteria u}

12年6月15日金曜日

#2: Summarizing Similar Alerts

テキストSummarizer テキストSend Summary Alert

fluentdでNagiosアラートの集約

http://6pongi.wordpress.com/2012/06/08/fluentdnagios/

CPU

CPU

CPU

12年6月15日金曜日

What is your solution?

12年6月15日金曜日