View
4.331
Download
2
Category
Preview:
DESCRIPTION
Citation preview
Reducing Noisy Alerts from Nagios
Monitoring Casual Talk #1
Takumi SAKAMOTO@takus
12年6月15日金曜日
Self Introduction
• Takumi SAKAMOTO
• @takus
• DeNA Co., Ltd. (2012.4 ~)
• Operation Engineer ?
12年6月15日金曜日
Before Joining DeNA
12年6月15日金曜日
My365A Photo Sharing SNS
12年6月15日金曜日
12年6月15日金曜日
< 20 Servers
12年6月15日金曜日
After Joining DeNA
12年6月15日金曜日
Mobage
12年6月15日金曜日
> 1000 Servers
12年6月15日金曜日
What’s the Difference?
12年6月15日金曜日
Someone Said That ...
• What happens once in every million times happens 3500 times per day
http://blog.nomadscafe.jp/2011/05/post-12.html
12年6月15日金曜日
In the Context of Nagios ...
(Photo : Postal Loathing by justin)http://www.flickr.com/photos/justin/2412778/
12年6月15日金曜日
Too Many Alert Mails
• Problems
• continue to call our mobile phone
• sometimes hide more important alerts
• burden mail systems
12年6月15日金曜日
How to Reduce Unnecessary Alerts
12年6月15日金曜日
#1: Defining Service Dependencies
• Approach
• whatever you use for monitoring remote host status, the status depend on what you use for monitoring
• e.g. SNMP, NRPE, SSH ...
• define service dependencies between parent service and child services
12年6月15日金曜日
Consider Simple Case 1
• Your nagios monitors remote hosts via SNMP
• CPU, DISK, NTP, MEMORY
• all services are OK
Nagios
Remote Host
CPU
SNMPDISK
NTP
MEMORY
12年6月15日金曜日
• Nagios sometimes fails to check status by SNMP because of high server load
• In this case, nagios evaluates all service status are UNKNOWN and sends us 4 alert mails
Consider Simple Case 2
Nagios
CPU
SNMPDISK
NTP
MEMORY
???
Remote Host
12年6月15日金曜日
• If many servers become over-loaded once, nagios sends us a lot of noisy alert mails
• because it is obvious that SNMP doesn’t work well
Consider Simple Case 3
12年6月15日金曜日
• Nagios stop to send alert mail if SNMP returns UNKNOWN
• you will receive only a SNMP CRITICAL alerts
Defining SNMP Service Dependencies
define servicedependency { dependent_host_name host1 dependent_service_description CPU,DISK,MEMORY,NTP host_name host1 service_description SNMP notification_failure_criteria u}
12年6月15日金曜日
#2: Summarizing Similar Alerts
テキストSummarizer テキストSend Summary Alert
fluentdでNagiosアラートの集約
http://6pongi.wordpress.com/2012/06/08/fluentdnagios/
CPU
CPU
CPU
12年6月15日金曜日
What is your solution?
12年6月15日金曜日
Recommended