投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

Preview:

DESCRIPTION

 

Citation preview

投げやすい椅子と投げにくい椅子の見分けかた

Monitoring Casual Talks #1 (2012/06/15)@tagomoris

12年6月18日月曜日

@tagomorisNHN Japan Corp

Web Service Division

12年6月18日月曜日

Fluentdの話

12年6月18日月曜日

Fluentdの話は、しません

12年6月18日月曜日

今日のお話

投げやすい椅子

投げにくい椅子

12年6月18日月曜日

今日のお話

投げやすい椅子アラート?

投げにくい椅子アラート?

12年6月18日月曜日

椅子 == アラート ?椅子

投げるべきときには投げる

アラートとは別

やばいときには投げるべき

12年6月18日月曜日

椅子 == アラート ?椅子

投げるべきときには投げる

アラートとは別

やばいときには投げるべき

やばい == アラート ……あれ?

12年6月18日月曜日

アラート

監視システムからの警告 (WARN/CRIT)

問題ない状況でアラートを投げてはいけない

「常にアラート出てる」状況への慣れは超危険

投げられたら対処すべきもの

毎回? すぐに? そのうち?

12年6月18日月曜日

「投げる」がゲシュタルト崩壊してきた

12年6月18日月曜日

アラート もうすこし

種類を考える

深刻度

可逆・不可逆性 (放っておいても戻らないものかどうか)

傾向と対策のための通知としてのアラート

サービス停止もしくはその予兆としてのアラート

12年6月18日月曜日

深刻である 深刻でない

不可逆性(対応しないと戻らない)

プロセスダウンディスク障害ディスクFULL

ディスク使用率高

可逆性?(原因(高負荷など)が去ったら

多分戻る)戻らない場合も多い

pingドロップTCP接続失敗loadavg超上昇

swap使用率上昇キュー滞留数増加レプリケーション遅延

loadavg上昇メモリ使用率上昇

12年6月18日月曜日

アラート対応の優先度サービス停止

サーバ停止

サーバ停止?

サーバこのままだと停止

サーバ動いてるけどなんか怪しい

サーバちょこちょこ負荷上がり気味ですね

12年6月18日月曜日

椅子についてやってはいけないことをやってしまうのは悪

そうは言うけど、しょうがないこともある

必要が分かりきっているのにやらないのは極悪

まあみんな忙しいし……

間違ってしまっているのを握り潰すのは至上の悪

……

12年6月18日月曜日

椅子だ、椅子をもて!

12年6月18日月曜日

投げにくい椅子

処理増加による負荷上昇・パフォーマンス低下

CPU、メモリ、loadavg

レプリケーション遅延、キュー滞留

傾向と対策のための検出・アラート

お昼に改良(できるといいね!)、サーバ追加、等

12年6月18日月曜日

投げやすい椅子設定不備による問題

httpdが足りないで詰まる or forkでloadavg上昇

log rotate設定されてない! 世代数大杉だ!

即座に対処すべき

disk full は即死亡 → disk usage highを見逃す担当者には椅子を

12年6月18日月曜日

何が言いたかったか

なんだっけ……。

12年6月18日月曜日

考えられるといいよねアラートにも優先順位がある

突発的なサービス停止は当然最優先だけど

不可逆性のものを本来は優先して対処すべき

さっさと解決するものは解決しちゃった方がいい

セクショナリズムは悪

システム面の問題なら得意でしょ

12年6月18日月曜日

椅子は軽々に投げるべからず

いざというときに投げるから価値がある

投げないと解決しないときに投げたい

解決 ==「理解してもらって繰り返させない」

慣らしてはダメ

12年6月18日月曜日

おわり

Thanks!

12年6月18日月曜日

Recommended