Upload
cybozucommunity
View
552
Download
0
Embed Size (px)
Citation preview
守る cybozu.com 運用の裏側
山本泰宇 @ymmt2005
今回技術の難しい話は
しません
こんな疑問ありませんか?
ファーストサーバーのような事故は起きる?
ISMS/ISO27001 認証あれば安心?
サービスレベルって何?
トラブル発生時は誰がどう対応するの?
運用とは
システムなどが正常に稼動し続けられるような状態を維持すること。異常の兆候がないか状態の監視したり、最新版のソフトウェアに入れ替える等の保守作業、老朽化した設備の更新、障害に備えたデータなどの保全、障害時の復旧作業などが含まれる。
via e-words
運用=商品
•月500円 = Officeの値段 月500円 = Office + 運用の値段
•「運用の説明」 = 「商品の説明」
•「運用障害」 = 「商品の不具合」
•「運用への投資」 = 「商品価値増大」
cybozu.comの「商品の一部」
月500円に含まれるもの
サイボウズ
Office
1GBのディ
スクスペース
運用サービス
•障害監視、性能監視、
チューニング、バージョン
アップ、OS・ミドルウェア
の保守、バックアップ、古
い機材の更新、etc.
ここを 解説
ここからの内容
•前提としていること 原理と原則
• サービスレベル 目標
•自動監視システム等 手段
•平時・緊急時の運用体制 体制
•本当にやっているのか? 保証
原理
•人はミスをする
•機械は壊れる
• ソフトウェアにはバグがある
山本の公理
•俗にいう「ヒヤリ・ハット」
•重大:軽微:ニアミス = 1:29:300
ハインリッヒの法則
原則 •顧客データの保護 > サービス再開 > 原因究明 データ優先
•開発者は運用環境にアクセスできません
•開発用に、別データセンターを運営
開発者を 信用しない
•通常運用は完全自動化
•手動操作履歴はすべてログ保存
オペレーターを 信用しない
•利用する範囲で安定運用ができるか評価
•バックアップデータに正常アクセスできることを定期確認
ソフトウェアを 信用しない
•安定運用に支障があるものは、リリースを拒否
•リリース後に発覚したものは即時の改修を要求
社長のいうこと 無茶を通さない
略して
頑固一徹
サービスレベル目標
項目 目標
稼働率 99.9%
応答時間 4秒以内
利用開始まで 3分以内
復旧時間 単純障害は無停止 (VMホスト障害は10分)
ログ保存期間 オンラインで1年間
目標なくして 運用なし!
目標なくして運用なし!
• 各目標値を測定して、
• 自動監視・有人監視体制を構築、
• 性能監視してチューニングしています
稼働目標があるから
• 落ちていても気づかない
• 性能が低下しても改善しない
• 予算・人員もつかない
目標がなければ
監視システム
データセンター
• 外形アクセス監視 • バックグランド処理監視 • リアルタイムアクセスログ監視 • ストレージ監視 • プロセス監視 • リソース使用率監視 • etc.
24時間有人監視センター
オペレーター
目標→測定→公開
cybozu.com Webサイトで公開しています https://www.cybozu.com/jp/service/slo/availability.html
6月30日のうるう秒トラブル
Square ストレージシステム
Squareの秘密
• 独立したバックアップ専用サーバー
• 東日本DCからレプリカの操作は不可
誤操作の
防止
• リストア結果が正常か毎日自動チェック 自動
ベリファイ
• リストアボリュームで事前にリハーサル
• 分離されているので運用環境に影響なし リハーサル
オペレーションルール
3カ条
極力自動化
作業しない勇気
自作ツール禁止
作業ミス対策
操作ログの自動保存
臨時バックアップ
事前リハーサル
ISMS/ISO27001
意味するところ
•規則が決まっている
•規則通り作業している
意味しないところ • 運用レベルが高いか否か • 中身を確認することが重要!
効果
•規則を決めてドキュメントにする文化
•規則通り作業する文化
サイボウズ固有のISMS運用
• ITILや非機能要求グレードを参考に設定
具体的な目標値
• 手順ミス防止を、自動化でさらに追及
オペレーター「も」信用しない
• セキュリティ問題を全社で一元管理する体制を整備
CSIRT (Computer Security Incident Response Team)
• 稼働率目標・結果やストレージの情報を公開
• 各テナント別稼働率なども今後の公開を予定
情報公開
まとめ
cybozu.com 運用チームは頑固一徹
目標なくして運用なし!
認証≠高品質、中身が重要です
Questions?