27
使ってわかった! 現場担当者が語る OpenStack運用管理の課題 2015-02-04 13:5014:30 [OpenStack Days Tokyo 2015 - P7] ミラクル・リナックス() 技術本部 開発部 佐藤 剛春

OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

  • Upload
    -

  • View
    283

  • Download
    4

Embed Size (px)

Citation preview

Page 1: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

使ってわかった! 現場担当者が語る

OpenStack運用管理の課題

2015-02-04 13:50~14:30

[OpenStack Days Tokyo 2015 - P7]

ミラクル・リナックス(株)

技術本部 開発部

佐藤 剛春

Page 2: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

講師紹介

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 2

玉置 伸行 (たまおき のぶゆき) 日本仮想化技術(株) エンタープライズクラウド事業部所属

• OpenStackの価値を伝える ThinkITでOpenStackディストリビューション8社比較記事を企画

• エンタープライズクラスのクラウド基盤構築の検討支援

佐藤 剛春 (さとう たけはる) ミラクル・リナックス(株) 技術本部 開発部 所属 • MIRACLE ZBX前担当

Enterprise Pack, Virtual Appliance, Hardware Appliance 監視システムのコンサルティング、構築業務等

Page 3: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

疑問:なぜ日本仮想化技術が登壇?

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 3

日本仮想化技術 ミラクル・リナックス

• 仮想化に特化した技術者集団 • 日本におけるOpenStack導入支援・

コンサルティングの先行企業 • 通信業A社 • 通信業B社

• Nova barematel driverを開発し、 Grizzly版にマージした実績あり

2社が協力して、OpenStack環境の運用上の課題 の解決にあたります

• エンタープライズ向けLinuxディストリビューション開発企業

• ミドル領域製品 • MIRACLE ZBX • MIRACLE System Savior • etc.

• 組み込みビジネス • デジタルサイネージ • 専用デバイス対応 • etc.

Page 4: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

OpenStack環境の運用上の課題

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 4

① 管理対象のサーバー 数が莫大である

100物理マシン 1,000仮想ゲスト

② スケールアウトする ことを前提にシステムが

作られている スケールアップから スケールアウトへ

③ 運用の効率化が 求められる

一人の管理者で 1,000物理サーバを管理

④ 障害検知の方法が 多様である

Fault Injectionや 自動学習によるAnomaly検出

Page 5: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

OpenStack環境の運用上の課題に対して、

Zabbix, Miracle ZBXによる監視システム

Hatoholによる統合監視システム

による課題解決をご説明いたします。

本日お話ししたいこと

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 5

Page 6: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 多数の物理マシン(仮想ホスト) • 物理マシンが多数→故障ポイントも多数

• 非常に多数のインスタンス(仮想ゲスト) • 物理マシンの数倍~数十倍

• 物理マシン、インスタンスともに増減する • 物理マシン故障 → 一時的に減少 • 物理マシン増強 → 恒久的に増加 • 利用者増加 → インスタンス増加 • 利用者減少 → インスタンス減少

→ 様々な事象に対し、運用の効率化が求められる

OpenStack環境の特徴

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 6

Page 7: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 監視アプローチの変更 • サービス継続を優先

• アプリケーションの冗長化が前提 • 障害発生ホストは即座に切り離す

• 監視は障害検知に重点を置く • 重要なのは、行動の契機となる障害を検知すること • ディスプレイでの常時モニタリングは、監視システムに対する

負荷となる(監視ソフトによる)

• 障害検知後の自動化も考慮する • 少なくとも、検知した障害からの初動までは可能のはず

構築費用、運用費用も重要な要素…

運用の効率化に向けて

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 7

Page 8: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• Zabbix • OSSの監視ソフト

• 通常のMIRACLE ZBXは無償 • yumコマンドでのインストール手順も掲載

• http://www.miraclelinux.com/product-service/zabbix/lineup/oss • http://www.miraclelinux.com/product-service/zabbix/oss/download

• OpenStack構成ノード用テンプレート無償提供 • http://www.miraclelinux.com/product-service/hatohol/download

• controller, network, computeノード用 • プロセス、ポート監視可能 • RabbitMQのキュー監視可能 ※Zabbix, MIRACLE ZBXどちらでも使用可能

→大規模OpenStack環境では、スケールアウト必須 • Zabbix, MIRACLE ZBXでは実データ, 障害検知履歴がサーバ上の

DBに格納される

Zabbixによる監視システム

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 8

Page 9: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• スケールアウトした監視サーバを統合 • 検知した障害の一括監視・管理と権限分掌の両立

• MIRACLE ZBX

• Zabbix

• Nagios

• (プラグイン作成により、その他の追加も可能)

• インシデント自動登録 • Redmine

• コマンド等の自動実行

• CeilometerによるOpenStack環境の監視

Hatoholによる統合監視システム

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 9

Page 10: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• OSSの運用統合ソフト • http://www.hatohol.org/

• コードリポジトリ • https://github.com/project-hatohol/hatohol/

• ライセンス • LGPLv3

• オープンな開発コミュニティ • ミラクル・リナックスの有志社員が中心となって設立

• どなたでもWelcome!

• 世界中で使われるソフトウェアを目指す

Hatoholとは?

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 10

Page 11: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 複数の監視サーバを統合、障害情報を管理

• 監視対象のリソース状態を一覧確認 • 監視サーバ、監視ソフトの違いを意識する必要なし

• グラフ、障害情報(イベント)として一覧表示可能

Hatoholの構成概念

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 11

アプリ

ゲストOS

アプリ

ゲストOS

仮想マシン 仮想マシン

HyperVisor

Zabbix Nagios Fluentd

Ceilometer libvirt

Zabbix Nagios Fluentd

ゲストOS、アプリの リソース、ログ

仮想マシンリソース

物理マシン、OpenStack のリソース、ログ

Page 12: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• システム拡充とともに増加する監視サーバを統合

• 複数の拠点を跨いだ統合も可能

スケールアウトへの対応

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 12

Hatohol

ZBX Server ZBX Server ZBX Server

追加 追加 追加 …

Page 13: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• Ceilometerでリソース利用状況を把握

• 状況に応じてアクションを実行 • インスタンス増減

• etc.

【注意点】

• MIRACLE ZBX, Zabbixでは監視対象の減少があまり想定されていない • Unreachable Hostとして判別、障害発生と認識

• インスタンスを減らす際は次の順序で実施 1. Zabbix APIを使用して監視対象ホストを削除または無効化

2. インスタンスを明示的に終了

Hatoholのオーケストレーション活用

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 13

Page 14: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

マルチテナント構成例

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 14

ZBX Agent

Instance

NRPE

Instance

ZBX Server

Instance

ZBX Agent

Instance

ZBX Agent

ZBX Agent

Instance

NRPE

Instance

ZBX Server

Instance

ZBX Agent

Instance

ZBX Agent

ZBX Agent

Instance

NRPE

Instance

ZBX Server

Instance

ZBX Agent

Instance

ZBX Agent

ZBX Agent

Instance

ZBX Agent

Instance

Nagios

Instance

ZBX Agent

Instance

ZBX Agent

Tenant A Tenant B Tenant C Tenant D

ZBX Server (H/W監視用)

Hatohol

User 1 Tenant A, B閲覧可

User 2 Tenant C閲覧可

User 3 H/W, 全Tenant閲覧可

Page 15: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 様々なOSS運用ツールを統合

• シームレスな運用・管理を実現

Hatoholで実現する運用統合

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 15

Zabbix

Nagios

fluentd

Redmine

ssh

イベント管理

変更管理 リリース管理

インシデント管理

問題管理 Zabbix

稼働監視 リソース監視 障害判定

自動起票 エスカレーション ステータス管理

ホスト管理 資源/資産管理 設定管理 一括変更

ログ管理 リソース状況参照

状況表示 イベント管理 イベント通知

サービスデスク Ceilometer

Page 16: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

これからのインフラ監視

~障害検知手法の拡充、効率利用状態の確認~

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 16

Page 17: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 障害検知の方法 • プロセス・ポートの状態が正常であっても、正常に動作

しているとは限らない

• アプリケーション冗長状態の確認も必要

• 単純な閾値判定では、運用状態を把握できない

• 効率的利用が重視される • 障害だけではなく、運用状態の監視も必要

→監視手法の拡充が必要

OpenStack環境の課題

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 17

Page 18: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• プロセス・ポートの状態が正常!=正常動作

→追加の監視設定が必要 • APIレスポンス

• DBレスポンス

• Queue depth (AMQP)

障害検知方法の拡充 [1/3]

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 18

Page 19: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• controllerノードに対する要求と結果を比較 • インスタンス生成・終了

• ネットワーク生成・削除

• テナント生成・削除

※即時終了しないことに注意が必要

→OpenStack Rally, tempest-libを活用

• 更に充実させるためには… • プローブ用インスタンスを監視

• プローブ用インスタンスをライブマイグレーションさせつつ監視

障害検知方法の拡充 [2/3]

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 19

Page 20: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• Fault Injection • アプリケーション冗長性の確認

• サービス継続性

• インスタンス利用者側に役立つ手法

• 運用中のシステムに対し、常に障害を引き起こさせる • 予定通り復旧しない場合に障害として検出

• etc.

→Chaos Monkeyを活用 • Netflixが開発、OSSとして公開

• https://github.com/Netflix/SimianArmy

障害検知方法の拡充 [3/3]

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 20

Page 21: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

閾値だけでは、本当の「危険性」は判別できない

→Anomaly検出が必要となる

単純な障害検出の問題点

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 21

100

80

%

時間

☓システム停止

「警告」程度に留めたい

「重度の障害」程度に高めたい

△? ○?

Page 22: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 過去のリソース監視データを統計的・数学的処理

→Apache Storm等を活用 • リアルタイム分散処理システム

→OpenStack Monascaを活用 • Monitoring as a Service

→監視システムの閾値を自動的に変更

自動学習によるAnomaly検出

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 22

Page 23: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• 効率的利用の大敵、異常利用を検出 • 2次元、3次元データなら目視判断が可能

• 自動判定にはデータの種類が不足

リソース異常利用の検出[1/2]

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 23

CPU使用率(%)

Netw

ork使

用率

(%)

Virus? Bot?

Bitcoin Mining?

CPU使用率(%)

Network 使用率(%)

Disk I/O(%)

Page 24: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

• データの種類を追加 • src port, dst portによる重み付けを追加

• 5次元(時間軸を考慮すると6次元)データ

→もはや、人間が目で判断することは不可能

• ベクトルデータとして処理

• 過去のデータ、利用履歴から初期判断基準を生成

• 運用しながら自動学習、異常検出にフィードバック • 適正でない利用形態は日々変化

リソース異常利用の検出[2/2]

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 24

Page 25: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

【セミナー】

• Hatohol 15.03で行うOpenStack運用管理 • 日程: 2015年4月10日(金) 14:00~

• 会場: 秋葉原UDX GALLERY NEXT 4F

• 定員: 100名

• 参加費: 無料(事前登録制)

【資料】

• MIRACLE ZBX + Hatohol環境構築手順書 • OpenStackを監視する構成を半自動で実現 • http://www.miraclelinux.com/product-service/hatohol/download

さいごに

2015/02/04 © 2015 MIRACLE LINUX CORPORATION. All Rights Reserved. 25

Page 26: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

MIRACLE Hatohol Enterprise 詳細情報

Copyright © 2000-2014 MIRACLE LINUX CORPORATION All rights reserved

MIRACLE Hatohol Enterprise 製品ページhttp://www.miraclelinux.com/product-service/hatohol

MIRACLE Hatohol Enterprise 資料・評価版ダウンロードhttp://www.miraclelinux.com/product-service/hatohol/download

Page 27: OpenStack Days Tokyo 2015講演資料「使ってわかった!現場担当者が語るOpenStack運用管理の課題」

ミラクル・リナックス株式会社 【無断転載を禁ず】

この文書はあくまでも参考資料であり、掲載されている情報は予告なしに変更されることがあります。

ミラクル・リナックス株式会社は本書の内容に関していかなる保証もいたしません。また、本書の内容に関連したいかなる損害についても責任を負いかねます。

又、本資料の著作権は特に指定されている箇所を除いて、ミラクル・リナックスが有します。

ミラクル・リナックスが著作権を有するコンテンツにつきましては、ミラクル・リナックスに対して無断で複製、改変、頒布などをすることはできません。

MIRACLE LINUXの名称およびロゴ、MIRACLE ZBXは、ミラクル・リナックス株式会社の登録商標です。その他、本資料に記載している他社の製品名、ロゴなどは、それぞれ該当する各社が所有する商標もしくは登録商標です。