Azure Stack Hub を監視する

azurestack
Published: 2018-12-18
  • 初版:2018年12月
  • 第二版:2019年12月
  • 第三版:2022年3月

はじめに

本エントリーはMicrosoft Azure Stack Advent Calendar 2018の18日目です。

本日のエントリでは、Azure Stack Hub の監視についてまとめます。

Azure Stack の監視手法

ソフトウェアの監視手法

Azure Stack Hub のセキュリティでまとめた通り、Integrated systems は、管理者の Host Node に対する権限を絞っています。そのため、従来のサーバの様に監視用のエージェントを入れてメトリクスやイベントを自分で監視することができません。

では誰が Azure Stack Hub を監視するのか。Azure Stack Hub では、Health Resource Provider と呼ばれる Azure Stack Hub 内部の仕組みが、Azure Stack Hub の各種コンポーネントの正常性を監視しています。自分で自分を監視している形です。

そして、この Health Resource Provider は、異常を検知した場合にアラートを API で公開します。管理者が用意すべきものは、このアラートを取得する仕組みです。なお、Azure Stack Hub はメールや Webhook での通知をサポートしていません。API にアクセスしてアラートを取得する仕組みが必須です。

アラートを取得する仕組みの一つが、Microsoft がリリースしている System Center Management Pack for Microsoft Azure Stack です。この Management Pack は、Azure Stack Hub の API にアクセスして Health Resource Provider のアラートをチェックします。そして、もしアラートがあった場合、SCOM としてアラートを上げます。管理者が設定すべき項目は、SCOM MP が Azure Stack Hub の API にアクセスするための設定と、Management Pack が検知したアラートをどのように通知するかの部分の設定です。

参考:System Center Management Pack for Microsoft Azure Stack

また、SCOM の Management Pack と同じように、API にアクセスする仕組みを作りこめる監視ツールであれば、Azure Stack Hub を監視できます。SCOM の Management Pack 以外にも次のような実装例が公開されています。

ハードウェアの監視手法

Health Resource Provider は、サーバの BMC から SNMP TRAP を受信することで、OS が認識できないファンや電源ユニットなどのハードウェアコンポーネントも監視できます。ただし、上記で監視できる範囲は Host Node だけです。HLH や ToR Switch、BMC Switch は監視できません。

Azure Stack Hub のハードウェア コンポーネントを監視する

Host Node と HLH、すべてのスイッチを監視するのは、HLH 上で動作する OEM ベンダの運用管理ソフトウェアの役割です。OEM ベンダ製のハードウェアを OEM ベンダ製のツールで監視するという従来通りの監視手法です。ただし、HLH はシングル構成です。そのため HLH が故障した場合、OEM 製ソフトウェアによるハードウェアの監視が停止します。このリスクを許容できない場合は、従来の監視方法で Azure Stack Hub 外から Azure Stack Hub を構成するハードウェアとネットワークスイッチを監視しましょう。

まとめ

本日のエントリでは、Azure Stack Hub の監視をまとめました。Azure Stack Hub のソフトウェアの部分は、Microsoft お勧めの監視設計がなされています。管理者の責任は、お勧めの監視設計が通知したアラートを確認することだけです。既存で SCOM をお使いの方は、そのまま SCOM で Azure Stack Hub を監視するといいでしょう。SCOM をお持ちでない方は、監視の仕組みを新しく作る必要があります。それなりの費用と設備がかかりますので、事前準備を忘れずに。