- 初版:2018年12月
- 第二版:2019年12月
- 第三版:2022年3月
はじめに
本エントリーはMicrosoft Azure Stack Advent Calendar 2018の19日目です。
先日の Azure Stack Hub を監視するでは、監視の仕組みをまとめました。本日のエントリでは、監視からのアラートを受け取った後のトラブルシュートについてまとめます。
アラートを切り分ける
Azure Stack Hub のセキュリティでまとめたとおり、Microsoft は Azure Stack Hub に対する管理者の権限を限定しています。そのため、Azure Stack Hub には、管理者の権限で対処できるトラブルと、管理者だけでは対処できないトラブルが存在します。アラートが発生した場合には、自分たちだけで対処できる問題なのか Microsoft または OEM ベンダに協力を要請すべき問題なのかを切り分けることが重要です。
アラートに従う
切り分けのために役に立つのが、アラートの Remediation という項目です。Azure Stack Hub のアラートには Remediation という情報が付与されており、アラートの中にアラートの対処方法が記載されています。アラートのテンプレートから持ってきた2つのアラートの Remediation は次の通りです。
-
A physical disk has failed
- Replace the physical disk as soon as possible to ensure full resiliency. To monitor the progress of virtual disk storage repair, see https://aka.ms/virtualdiskhealth.
-
Scale unit node is offline
- 1.Navigate to the NodeName and try to cycle the node using the Power off/Power on actions on the node blade. (A physical node restart might take up to 10 minutes.)
- 2.If this didnt solve the problem, please contact Support. Before you do, start the log file collection process using the guidance from https://aka.ms/azurestacklogfiles. If hardware replacement is required, there are important pre- and post-replacement steps. See https://aka.ms/azurestackreplacenode.
アラートの中には、具体的な対処方法が書かれているものがあります。これらの対処方法は管理者の権限で対処できます。「A physical disk has failed」のRemediation に記載されているディスクの交換や、「Scale unit node is offline」の Remediation に記載されている再起動などです。管理者による対処で状況が解消しない場合は、「Scale unit node is offline」の Remediation に記載されているとおりサポートに障害を申告して対処してもらいましょう。
また、一部の障害については、アラート内に Repair のボタンが表示されているものがあります。このようなアラートは Repair ボタンを押すことで Azure Stack Hub が自己修復を試みます。
参考:Azure Stack Integrated system を自分で直す
自己診断する
アラートをトリガとするとトラブルシュートは受動的な対応です。Azure Stack Hub には、管理者が能動的に自分の好きなタイミングで Azure Stack Hub の健全性を確認する手段があります。それが Test-AzureStack です。
Test-AzureStack は、Azure Stack Hub の現状と Microsoft が定めた Azure Stack Hub のあるべき姿との差異をチェックしてくれるツールです。このツールはさまざまな内容を網羅的に確認した上で、管理者にわかりやすい形で結果を出力してくれます。
ただし、Test-AzureStack は、結果のサマリだけを管理者に出力します。WARN や FAIL になった理由までは出力してくれません。理由を知るためには、Test-AzureStack に -Debug をつけて実行します。すべての結果を網羅的に確認したい場合は、Azure Stack Validation Summary を利用します。このファイルは、Test-AzureStack の具体的な確認項目と結果がまとめられている HTML ファイルです。このファイルを見れば、Test-AzureStack が何を確認して何を異常と見なしたのかを管理者が確認できます。
まとめ
本日のエントリでは、Azure Stack Hub のトラブルシュート方法をまとめました。Remediation と Test-AzureStack を駆使することで、権限が制限されている Azure Stack Hub であっても Microsoft の力を借りずに簡単なトラブルシュートが可能です。Microsoft のサポートとのやり取りは時間がかかるので、Remediation や Test-AzureStack を利用して自己解決できるものは自己解決していきましょう。
明日のエントリでは、切り分けの次に行う保守対応についてまとめます。