ブログ
AWS EC2 障害対応の顛末
管理している AWS EC2 で障害が発生!
忘れない内に記録。
いつもと口調が違うが気にしない。
AWS マネジメントコンソールを開いて該当するインスタンスの情報を見ると
Instance State running にも関わらず、 Status Check Failed とのこと。
詳細情報には system status check failed unreachable ….. の文字
心当たりが無かったので Monitoring を見ようにも情報なし。
unreachable なんだから取得出来なくて当然か。
何が起こってるのかさっぱり分からない。
さて、どうしよう。
ウェブを検索してみると処方箋としては次の選択肢がある模様。
1. Reboot
2. Stop/Start
3. Support に help
—————————
Reboot インスタンスを再起動したら回復したという事例多数。
Reboot 操作するも変化なし。
5分程待つも再起動の気配なし。
Reboot 出来ないときは Stop / Start を試してみよ。とのことなので
Stop 実行。
5分程待つ。
停止の気配なし。
もう一度 Stop 操作を行おうとすると Force Stop ボタンが現れた。
仕方が無いので Force Stop 実行。
更に 10分程待つが停止の気配なし。
サポートに連絡しようと準備をしている間にインスタンスが停止したとのこと。
喜び勇んで Start 実行。
暫くして、 Instance State が running に移行。
無事、起動出来た。
と安心したのもつかの間、IPアドレスが見覚えのない IPアドレスに。
停止すると IPアドレスが変わるんだった。
確保したままの Elastic IP アドレスを Associate して再起動したら SSH で接続出来ました。
やっと一安心。
後から分かったこと。
Instance を選択、右クリックして Get System Log を選択するとシステムログを見ることが出来る。
障害が起きた時はココを第1に見るように。
他の事例では Reboot 完了に 30分掛かった事例もあった。
早合点せずに 30分は様子を見よう。
状態が変化しない時はこまめに再表示を実行した方が良い。マネジメントコンソールは定期的に画面をリフレッシュしてくれるが長時間リフレッシュしてくれないタイミングがある模様。