サーバー障害

晴れ朝7時半、なんだか電話が鳴っている。 着信を見ると、知らない携帯電話の番号からだった。 もしや、と思い電話に出たら、サーバー会社からだった。 丁度今朝が定期メンテナンスの日で、実行したのだけど、サーバー再起動後、どうもサイトの閲覧おかしいとのこと。
すぐにPC起動して確認するが、表示されたりされなかったり、サーバーが見つからないエラーが出たり……

寝ぼけた頭で考えたが、現象的にDBサーバーが原因のような気がする。
DBは複数台構成で、問題の切り分けのために台数を減らしていったのだけど、それでも状況は改善せず。

いろいろやった結果、原因はapacheのログだった。 ログを記録する際、logrotateにコマンドを送りログを記述する方式にしてるのだけど、ログ書式が防いで、今朝のメンテナンスで適用されたapacheのバージョンでは、不正なログ書式はエラーを吐くようになっており、エラーログにひたすらエラーが書かれ、アクセスログには書かれず、プロセスも溜まりまくり、結果的にプロセスの上限まで達し閲覧できなくなっていた。

症状的にDBサーバーが原因だと思い込んだのが、原因を判明するまで時間がかかったことになる。
9時15分くらいに復旧。 2時間弱もかかるとは……

いろいろ処理してたら、終わったのが9時40分くらいになり、どう考えても会社には間に合わないので遅刻して行く旨を連絡。

準備して会社に行って、サーバー障害の後始末をして、対策も。
これだけ大規模な障害は久々に起きた気がする。

しかし、7時半以前にも携帯が3度もなっており、いずれも不在着信になっていなかったので、目覚ましだと思って無意識のうちに切ってしまったっぽいね。
サーバー会社の人、何度も連絡してくれたようで、ごめんなさい。