blogを見ようと思ったら無反応に。何だこれやばくね。
とりあえずsshで接続して中を見てみる。んー。プロセスはみんな生きてるなあ。lighttpdのエラーログには、php-fpmが空っぽの応答をした時にありがちないつものエラーが大量に発生してる。でもphp-fpmはプロセスも生きてるし、エラーログも無し。何だろうマジで。
分からんなあ、と思いながら/var/logの一覧を見ていたら、ふと異様な物が目に入った。maillogが14GBある。えーと、これってストレージ上限に達してるよな。やっべ。
まずmaillogのtailを見る。dkim-milterに繋がらない、というエラーが延々と出ているようだ。ああ、洒落で入れた奴だな。CentOS5.6にしてから何かうまく行ってないなあ。つっても、ちゃんと原因調べるほど頑張る気も無いんだよな。送信ドメイン認証の有用性そのものに疑問も持っていたし(SPFの設計が嫌いなのは別の問題として)、当面は停止しておくか。こんな理由で停めるのもアレなんだが。
で、仕方無いんでmaillogを空にして、一応blogが応答するのは確認したが、色々おかしくなってるかもしれないのでreboot。異様にシャットダウン処理が重いが、ブート処理に入ったら元通りっぽかった。やれやれだぜ。
つーか14GBってどんだけリトライしてたんだろう、と思いつつ、再起動後にmaillogが増えてないか一応確認する。何か168MBあるんですが。ひー。慌てて中身を確認すると、空にしてからシャットダウンフェーズでkillされるまでの9分40秒の間に一気に膨れ上がっていて、リブートが済んでからは正常化していた。リブート前は40〜50回/秒くらいのリトライ。こえー。一回につき四行の結構長いログが延々と。何でこんな超高速リトライが起きたんだろう。謎だ。
鯖監視のシステムが無いのは問題あるかなあ、やっぱり。うーん。監視の設計がいまいちすっきり思い付かないのだ。
このblogを置いてるさくらのVPSは基本的にはメインサーバの体裁なんだけど、落ちて困るような仕事関係の物は全部Osukini LTの方にあるんだよな。そっちはかなり保守的な運用だから、結構平気なんじゃね、とか思わなくもない。そもそも外向けはsshdとNSDとNginxしかlistenしてないし。というか、Osukini LT上でのWebサービスは立てないことにほぼ決まりだから、Nginxも止めた方がいいか。
うーん。まあ、そもそも止まらないようにしないとだな…。でも、/var/logが溢れるという問題は事前に防げるんだろうか。空き容量が一定値まで減ったら携帯メールにでも通知するとか。携帯メールも結構気付かないんだよな俺(笑)。
まー、一日以内に復旧出来れば十分、みたいな仕事ではあるし、そもそも仕事関係への影響も無かったし、再発しなければ様子見でもいいか。でも一応はサーバ監視関係の情報も気に掛けていく感じで。