Trouble is my business

システム運用ってのはトラブルがつきものだけど、このところ本業がずいぶんトラブっている。
本学のいわゆる学生用のコンピュータシステムは2月1日にリプレースを迎える。そのため順次入れ替えを行っているのだが、先週末にメールシステムの切り替えをしたらこれが大混乱。メールは使用頻度が高いだけに大迷惑をかけている格好になっている。
原因は複数ある模様。まだ特定できていないものもあるのだけど、1つ判明しているのはLinuxNFSのバグを踏んでいるらしいこと。負荷軽減のため4台のサーバで捌こうとしているのだが、負荷が高まるとkernelが怪しげなメッセージを出し始め、たまにNFSで共有しているある重要なファイルを壊す。関連ありそうなカーネルの箇所も見つけてあるのだが、パッチをあてようにも、あてた影響がどこまであるかわからないためさすがに本番環境でいきなりするのは怖くてできない。とりあえずサーバ数を減らして様子を見つつ、だましだまし運用してる間に確認環境を作ってチェックして・・・という予定になっている。とにかく、学生さんには迷惑をかけていて申し訳ない。
ただ、こういう苦労ってしたことがないとわからないんだろうなぁ、と、いつも思う。ちゃんと動いているときは省みられることがないが、トラブると罵詈雑言を浴びるのがシステム運用者の宿命なのは仕方ないけど、せめて上の人たちはこれを理解してくれているだろうか。こういう状況が引き起こしたデスマーチの労が報いられる場はあまりに少ない。