2010/01/13 15時~2011/01/14 10時頃、特定の1つのサーバがアクセス不能でした。そのサーバ上にあった全ての仮想ドメインがアクセス不能となりました。
原因 §
サーバ側の自動メトリックの設定。
問題のサーバはインターフェースが2つあり、手動でメトリックを設定していたが、1カ所だけ設定に抜けがあった。
解決 §
自動メトリックをやめて手動設定した。(本来、手動で設定しているはずであった)
推定される経緯 §
2011/01/13夕方、220.110.2.108のサーバを再起動した際に、自動メトリックで使用される値がなんらかの理由で変化した。それ以後、応答パケットがグローバル側と接続されていないインターフェース側に流れるようになった。
その後、希に適切なインターフェース側にパケットが流れるケースもあったものと思われるが、99%のパケットは間違ったインターフェース側に流れた。
余談 §
自動メトリックはトラブルの要因になりやすいので、物理的論理的インターフェースを2つ以上持つ環境では手動で設定するようにしていたが、見落としがあったのは痛恨である。ちなみに、サーバの稼働開始から数ヶ月以上経過しているが、このような事態は初めてであるので見落としに気付かなかった。