事象
別サーバのHDDをNFSでマウントしてバックアップのコピーをrsyncしているメインサーバがあった。
別サーバが落ちた際に監視等をしていなかったため、
- メインサーバのローカルに差分ファイルを書き出し
- 差分といってもメインサーバにはファイルがないため既存ファイルを一気に書き出し
- I/O負荷が高い状態が継続
- (容量はまだ余裕がありそうだったが)何かのリソースが不足しsystemdがお亡くなり
というシーケンスが発生した模様。
Jan 30 06:25:15 ホスト名 systemd[1]: Failed to fork off sandboxing environment for executing generators: Protocol error
Jan 30 06:25:15 ホスト名 systemd[1]: Freezing execution.
重症そうなlogがでていた。
4番は内部で何が発生したかをさらに追う技術力はないので調査はここまで
別サーバが落ちた原因
Linuxを動かしているSSDとバックアップ用のHDDで構成していたがSSDが完全に動かなくなった模様。HDDは無事。古いハードなので電源が不安のある動きをしている気がしないでもないがSSD故障はしょうがないのでそんなものかもしれない。
対処
クラウドは高く、マシンから離れない生活をしているので懲りずに基本的に物理サーバで復旧対処する。
算定対処
メインサーバ自体は再起動で復活。
バックアップに関してはメインサーバのSSDに短期バックアップ保存->メインサーバのHDDとリモートのHDDの2か所に保存していたためメインサーバHDDの無事は確認。
死んだ別サーバの復旧は後回しにして、取り急ぎS3にバックアップを退避。
本格対処
別サーバのSSDを取り外し、余っていた中古256GSSDに変更、Ubuntsuをセットアップし元の状態に復旧
NFSの死活監視をしていなかったのが原因なので死活監視追加
夜間バックアップで発生するので、監視に気づかない場合に備えNFSがつながっていない時はバックアップをしないように変更