2008年09月08日

RAID1(ミラーリング)の復旧作業

今朝サーバー室からやけにピーピー音が鳴っているので、UPSのバッテリー切れかなと思い覗いてみたが、どうも違う。音はLinux(RedHat7.3)のホスティング用サーバからなので内心気が気でなかったが、問題無くアクセスできてエラーも出ている風がない。訳が判らなかったがいろいろ調べてみてどうやらRAIDコントローラから出ているのが判った。
マシンはもう6年も前に購入し、これまで一度もハードウェア上のトラブルは無かったDELLのPowerEdge600SCで、CERC ATA100/4チャネルRAIDコントローラを使いRAID1つまりミラーリングしていたものである。
ほぼ6年間ずっと動かしてきたHDDの一つが故障したのだ。よくもったものと思う。コンソールからdellmgrコマンドを打ってユーティリティを起動し、ObjectメニューからPhysical Driveを見ると見事に一つがFAILEDになっていた。
だが、これまでRAIDの復旧作業はしたことが無い(というか、やったかも知れないが記憶がない)。とりあえず交換用のHDDを買ってきてドキュメントをいろいろ調べてみた。
まず、故障したHDDが2台あるうちのどちらなのかがよく判らない。
ホスティングで稼働中のサーバーなので停止時間は最小限短くしなくてはならない。コントローラーから出ているケーブルをよくよく調べてみて、ようやくChanel-0とChanel-2と書かれているのを発見した。ユーティリティーからは「RAID Ch-0」がFAILEDになっていたのでChanel-0の方を交換すれば良いわけだ。
さっそく交換に移る。シャットダウンし交換するまで約2分。電源を入れると正常なHDDから起動する。無事起動。
次にユーティリティを起動し、先ほどと同じObjectメニューのPhysical Driveを見る。まだCh-0はFAILED状態だ。ここでENTERキーを押し動作メニューのRebuild(再構築)を選択。本当にこの手順で良いのか判らないのだが、マニュアルにはこうとしか書かれていないのでこのまま実行。
進行状態が%表示で現れる。ここから約1時間半後、無事再構築は終了し、FAILED表示がONLINEに変わった。

付け加えると、当初余りにもアラーム音がうるさかったので、この音を消した。ユーティリティのObjectメニューからAdapterを選択し、Alarm ControlからDisable Alarmを有効にする。再構築完了後、こんどはEnable Alarmを有効にしておく。こうしておかないと次回不具合が発生したときに気付かない。
また、メールでもMegaMonitorというログが送られてきていた。
普段見てないので気が付かなかった。

posted by なっちゃん at 17:24| 静岡 曇り| コンピュータ | このブログの読者になる | 更新情報をチェックする