アレイから自動的に「削除された」MDADM RAIDディスクを識別する方法は?

アレイから自動的に「削除された」MDADM RAIDディスクを識別する方法は?

RAID1 mdアレイには2つのディスクがあります。 MDADMはディスクエラーを検出し、ディスクを「失敗」させますが、mdadmサーバーが予期せず再起動します。確認してみると/proc/mdstatmdadm --detail /dev/md0削除されました」と浮かびます。

通常、ディスクが「失敗」とマークされている場合は、mdadmディスク名がに表示されるか、またはに表示されます。これにより、障害が発生したディスクを簡単に識別し、交換用のサーバーから正しいディスクを取り外すことができます。/proc/mdstat(F) mdadm --detail /dev/md0

ただし、再起動後にmdadmドライブが mdadm アレイから自動的に「削除」されると、障害の発生したディスクはこれらのコマンドには表示されません。各ドライブを繰り返してUUID配列を含むmdadmヘッダーを見つけることができますが、場合によっては正しいドライブにmdadm --examine /dev/dm-*表示されることがわかります(他のテストサーバーではドライブが何であるかを正確に知っています)。mdadm: No md superblock detected on xxx)ディスク名は次のとおりです)

だから私の質問は、mが自動的にディスク名を削除したときに失敗したディスク名を一貫して識別できることですmdadmdadmこれは「失敗」してから、サーバーが何らかの形で(または意図的に)再起動したときにのみ発生することです)気づきました)。

ベストアンサー1

ディスクの可能なエラーモードの1つは、ディスクが完全に応答しないため、後続の再起動時にディスクを検出できないことです。カーネルに関する限り、ディスクはプラグが抜かれたように見えます。

したがって、この状況でエラーが発生したディスクを識別する完全に一般的で信頼できる唯一の方法は、削除:エラーが発生したすべてのディスクを一覧表示することです。はいタスク(たとえば、lsblk -o +SERIAL,MODELディスクのシリアル番号とモデル名をリストに含める)し、物理ディスクを見つけます。いいえリストに。

lsblkシステムがまだ障害が発生したディスクを検出できる場合は、デバイスにパーティションがある場合とない場合がありますが、接続されているマウントポイントがなく、RAIDセットに接続されていないため、出力でもかなり明確にする必要があります。 。

一部のディスクは内部セルフテストに失敗するとサイズをゼロとして報告し始めるため、ここでもSIZE出力列が便利です。lsblk

おすすめ記事