同じ問題を持つ複数のDell物理サーバーがあります。FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
これからdmesg
私たちは以下を見ることができます
[2982241.758445] [<ffffffff81697709>] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!
Redhatによると、根本的な原因は次のとおりです。https://access.redhat.com/solutions/438403)
•ドライバが報告されていないハードウェアの問題を検出すると、ドライバ内の個々のio要求に対してDID_ERRORホストステータスが設定されます。
回避策は次のとおりです。
サポートが必要な場合は、ストレージプロバイダにお問い合わせください。
システムハードウェア、スイッチエラーカウンタなどを確認して、問題のある場所の兆候がないか確認してください。
ドライバがリポジトリから異常な、予期しない、または誤った情報を受信していることを報告します。
ドライバが報告されていないハードウェアの問題を検出すると、ドライバ内の個々のio要求に対してDID_ERRORホストステータスが設定されます。これには、ストレージコントローラ内の通信とファームウェアの問題、その他のハードウェアベースの問題も含まれます。
FCアダプター:ストレージのファイバーチャネル応答フレームに競合するデータがあります。これは、RHELまたはそのドライバではなくSAN /ストレージの問題を表します。
LSIアダプター:scsi ioコマンドはコントローラー内で完了できませんでした(停止)。これは、ステータスを返すscsiエラーやコントローラがioを中断する可能性があるクリーンなioタイムアウトの問題とは異なります。これは通常デバイス損失を引き起こし、HBAがLD_OFFLINE(論理デバイスは存在しますがコマンドには応答しません)またはDEVICE_NOT_FOUND(デバイスはハードウェアに存在しなくなります)デバイスステータスを返すときに返されるDID_BAD_TARGETエラーが発生します。
したがって、上記の内容に基づいて、ハードウェアシステム自体を交換する必要があるのか、sdcディスクや他のものを交換する必要があるのかわからないため、迷子になりました。
私たちの事件についてアドバイスをいただきありがとうございます。
ベストアンサー1
sdc
サーバーのディスクが死んでいます。
smartctl -a /dev/sdc
シリアル番号で識別できます。
RAIDを実行している可能性があるため、RAIDを取り外して交換品を取り付けるには注意が必要です。