APEI一般ハードウェアエラー:ATTO SAS HBAのPCIeエラー

APEI一般ハードウェアエラー:ATTO SAS HBAのPCIeエラー

最近、リモートサーバーをデュアルCPU搭載の新しいDell PowerEdge T630にアップグレードしました(したがって、すべてのPCIeスロットが有効になっています)。新しいATTO H644 SAS HBAを介して接続されたIBM LTO5テープ・ドライブを追加する前に、数週間はうまくいきました。

システムは正常に起動し、カードが取り付けられるまで安定した状態を維持します。カードを取り付けた後、POSTは正常であり、Linuxカーネルが起動すると次のようになります。

megasas: INIT adapter done
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: APEI generic hardware error status
{1}[Hardware Error]: severity: 1, fatal
{1}[Hardware Error]: section: 0, severity: 1, fatal
{1}[Hardware Error]: flags: 0x01
{1}[Hardware Error]: primary
{1}[Hardware Error]: section_type: PCIe error
{1}[Hardware Error]: port_type: 4, root port
{1}[Hardware Error]: version: 1.16
{1}[Hardware Error]: command: 0x0547, status: 0x4010
{1}[Hardware Error]: device_id: 0000:00:1c.4
{1}[Hardware Error]: slot: 2
{1}[Hardware Error]: secondary_bus: 0x0b
{1}[Hardware Error]: vendor_id: 0x8086, device_id: 0x8d18
{1}[Hardware Error]: class_code: 000406
{1}[Hardware Error]: bridge: secondary_status: 0x2000, control: 0x0003
{1}[Hardware Error]: aer_status: 0x00000000, aer_mask: 0x00000000
{1}[Hardware Error]: aer_layer=Transaction Layer, aer_agent=Receiver ID
{1}[Hardware Error]: are_uncor_severity: 0x00000000
Kernel panic - not syncing: Fatal hardware error!
Rebooting in 30 seconds..

私たちはカーネル3.5.4 x86_64を実行しています。

他の反応なしにサーバーの複数のスロットにカードを使用してみました。また、Clonezillaの最新のライブCDを起動してみましたが、同じ結果が出ました。

問題が何であるかを診断しようとしています...ベンダーIDはIntel用で、デバイスIDはPCIeブリッ​​ジ(pcieportカーネルモジュール)用であるようで、マザーボードに私が知らないものがある可能性があると思います。カードのように。ただし、BIOS POST画面は正常であり、エラーは報告されません。オンボードDellベースボード管理コントローラもハードウェアエラーを報告しません。

サーバーはリモートなので、現在のBIOSでPCIeスロットを無効にします。

ATTO H608カードがあり、ATTOサポートによると、内部および外部SASポートの数を除いて同じです(644 = 6Gbps、4つの外部SAS、4つの内部SAS、608 = 6Gbps、0つの外部SAS、8つの内部SAS)。 。以前のDell PowerEdge 2850の1つでは、H608は同じ3.5.4コアでうまく動作します。

テストする他のT630はありませんが、オフィスでH608カードを試すことができるT620を入手したいと思います。

今は困難な状況です…これがカードの問題なのか、デルの問題なのか、カーネルの問題なのかを調べようと努力しています…どんな意見でも送っていただければ幸いです。

ありがとうございます。 - 乾杯、ピーター。

ベストアンサー1

RH6カーネルバージョン2.6.32-504にも同様の問題があります。 ATTO H680の問題を解決したように見える2.6.32-431にロールバックしました。これは3.5.4カーネルに対するとんでもない解決策かもしれませんが、正しい方向を示すことができると思います。

私の研究で私は見つけました。この記事(ATTOウェブサイト)には次のように記載されています。

ATTO 6Gb ESAS HBAおよびLinuxカーネル 2.6.33

Linuxカーネル2.6.33以降では、PMC 8001チップのサポートというドライバに組み込まれていますpm8001.ko。このドライバーがある場合は、ATTO 6GB HBA に対して自動的にロードされるため、rmmod pm8001ドライバーをロードする前に削除 (" ") する必要があります。

2010年5月現在、このカーネルを使用する唯一のLinuxディストリビューションはFedora Core 12です。 PMCドライバを完全に削除するには、次の場所にある内蔵ドライバを削除してみてください。 /lib/modules/2.6.33-default/kernel/drivers/scsi/pm8001/pm8001.ko

注:この場所は、このカーネルバージョンを使用するすべてのLinuxディストリビューションには適用されない可能性があります。

また、カードのファームウェアをアップデートするには、適切なドライバと設定ツールをインストールする必要があります(該当する場合)。

おすすめ記事