Infiniband HCA、物理状態が無効になった状態で停止 [閉じる]

Infiniband HCA、物理状態が無効になった状態で停止 [閉じる]

2つのサーバー間でポイントツーポイントインフィニバンド接続を確立している間、次のコマンドを実行しましたibportstate -G [my port GUID] disable。ポートポーリングを実行したり、デバイスで操作を実行しようとすると、次のエラーが発生します。

[user@server1 ~]$ perfquery -vvv -ddd
ibwarn: [16059] umad_init: umad_init
ibwarn: [16059] umad_open_port: ca (null) port 0
ibwarn: [16059] umad_get_cas_names: max 32
ibwarn: [16059] umad_get_cas_names: return 1 cas
ibwarn: [16059] resolve_ca_name: checking ca 'qib0'
ibwarn: [16059] resolve_ca_port: checking ca 'qib0'
ibwarn: [16059] umad_get_ca: ca_name qib0
ibwarn: [16059] umad_get_ca: opened qib0
ibwarn: [16059] resolve_ca_port: checking port 0
ibwarn: [16059] resolve_ca_port: checking port 1
ibwarn: [16059] resolve_ca_port: checking port 0
ibwarn: [16059] resolve_ca_port: checking port 1
ibwarn: [16059] resolve_ca_name: phys found -1 on (null) port 0
ibwarn: [16059] umad_open_port: opening mthca0 port 1
ibwarn: [16059] mad_rpc_open_port: can't open UMAD port ((null):0)
perfquery: iberror: [pid 16059] main: failed: Failed to open '(null)' port '0'

インフィニバンドデバイスと対話するすべてのコマンドは、例外なく正確に同じ出力で応答します。ポートの物理状態が詰まっています。

[user@server1 ~]$ cat /sys/class/infiniband/qib0/ports/1/phys_state 
3: Disabled

他のサーバーの状態は次のとおりです。少なくとも試していることがわかります。

[user@server0 ~]$ cat /sys/class/infiniband/qib0/ports/1/phys_state 
2: Polling

再起動し、opensmを再起動し、カードを取り出して交換することもありました。ペアの2番目のシステムはすぐにオフラインに切り替えることができないサービスをホストしているため、HCAを切り替えることはできません。

同様の問題を説明するさまざまなサイトの異なるスレッドを読みましたが、このスレッドでは何も扱っていませんでした。

QLogic IBA7322

CentOS 7、カーネル 3.10.0-514.26.2.el7.x86_64

インフィニバンド診断1.6.5

ベストアンサー1

使用していたケーブルが事前に機能しているにもかかわらず、ケーブルを切り替えることでこの問題を解決しました。その後、もう一度切り替えて再び機能しました。ケーブルの両端を抜いて再接続してみましたが、成功しませんでした。 QSFPおよびSFP DACケーブルとプラグ可能なデバイスに電気ビットがあることを知っていますが、どのように動作するかわからないため、何が間違っているのかはわかりません。

おすすめ記事