私はPuppet
まったく同じ方法で設定したいくつかのホストブロックを持っています。それらは同じハードウェア(同じブレードシャーシ)を持ち、まったく同じ方法で接続されており、一部のインターフェイスは他のインターフェイスとは異なる動作をします。これはInfinibandインターフェイスなので、同じコマンドを使用してテストできます。ibping
これはibsysstat
、有効なUVERBS / RDMA接続があることを示しています。たとえば、
master# ibsysstat 29
sysstat ping succeeded
機能しないLIDを持つノードは次のとおりです。
node10# ibstat
CA 'mlx4_0'
CA type: MT4099
Number of ports: 1
Firmware version: 2.11.1250
Hardware version: 1
Node GUID: 0x...
System image GUID: 0x...
Port 1:
State: Active
Physical state: LinkUp
Rate: 40
Base lid: 29
LMC: 0
SM lid: 26
Capability mask: 0x02594868
Port GUID: 0x...
Link layer: InfiniBand
ちなみにIPoIB IPアドレスで簡単な操作だけでping
接続はできません。他のコマンドも確実にトラフィックを転送し、show debug出力を追加するとデータが表示されますibping
。-d
ウォッチフェイスを使用すると、pingが消えるのを見ることができますが、tcpdump
何も入力しません。その隣には、すべてがうまく機能するコンソールがあります。ルーティングテーブルも私には良く見え、動作するホストと一致します。動作しないホストで:
default via 10.10.0.1 dev em1 proto dhcp metric 100
10.10.0.0/24 dev em1 proto kernel scope link src 10.10.0.110 metric 100
10.11.0.0/24 dev ib0 proto kernel scope link src 10.11.0.110
169.254.0.0/16 dev ib0 scope link metric 1005
そのうちの1つに対して、次のことを行います。
default via 10.10.0.1 dev em1 proto dhcp metric 100
10.10.0.0/24 dev em1 proto kernel scope link src 10.10.0.108 metric 100
10.11.0.0/24 dev ib0 proto kernel scope link src 10.11.0.108
169.254.0.0/16 dev ib0 scope link metric 1004
唯一の違いは最後のパスの指標ですが、これは重要ではありません。また、これらのホストが再構成されるまで正常に機能していたことも注目に値します。だから私はそれがハードウェアではないとほとんど確信しています。
私は今少し圧倒されています。どんなアイデアでも大いに感謝します。
編集:dmesgエラーが更新されました
dmesg
ホストにのみ存在する関連インターフェイスの出力で動作しないことがわかりました。間違い
ib0: failed to modify QP to RTR: -22
残念ながら、これはあまり役に立ちません。検索に関連するコンテンツはあまりありません。
接続されているホストがスイッチのIPアドレスをpingでき、スイッチが接続されているIPでホストをpingできることにも注意が必要です。