Infiniband インターフェイスは IPoIB トラフィックをルーティングしません。

Infiniband インターフェイスは IPoIB トラフィックをルーティングしません。

私はPuppetまったく同じ方法で設定したいくつかのホストブロックを持っています。それらは同じハードウェア(同じブレードシャーシ)を持ち、まったく同じ方法で接続されており、一部のインターフェイスは他のインターフェイスとは異なる動作をします。これはInfinibandインターフェイスなので、同じコマンドを使用してテストできます。ibpingこれはibsysstat、有効なUVERBS / RDMA接続があることを示しています。たとえば、

master# ibsysstat 29
sysstat ping succeeded

機能しないLIDを持つノードは次のとおりです。

node10# ibstat
CA 'mlx4_0'
    CA type: MT4099
    Number of ports: 1
    Firmware version: 2.11.1250
    Hardware version: 1
    Node GUID: 0x...
    System image GUID: 0x...
    Port 1:
        State: Active
        Physical state: LinkUp
        Rate: 40
        Base lid: 29
        LMC: 0
        SM lid: 26
        Capability mask: 0x02594868
        Port GUID: 0x...
        Link layer: InfiniBand

ちなみにIPoIB IPアドレスで簡単な操作だけでping接続はできません。他のコマンドも確実にトラフィックを転送し、show debug出力を追加するとデータが表示されますibping-dウォッチフェイスを使用すると、pingが消えるのを見ることができますが、tcpdump何も入力しません。その隣には、すべてがうまく機能するコンソールがあります。ルーティングテーブルも私には良く見え、動作するホストと一致します。動作しないホストで:

default via 10.10.0.1 dev em1 proto dhcp metric 100 
10.10.0.0/24 dev em1 proto kernel scope link src 10.10.0.110 metric 100 
10.11.0.0/24 dev ib0 proto kernel scope link src 10.11.0.110 
169.254.0.0/16 dev ib0 scope link metric 1005

そのうちの1つに対して、次のことを行います。

default via 10.10.0.1 dev em1 proto dhcp metric 100 
10.10.0.0/24 dev em1 proto kernel scope link src 10.10.0.108 metric 100 
10.11.0.0/24 dev ib0 proto kernel scope link src 10.11.0.108 
169.254.0.0/16 dev ib0 scope link metric 1004

唯一の違いは最後のパスの指標ですが、これは重要ではありません。また、これらのホストが再構成されるまで正常に機能していたことも注目に値します。だから私はそれがハードウェアではないとほとんど確信しています。

私は今少し圧倒されています。どんなアイデアでも大いに感謝します。

編集:dmesgエラーが更新されました

dmesgホストにのみ存在する関連インターフェイスの出力で動作しないことがわかりました。間違い

ib0: failed to modify QP to RTR: -22

残念ながら、これはあまり役に立ちません。検索に関連するコンテンツはあまりありません。

接続されているホストがスイッチのIPアドレスをpingでき、スイッチが接続されているIPでホストをpingできることにも注意が必要です。

ベストアンサー1

これはカーネル3.10.0-862.11.1から3.10.0-862.11.6で既知の問題です(参照:ここそしてここ)。

デフォルトでは、カーネルを 862.11.1-862.11.6 に更新すると、セミコロンを省略した drivers/infiniband/core/verbs.c のバグによりすべての信頼できる接続 (rc) メッセージが失敗するが、信頼できないデータグラムメッセージは機能します。 。最新のカーネルがこの問題を解決するまで、このドライバをパッチするか、以前のカーネルから起動してこの問題を解決できます。

おすすめ記事