SSH の切断により MPI 操作が停止しました。

SSH の切断により MPI 操作が停止しました。

私はTHCPディスクレスサーバーでMPIを使用してきました。ただし、MPIを使用してジョブを実行すると、SSHが切断されたためにプロセスが終了することがあります。

client_loop: send disconnect: Broken pipe

単一の操作にエラーがないか、エラーがありません。
そして、ジョブが終了した後に各CPUにSSHを試みるとうまく接続されます。

私のソースコードはINTEL MKLライブラリを使用し、サーバーは16個のAMD Ryzen 9 5900x CPUと48GB RAMメモリで構成されており、MPICH3も使用しています。

この問題をどのように解決できますか?
sshdの切断に関連するエラーログを非決定的に見つける方法はありますか?

ありがとうございます。

ベストアンサー1

おすすめ記事