slurmstepdの考えられる影響:エラー:どの時点でステップメモリ​​制限を超えましたか?

slurmstepdの考えられる影響:エラー:どの時点でステップメモリ​​制限を超えましたか?

スケジューラSlurmに慣れている方に質問があります。時々、次のエラーメッセージが表示されます。 slurmstepd:エラー:特定のポイントでステップメモリ​​制限を超えました。

私はこれが私のプロセスに十分なメモリが割り当てられていないことを意味することを知っています。それにもかかわらず、プロセスはスケジューラによって終了されず、通常は無害に見えます。プログラムが完了するまで実行され、出力ファイルの状態が良好に見えます。

私がしなければならないいつもそのエラーメッセージが表示されたら、出力にエラーがあると仮定してプログラムを再実行しますか?割り当てられたメモリを超えてもプログラムが終了しないのはなぜですか?

ベストアンサー1

SLURMによってジョブが終了したというメッセージを受け取らず、sacctに完了ステータスが表示されない限り、ジョブが完了したと合理的に想定できます。

おすすめ記事