D（「ノンストップスリープ」）状態に入るプロセス頻度の急激な増加を診断する方法

Question

クラスタで実行中だと言われました。複数のネットワークコンピュータにまたがるファイルシステムを使用していますか？プロセスの動作が停止すると、通常これが原因です。しばらく（つまり、カーネルコードを実行しているため、I / Oを完了する必要があります）。

最良の選択は、待機プロセスのスタックトレースを取得することです。これは以下のように行われる。

$ sudo su -
# echo w > /proc/sysrq-trigger
# dmesg -T | less -S

lessもちろん、このコマンドはオプションです。

次に、そのスタックトレースを見てください。nfs3_proc_getattrNFSを使用している場合は、ネットワークベースのファイルシステムへの呼び出しを含めることができます。

別の解決策はを実行することですgdb -p <pid>。ただし、プロセスを所有していない場合、またはデバッグモードがオフになっている場合は、そのコマンドラインオプションに権限の問題がある可能性があります。この方法でgdbを起動できる場合は、whereコマンドプロンプトが表示されたら試してみてください。これもスタックトレースを提供します。Dプロセスの進行中にこれらの結果を取得しようとしたことがないため、実際には機能しない可能性があります。

どのコンピュータでもこれらのファイルを編集できる必要がある場合は、良い解決策はありません。それ以外の場合は、HFSなどの方が適している可能性があります。これは、ファイルをローカルにコピーすることを除いて、ネットワークベースのファイルシステムと似ています。したがって、ファイルにアクセスすると、そのファイルは現在使用されているのと同じコンピュータにあり、コマンドは常にすばやく保持されます。

最後の考え：NFSによってプロセスが100％中断される状況がありました。私はそれらについて何もできませんkill -9。これを削除する唯一の方法は、再起動することです。これは、プロセスが現在のカーネル空間にあり、カーネルがこれらのプロセスを安全に削除できないためです。ユーザーモードに戻るには、送信された信号を受信できるまで待つ必要がありますkill。だから、長い間ファイルシステムを使用していませんでした。それは価値がありません。 NFSを正しくマウント解除する前にVMをシャットダウンすると、問題が発生します。（VMを再起動すると、古いNFSマウントポイントは復元されません。）

Answer 1

クラスタで実行中だと言われました。複数のネットワークコンピュータにまたがるファイルシステムを使用していますか？プロセスの動作が停止すると、通常これが原因です。しばらく（つまり、カーネルコードを実行しているため、I / Oを完了する必要があります）。