システムにアクセスできない問題が発生しました。特徴は、1) ブロッキングと実行キューの急激な急増、2) バッファメモリがゼロに落ちることです。
症状は、1)既存のプロセスが問題なく実行され続け、2)新しいプロセスが失敗し始めるか、または深刻に遅延することです。したがって、たとえば、SSH および PAM の連続プロセスとスレッドが遅延または応答しないため、新しい SSH セッションが参加できない可能性があります。別の例は、CRONによって生成されたスクリプトです。バッファメモリが0の場合、新しいCRONサイクルがブロックされ、連鎖スクリプトが発生します。
ブロックされた新しいプロセスはスタックメモリに関連していると思います。しかし、私が読んだ症状は、バッファメモリ(I / Oに関連している)の急激な減少です。
スナップショットセッションが接続される可能性があります。スナップショットは、NFSボリュームを動的にマウントしてバックアップファイルを収集することを示しました。利用可能なバッファ容量を超えていますか?
2020年8月11日に追加されました
これが「答え」であるかどうかはわかりませんが、問題が明確になり始めます。私たちは、スナップショットプロセスを追跡するPuppetスクリプトが30分ごとに実行されていることを発見しました。スナップショットはデフォルトでバックアッププロセス中にディレクトリツリーをコピーするため、想像できるように、スクリプトに含まれる無実のdfコマンドは、データツリー全体をコンパイルするために忙しい暴君になる可能性があります。 Puppetスクリプトが完了せず、cronから呼び出されるたびに単にスタックされたため、dfコマンドが頻繁に表示され、カスケードされていることを確認しました。
Puppetプロセスを削除した後、システムはより安定しています。でも今朝にブロックの進行状況が再び急増しているので、見守ってください。この謎はまだ解決されていないかもしれません。