仮想サーバーが応答を停止し、CPUを100％使用しています。診断方法は何ですか？

Question

同様の問題が発生したときに、次のような小さなスクリプトを作成しました（CPUとRAMの使用量とともに、毎秒実行されているプロセスの日付とリストを記録します）。

#!/bin/sh
while true
  do 
    date
    ps faux
    sleep 1
  done >> /a/log/file

バックグラウンドプログラムとして実行しています。これは、プロセスがいつどこで中断されるかを理解するのに役立ちます。

/var/log/messagesその後、問題を正確に識別するために、別のログ（おそらくクレイジープログラムのログ）を調べる必要があります。
インストールすることもできます。atsarIO、ネットワークアクティビティ、CPUなどの統計ログを含む素晴らしいバイナリログを提供します。

/!\ Warning:
このスクリプトを十分に長時間実行すると、ログが大幅に大きくなる可能性があります。十分なディスク容量がある場所にログファイルを保存します。それ以外の場合は大きな問題になる可能性があります。

/!\ Warning 2:
esxi設定が何であるかわかりません。ただし、何らかの理由でディスクが esxi 全体で遅延している場合、仮想マシンが IO に依存する場合、これにより重大な遅延が発生し、CPU 使用率が高くなる可能性があります。

編集2：

@sourcejediが述べたように、スクリプトに同期を追加することで、ハードリブート時にログが記録されるようにすることができます（必要なものはわかりませんが、最も安全な2つが1つより優れています）。

#!/bin/sh
    LOGFILE="a/log/file"
    echo "" > $LOGFILE
    while true
      do 
        date
        ps faux
        sync $LOGFILE
        sleep 1
      done >> $LOGFILE

Answer 1

同様の問題が発生したときに、次のような小さなスクリプトを作成しました（CPUとRAMの使用量とともに、毎秒実行されているプロセスの日付とリストを記録します）。

#!/bin/sh
while true
  do 
    date
    ps faux
    sleep 1
  done >> /a/log/file

バックグラウンドプログラムとして実行しています。これは、プロセスがいつどこで中断されるかを理解するのに役立ちます。

/var/log/messagesその後、問題を正確に識別するために、別のログ（おそらくクレイジープログラムのログ）を調べる必要があります。
インストールすることもできます。atsarIO、ネットワークアクティビティ、CPUなどの統計ログを含む素晴らしいバイナリログを提供します。

/!\ Warning:
このスクリプトを十分に長時間実行すると、ログが大幅に大きくなる可能性があります。十分なディスク容量がある場所にログファイルを保存します。それ以外の場合は大きな問題になる可能性があります。

/!\ Warning 2:
esxi設定が何であるかわかりません。ただし、何らかの理由でディスクが esxi 全体で遅延している場合、仮想マシンが IO に依存する場合、これにより重大な遅延が発生し、CPU 使用率が高くなる可能性があります。

編集2：

@sourcejediが述べたように、スクリプトに同期を追加することで、ハードリブート時にログが記録されるようにすることができます（必要なものはわかりませんが、最も安全な2つが1つより優れています）。

#!/bin/sh
    LOGFILE="a/log/file"
    echo "" > $LOGFILE
    while true
      do 
        date
        ps faux
        sync $LOGFILE
        sleep 1
      done >> $LOGFILE

仮想サーバーが応答を停止し、CPUを100％使用しています。診断方法は何ですか？

ベストアンサー1

編集2：

おすすめ記事