私のサーバー負荷が高い理由を見つける方法はありますか？

Question

使用されているスワップの量を見ると、スワップが原因である可能性があることがわかります。 vmstatの出力は問題シナリオでこれをよりよく示しています。

vmstat 1 30

しかし、topやvmstatは事後問題の診断には適していません。

私の一般的なアドバイスは、このパッケージをインストールすることですsysstat。これにより、システム指標を定期的に保存してからその情報を検索できますsar。 Sysstatはさまざまな詳細で構成できますが、デフォルト設定ではCPU使用率、システム負荷、ページング、および交換の予備的な概要を提供します。

yum install sysstat

sar 
sar -q
sar -B
sar -W

しかし、これがうまくいかない場合は、さらに詳しく調べることをお勧めします。プロセスキュー（負荷平均）に加えて、一般的なパフォーマンス指標を使用してすぐに確認できない作業が進行中である可能性があります。 1つの可能性は、CPUがあまりにも多くの割り込み要求を処理し、システムに残っている使用可能な処理時間中にプロセスがキューに入れられることです。

もしそうなら、/proc/interruptsでいくつかの手がかりを見つけることができます。

cat /proc/interrupts

ネットワークアダプタやローカルタイマーが異常に多数の割り込みを表示しているのでしょうか？

これは、慣れ親しんで次のperf問題が発生するのを待つことに起因する可能性があります。問題が発生したらすぐにロギングを開始するか、平均負荷が高いときにトリガーされるスクリプトを使用してプロセスを自動化します。

perf record -a

perf report

Perfはシステム操作の非常に詳細なビューを提供しますが、大量のデータを収集してかなりのオーバーヘッドを引き起こすため、継続的に実行するのは非現実的です。

CentOS 6.3の場合、ローカルタイマーに関連するカーネルソースコードのバグを修正するCentOS 6.4にアップグレードした後、奇妙に高い負荷平均が消えることがあります。ただし、ハードウェアベンダーから提供された特定のドライバによって問題が発生する可能性があります。

Answer 1