競合するLinuxマシンのデバッグ

競合するLinuxマシンのデバッグ

私は15の同じLinux RH 4.7 64ビットサーバーを持っています。クラスタ化されたデータベースを実行します(クラスタはアプリケーションレベル)。時々(毎月)ランダムなボックス(同じではありませんが)が停止します。

箱にPingを送ることができ、Pingは正しく機能します。ボックスでsshを使用しようとすると、次の結果が表示されます。

ssh_exchange_identification: Connection closed by remote host

SSHが正しく設定されています。

サーバールームに行き、コンソールに直接ログインしようとするとAlt+を使用してコンソールを切り替えるFnことができ、ユーザー名を入力すると文字が表示されますが、を押した後はEnter何も起こりません。一度は8時間待っても何の変化もありませんでした。

すべてをリモートホストに書き込むようにsyslogを設定しましたが、このログには何もありません。コンピュータを再起動すると正常に動作します。ハードウェアテストを実行しました。すべてがうまくいきますが、ログには何もありません。機械はまたNAGIOSによって監視され、凍結する前に異常な負荷や活動はありませんでした。

アイデアが足りません。他に何をしたり確認したりできますか?

ベストアンサー1

カーネルが何らかの方法でパニック状態に陥り、sshdがサーバーキーを送信できないようです。カーネルが固定されているため、ネットワークスタックは引き続き実行されますが、vfs 階層を使用できなくなる可能性があります。

RHEL4システムで同様の問題に直面したときnetdumpおよびnetconsoleサービス、クラッシュダンプ、カーネルパニック情報をキャプチャする専用のnetdumpおよびsyslogサーバーもあります。また、kernel.panic sysctlを10に設定しました。これにより、システムパニックが発生したときにそのシステムにカーネルトレースとメモリコピーが作成され、「crash」ユーティリティを使用してそれらを分析できます。

もちろん、ホスト用のシリアルコンソールを設定すると、コンソール出力を見て魔法のsysrqキーを押すことができるという利点があります。また、ネットワークを設定する意向があり、それをサポートするハードウェアがある場合は、IPMIを使用してリモートで電源をオフ、オン、再起動し、ハードウェアを照会できます。

(RHEL5にはクラッシュダンプがローカルに保存されることを除いて、kexec / kdumpに似た機能があることに言及する価値があります)

おすすめ記事