次のエラーが原因でサーバーがクラッシュしたことがわかりました。欠陥のあるハードウェアに関連しているか完全に関連しているかはわかりません。
サーバーの詳細: Red Hat Enterprise Linux ES バージョン 4 (Nahant Update 6) [root@athena log]# uname -a Linux athena.nsdecatur.local 2.6.9-67.0.7.ELsmp #1 SMP Wed Feb 27 04 :47 : 23 EST 2008 x86_64 x86_64 x86_64 GNU/Linux
情報
Sep 17 15:08:16 athena kernel: EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
Sep 17 15:08:16 athena kernel: MC0: CE page 0x2c2766, offset 0xb10, grain 8, syndrome 0xac08, row 1, channel 0, label "": k8_edac
Sep 17 15:08:16 athena kernel: MC0: CE - no information available: k8_edac Error Overflow set
Sep 17 15:08:16 athena kernel: EDAC k8 MC0: extended error code: ECC chipkill x4 error
Sep 17 15:08:17 athena su(pam_unix)[19579]: session opened for user oracle by (uid=0)
Sep 17 15:08:17 athena su(pam_unix)[19579]: session closed for user oracle
Sep 17 15:08:17 athena su(pam_unix)[19634]: session opened for user oracle by (uid=0)
Sep 17 15:08:17 athena su(pam_unix)[19634]: session closed for user oracle
Sep 17 15:08:18 athena kernel: EDAC k8 MC0: general bus error: participating processor(local node origin), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
Sep 17 15:08:18 athena kernel: MC0: CE page 0x39c857, offset 0xd50, grain 8, syndrome 0x1cc8, row 1, channel 0, label "": k8_edac
Sep 17 15:08:18 athena kernel: MC0: CE - no information available: k8_edac Error Overflow set
Sep 17 15:08:18 athena kernel: EDAC k8 MC0: extended error code: ECC chipkill x4 error
Sep 17 15:08:18 athena su(pam_unix)[19715]: session opened for user oracle by (uid=0)
Sep 17 15:08:18 athena su(pam_unix)[19715]: session closed for user oracle
Sep 17 15:08:18 athena su(pam_unix)[19758]: session opened for user oracle by (uid=0)
Sep 17 15:08:19 athena su(pam_unix)[19758]: session closed for user oracle
Sep 17 15:08:20 athena su(pam_unix)[19807]: session opened for user oracle by (uid=0)
Sep 17 15:08:20 athena su(pam_unix)[19807]: session closed for user oracle
Sep 17 15:08:20 athena su(pam_unix)[19850]: session opened for user oracle by (uid=0)
Sep 17 15:08:20 athena su(pam_unix)[19850]: session closed for user oracle
Sep 17 15:08:20 athena kernel: EDAC k8 MC0: general bus error: participating processor(local node origin), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
Sep 17 15:08:20 athena kernel: MC0: CE page 0x39c857, offset 0xd50, grain 8, syndrome 0x1cc8, row 1, channel 0, label "": k8_edac
Sep 17 15:08:20 athena kernel: EDAC k8 MC0: extended error code: ECC chipkill x4 error
Sep 17 15:08:21 athena su(pam_unix)[19899]: session opened for user oracle by (uid=0)
Sep 17 15:08:21 athena kernel: EDAC k8 MC0: general bus error: participating processor(local node origin), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
Sep 17 15:23:54 athena syslogd 1.4.1: restart.
Sep 17 15:23:54 athena syslog: syslogd startup succeeded
Sep 17 15:23:54 athena kernel: klogd 1.4.1, log source = /proc/kmsg started.
ベストアンサー1
これらのエラーは、RAMがECCイベントを検出したことを意味します。 RAMに問題があります。一般的には、より多くのエラーを監視し続けます。これは通常、RAMに障害があるか、RAMコントローラに障害があることを示します。時々1つか2つのポップアップが現れることは珍しいことではない。
どちらの場合もハードウェアエラーです。
監視装置
これらのエラーを監視し、しきい値を設定することに興味がある場合は、このパッケージを確認してくださいmcelog
。トリガーとその効果の設定は、次のタイトルのU&L質問で説明されています。mcelogの書き込みトリガ。