SUSE Linux HPCシステムの緊急モードの問題

SUSE Linux HPCシステムの緊急モードの問題

高性能コンピューティング(HPC)用のヘッドノードと4つのワーカーノードがあります。

最近では、データセンターのメンテナンスのためにシステムをシャットダウンする必要がありました。システムの電源を入れようとしましたが、次のエラーメッセージが表示されます。

[ 5.215623][ C14] nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2)
You are in emergency mode. After logging in, type "journalctl -xb" to view system logs, "systemctl reboot" to reboot, "systemctl default" or "exit" to boot into default mode.
Give root password for maintenance (or press Control-D to continue):

ループに閉じ込められたようです。

最初はCtrl+を選択してd提案どおりにデフォルトモードで起動しましたが、残念ながら毎回同じパニックモードエラーが繰り返されました。

次のようないくつかの点が関連する可能性があります。

  • よくわかりませんが、点検後にシステムの電源を入れてみると、システム背面に外部USBが差し込まれているようでした。これが問題を引き起こすかどうかはわかりませんが、言及する価値があります。

  • 各ノードには、電源アダプタに接続された2つの電源コ​​ードが必要です。再接続の過程で、ノードの電源ラインの1つが元の電源に接続されていないことに気づきました。しかし、問題は解決されており、必要に応じてすべてのノードに電力が供給されます。

私はLinuxの専門家ではないので、この問題の原因は何であるかわかりません。オンラインで解決策を探しましたが、何も私に適しているようです。

同様の問題が発生した場合、またはSUSE LinuxおよびHPCシステムに関する専門知識がある場合は、この「パニックモード」の問題を解決する方法についてのアドバイスや指示をお寄せいただきありがとうございます。

ベストアンサー1

おすすめ記事