突然クラッシュが発生し、黒い画面に/ dev / sda1が表示されます。

突然クラッシュが発生し、黒い画面に/ dev / sda1が表示されます。

時々明確な理由なく、画面が突然「黒」に変わり、1行のテキストのみが表示されます。

/dev/sda1: clean 1068388/64102400 files, 29744985/256399616 blocks

システムが再起動しようとしているようです。ただし、それ以降は何も起こらずにリセットボタンを押す必要があります。

このようなことが3回起こりました。午前中に一度再起動した後、大きなタスクは実行されませんでした(ブラウザのみを開いただけで再現できません)。過酷な負荷(ニューラルネットワーク訓練)では、このようなことは起こらなかったので、次のような熱問題ではないと確信しています。この投稿

/var/log/kern.logファイルに次の疑わしい行が見つかりました

... [    0.024000] tsc: Fast TSC calibration failed
...
... [    0.796335] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+

最後の行が3回連続で出てくるのにどういう意味なのかわかりません。

私は実行しています:

  • オペレーティングシステム:Ubuntu 18.04
  • カーネル: 4.15.0-39-一般(x86_64)
  • デスクトップ版:GNOME Shell 3.28.3
  • ディスプレイドライバ:NVIDIA 396.45
  • コンパイラ: Clang 3.3 + LLVM 3.3 + CUDA 9.2
  • ファイルシステム:ext4

かなり新しいデスクトップの仕様は次のとおりです。

  • プロセッサー: AMD Ryzen Threadripper 1900X 8コア @ 3.80GHz(16コア)
  • マザーボード: ASRock X399 Professional Gaming
  • メモリ: 64512MB
  • ディスク: 1050GB Crucial_CT1050MX + 4001GB Elements SE 25FF
  • グラフィックカード: 2x SLI NVIDIA GeForce GTX 1080 Ti 11264MB

この問題の原因は何ですか?

インテリジェント制御

コメントに応じて、出力は次のようになります。

sudo smartctl --all /dev/sda

はい

=== START OF INFORMATION SECTION ===
Device Model:     Crucial_CT1050MX300SSD1
Serial Number:    173818DBA7DB
LU WWN Device Id: 5 00a075 118dba7db
Firmware Version: M0CR060
User C    apacity:    1.050.214.588.416 bytes [1,05 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Nov 17 14:39:52 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        ( 2783) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    (  13) minutes.
Conveyance self-test routine
recommended polling time:    (   3) minutes.
SCT capabilities:          (0x0035) SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   010    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       454
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       333
171 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       1
174 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       1
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   074   059   000    Old_age   Always       -       26 (Min/Max 16/41)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Unknown_SSD_Attribute   0x0030   100   100   001    Old_age   Offline      -       0
206 Unknown_SSD_Attribute   0x000e   100   100   000    Old_age   Always       -       0
246 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       945594898
247 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       29549867
248 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       8744251
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   000   000   000    Pre-fail  Always       -       4424
210 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

更新(黒い画面ではなくログアウト)

黒い画面が表示されるのではなく、理由がなくアカウントからログアウトされました。これらの質問が関連しているようです。このイベントの間、Vimは次の内容を強調しましたkern.log

Nov 19 09:44:52 Gauss kernel: [    0.793729] dpc 0000:00:01.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+
Nov 19 09:44:52 Gauss kernel: [    0.793735] dpc 0000:00:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+
Nov 19 09:44:52 Gauss kernel: [    0.793744] dpc 0000:40:03.1:pcie010: DPC error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 6, DL_ActiveErr+
...
Nov 19 09:44:52 Gauss kernel: [    0.890282] RAS: Correctable Errors collector initialized.
...
Nov 19 09:44:52 Gauss kernel: [    1.026963] nvidia: module verification failed: signature and/or required key missing - tainting kernel
...
Nov 19 09:44:52 Gauss kernel: [    2.927217] scsi 10:0:0:1: Failed to get diagnostic page 0x1
Nov 19 09:44:52 Gauss kernel: [    2.927219] scsi 10:0:0:1: Failed to bind enclosure -19
...
Nov 19 09:44:52 Gauss kernel: [    5.227132] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
...
Nov 19 09:44:52 Gauss kernel: [    5.602354] thermal thermal_zone0: failed to read out thermal zone (-61)

ベストアンサー1

X11またはWayland GUIサーバーがクラッシュしてテキストモードコンソールに戻ったようです。 GUIモードに切り替える前にシステムを起動したときに実行されたファイルシステムチェックでは、1行のテキストが表示されることがあります。 Ubuntu 18.04は最初の仮想コンソールでGUIを起動するため、GUIサーバーがクラッシュして再起動しないと、仮想コンソールが応答しなくなります。

(他のLinuxディストリビューションでは、伝統的に7番目の仮想コンソールをGUIとして使用し、X11サーバーがクラッシュするとシステムが自動的にデフォルトの最初の仮想コンソールに戻り、機能的なログインプロンプトが表示されます。Ubuntuは明らかにGUIサーバーを使用しているようです)起動起動とGUIログイン間のよりスムーズな切り替えのための最初の仮想コンソールですが、GUIサーバーがクラッシュしている場合は、テキストモードログインプロンプトにアクセスするために仮想コンソールを知る必要があります。

すべての行は/var/log/kern.logLinuxカーネルの起動後数秒以内に記録されます(各行の先頭の角かっこ内の起動後の秒数に基づいて)、直接的な関係がない可能性があります。

を押してみてくださいControl+Alt+F2。カーネルがまだ残っている場合は、黒い画面にテキストモードのログインプロンプトが表示されます。その後、ログインしてsudo systemctl restart gdmGUIを再起動したり、テキストモードでログやその他のトラブルシューティング情報を収集したりできます。再起動するとgdm自動的にGUIに戻ることができますが、2番目の仮想コンソールのログインセッションは引き続きログインしたままです。 2つのControl-Alt-F1コンソール間を使用して切り替えることができますControl-Alt-F2

カーネルログには何も表示されないため、カーネルに問題はなく、デスクトップのみがクラッシュした可能性があります。この場合、追加のログファイルがより役に立ちます。

  • /var/log/gdm.log
  • /var/log/Xorg.0.logそれでは(まあ、Waylandと同等のものは何ですか?)

免責事項:私はUbuntu 18.04を直接使用したことがありません。この答えは私が読んだ内容に基づいています。

おすすめ記事