BTRSエラーは、常にドライブがすぐに失敗することを意味しますか？

2024-06-23 • tag-icon

やる気がなくなる可能性があると思ったが、矛盾したフィードバックを受けた。ドライブはXPG Gammix AGAMMIXS11P-1TT-C S11 Pro 3D NAND PCIe NVMe Gen3x4 M.2 2280 SSD 1To。私はFedoraを使用しています（34で始まり、問題を特定しながら35に移動しました。）

そのため、数週間Input/output errorかなり大きな（5GB以上）バックアップファイルをハッシュしたときに「s」が表示されました。dmesg私に次の項目を提供します。

BTRFS warning (device dm-0): csum failed root 256 ino 31359 off 70897819648 csum 0xc39e6daf expected csum 0xdd85c8f2 mirror 1
[ 4851.163157] BTRFS error (device dm-0): bdev /dev/mapper/luks-197f7c13-2430-4e53-bc76-2eb5a06a2419 errs: wr 0, rd 0, flush 0, corrupt 1, gen 0

それ自体は大きな問題です。私は基本的にこのコンピュータを読み取り専用デバイスのように使用してきましたが、さらに/usr/lib/いくつかのランダムファイル（小さな設定またはlibファイル）とFirefoxでより多くのbtrfsエラーが発生しました。動作を停止しました。残りのシステムは大丈夫です。nvme-cliドライブからスマートログが頻繁に出てくるのがとても心配です。結果は良く見え、まだ良く見えます。

Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning            : 0
temperature                 : 43 C
available_spare             : 100%
available_spare_threshold   : 10%
percentage_used             : 0%
endurance group critical warning summary: 0
data_units_read             : 23,088,142
data_units_written          : 15,395,166
host_read_commands          : 87,911,793
host_write_commands         : 133,959,725
controller_busy_time        : 2,823
power_cycles                : 875
power_on_hours              : 3,634
unsafe_shutdowns            : 84
media_errors                : 0
num_err_log_entries         : 0
Warning Temperature Time    : 0
Critical Composite Temperature Time : 0
Temperature Sensor 2        : 43 C
Temperature Sensor 3        : 59 C
Temperature Sensor 4        : 43 C
Temperature Sensor 5        : 43 C
Temperature Sensor 6        : 42 C
Thermal Management T1 Trans Count   : 44
Thermal Management T2 Trans Count   : 14
Thermal Management T1 Total Time    : 899
Thermal Management T2 Total Time    : 333

私はFedora 35を新しくインストールすることにしましたが、インストールプロセスはうまくいきました。システムは安定していた。今バックアップ（〜180 GB）をドライブに書き直してハッシュを試みることにしましInput/output errorた。実行してみましたが、btrfs scrub start /テスト結果は正常です。

UUID:             fd4449cc-ab1b-401c-8c62-916bd5e2353c
Scrub started:    Sun Jan  9 19:31:55 2022
Status:           finished
Duration:         0:00:57
Total to scrub:   182.23GiB
Rate:             3.20GiB/s
Error summary:    no errors found

今ハッシュが動作します！（いいえInput/output error、ハッシュはファイルが破損していないことを示しています。）

どうなりますか？私のドライブが徐々に死んでいますか？確認するために追加のテスト（btrfs scrubおよび除外）を実行できますか？nvme smart-log

編集：ちょうど次のようになりましたdmesg -w。

[ 1654.979314] nvme nvme0: I/O 530 QID 12 timeout, aborting
[ 1654.979326] nvme nvme0: I/O 531 QID 12 timeout, aborting
[ 1654.979330] nvme nvme0: I/O 532 QID 12 timeout, aborting
[ 1654.979334] nvme nvme0: I/O 533 QID 12 timeout, aborting
[ 1654.979337] nvme nvme0: I/O 534 QID 12 timeout, aborting
[ 1671.274745] nvme nvme0: Abort status: 0x0
[ 1671.274767] nvme nvme0: Abort status: 0x0
[ 1671.274771] nvme nvme0: Abort status: 0x0
[ 1671.274774] nvme nvme0: Abort status: 0x0
[ 1671.274776] nvme nvme0: Abort status: 0x0

出力smartctl -a：

=== START OF INFORMATION SECTION ===
Model Number:                       XPG GAMMIX S11 Pro
Serial Number:                      xxxxxxxxxxxx
Firmware Version:                   32A0T2IA
PCI Vendor/Subsystem ID:            0x1cc1
IEEE OUI Identifier:                0x000000
Controller ID:                      1
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization:            204,128,706,560 [204 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Jan 10 12:35:38 2022 EST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0b):         S/H_per_NS Cmd_Eff_Lg Telmtry_Lg
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4    15000   15000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        41 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    23,571,578 [12.0 TB]
Data Units Written:                 15,420,722 [7.89 TB]
Host Read Commands:                 89,012,266
Host Write Commands:                134,091,234
Controller Busy Time:               2,832
Power Cycles:                       878
Power On Hours:                     3,639
Unsafe Shutdowns:                   84
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 2:               41 Celsius
Temperature Sensor 3:               56 Celsius
Temperature Sensor 4:               41 Celsius
Temperature Sensor 5:               41 Celsius
Temperature Sensor 6:               40 Celsius
Thermal Temp. 1 Transition Count:   44
Thermal Temp. 2 Transition Count:   14
Thermal Temp. 1 Total Time:         899
Thermal Temp. 2 Total Time:         333

Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged

自己テストの結果（ツールの使用方法を調査しながら、2つの簡単なテストを実行しました）：

Device Self Test Log for NVME device:nvme0
Current operation  : 0
Current Completion : 0%
Self Test Result[0]:
  Operation Result             : 0
  Self Test Code               : 2
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[1]:
  Operation Result             : 0
  Self Test Code               : 1
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[2]:
  Operation Result             : 0
  Self Test Code               : 1
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[3]:
  Operation Result             : 0xf
Self Test Result[4]:
  Operation Result             : 0xf
Self Test Result[5]:
  Operation Result             : 0xf
Self Test Result[6]:
  Operation Result             : 0xf
Self Test Result[7]:
  Operation Result             : 0xf
Self Test Result[8]:
  Operation Result             : 0xf
Self Test Result[9]:
  Operation Result             : 0xf
Self Test Result[10]:
  Operation Result             : 0xf
Self Test Result[11]:
  Operation Result             : 0xf
Self Test Result[12]:
  Operation Result             : 0xf
Self Test Result[13]:
  Operation Result             : 0xf
Self Test Result[14]:
  Operation Result             : 0xf
Self Test Result[15]:
  Operation Result             : 0xf
Self Test Result[16]:
  Operation Result             : 0xf
Self Test Result[17]:
  Operation Result             : 0xf
Self Test Result[18]:
  Operation Result             : 0xf
Self Test Result[19]:
  Operation Result             : 0xf

再起動後に実行すると、dmesg | grep -i nvme次のことについて何も得られません。

[    1.381334] nvme nvme0: pci function 0000:01:00.0
[    1.392743] nvme nvme0: 15/0/0 default/read/poll queues
[    1.394601]  nvme0n1: p1 p2 p3
[   19.943676] EXT4-fs (nvme0n1p2): mounted filesystem with ordered data mode. Opts: (null). Quota mode: none.

ベストアンサー1

2022年にこの質問に対する答えがしばらくなくて忘れてしまいましたが、実際にはついに「ドライブ」に問題が何であるかを見つけました。したがって、この質問を偶然発見した人のために：

ドライブは大丈夫ですが、システムは問題です。ラム問題があります。 memtest86テストでこれを実証した後、保証交換が行われ、チェックサムエラーやドライブまたはBTRFS関連の問題は再び発生しませんでした。

詳細：このビルドには16 GBのRAMが2つあります。これは、表示されるワークロードに比べてかなり過剰です。欠陥のあるスティックは2番目のスティックなので、システムではほとんど使用されません。これは、システム全体が安定している理由を説明します。

ほとんどすべての大容量ファイルハッシュでエラーが発生しますが、小さなファイル操作（ここでファイルが破損している）でも断続的にエラーが発生します。ほとんどの小さなファイル操作は、最初のルートRAMを使用し、最初の16GB RAMを使用した他のアプリケーションによって2番目のルートRAMに「プッシュ」されることがほとんどないため、これが起こると思います。大容量ファイルハッシュは、16 GB以上のRAMが実際に役立つシステムで数少ないユースケースの1つであるため、問題の最も明白な兆候です。たとえば、プロのビデオエディタは私よりも早くこのシステムを拒否することができます（彼らは大容量ファイルを処理するソフトウェアを頻繁に使用します）。

ベストアンサー1

おすすめ記事