IllumosベースのOmniOSを使用しています。
2つのミラー化SSDを持つZFSプールがあります。このプールは、次のように100としてdata
報告されます。%b
iostat -xn
r/s w/s kr/s kw/s wait actv wsvc_t asvc_t %w %b device
0.0 8.0 0.0 61.5 8.7 4.5 1092.6 556.8 39 100 data
iotop
残念ながら、1秒あたりのスループットはあまりありません。23552
私もそれを実行し、iostat -E
多くの報告を受けましたTransport Errors
。我々はポートを変更したが、彼らは消えた。
ドライブに問題がある可能性があると思いましたが、SMARTで問題がないと何度も実行しましたが、問題は報告されませんsmartctl -t short
でしsmartctl -t long
た。
私はそれを実行し、fmadm faulty
次のように報告しました。
--------------- ------------------------------------ -------------- ---------
TIME EVENT-ID MSG-ID SEVERITY
--------------- ------------------------------------ -------------- ---------
Jun 01 18:34:01 5fdf0c4c-5627-ccaa-d41e-fc5b2d282ab2 ZFS-8000-D3 Major
Host : sys1
Platform : xxxx-xxxx Chassis_id : xxxxxxx
Product_sn :
Fault class : fault.fs.zfs.device
Affects : zfs://pool=data/vdev=cad34c3e3be42919
faulted but still in service
Problem in : zfs://pool=data/vdev=cad34c3e3be42919
faulted but still in service
Description : A ZFS device failed. Refer to http://illumos.org/msg/ZFS-8000-D3
for more information.
Response : No automated response will occur.
Impact : Fault tolerance of the pool may be compromised.
Action : Run 'zpool status -x' and replace the bad device.
示されているように、私は走ってzpool status -x
それを報告しましたall pools are healthy
。
DTraceを実行した結果、すべてのIOアクティビティが<none>
(ファイルの場合)に発生することがわかりました。これはメタデータなので、実際にファイルIOが発生しませんでした。
実行すると、kstat -p zone_vfs
次のように報告されます。
zone_vfs:0:global:100ms_ops 21412
zone_vfs:0:global:10ms_ops 95554
zone_vfs:0:global:10s_ops 1639
zone_vfs:0:global:1s_ops 20752
zone_vfs:0:global:class zone_vfs
zone_vfs:0:global:crtime 0
zone_vfs:0:global:delay_cnt 0
zone_vfs:0:global:delay_time 0
zone_vfs:0:global:nread 69700628762
zone_vfs:0:global:nwritten 42450222087
zone_vfs:0:global:reads 14837387
zone_vfs:0:global:rlentime 229340224122
zone_vfs:0:global:rtime 202749379182
zone_vfs:0:global:snaptime 168018.106250637
zone_vfs:0:global:wlentime 153502283827640
zone_vfs:0:global:writes 2599025
zone_vfs:0:global:wtime 113171882481275
zone_vfs:0:global:zonename global
数字はとても心配1s_ops
です10s_ops
。
コントローラの問題のようですが、よくわかりません。それともどこでより多くの情報を入手できますか?
ベストアンサー1
プールは暗号化されたZFSコンテナdata
ですlofi
。これが問題です。
次の理由で、これがlofiの「仮想」コントローラのパフォーマンスの問題であることを確認できます。
- lofi + zfs +暗号化スループットは約10〜25 MB / sです。
- lofi + zfs +暗号化なしスループットは約30MB / sです。
- 既存のZFSなしのLofiのスループットは〜250MB / sです。
- コントローラは
data
100%の利用率を報告しますが、実際のコントローラはほとんど利用できません。 - 同じ設定で複数のコンピュータでテストした結果は、基本的に同じでした。
ここで問題はlofi
ディスクコントローラではありません。