Illumosベースのシステムでディスクコントローラの問題を解決するにはどうすればよいですか?

Illumosベースのシステムでディスクコントローラの問題を解決するにはどうすればよいですか?

IllumosベースのOmniOSを使用しています。

2つのミラー化SSDを持つZFSプールがあります。このプールは、次のように100としてdata報告されます。%biostat -xn

r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
0.0    8.0    0.0   61.5  8.7  4.5 1092.6  556.8  39 100 data

iotop残念ながら、1秒あたりのスループットはあまりありません。23552

私もそれを実行し、iostat -E多くの報告を受けましたTransport Errors。我々はポートを変更したが、彼らは消えた。

ドライブに問題がある可能性があると思いましたが、SMARTで問題がないと何度も実行しましたが、問題は報告されませんsmartctl -t shortでしsmartctl -t longた。

私はそれを実行し、fmadm faulty次のように報告しました。

--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Jun 01 18:34:01 5fdf0c4c-5627-ccaa-d41e-fc5b2d282ab2  ZFS-8000-D3    Major     

Host        : sys1
Platform    : xxxx-xxxx       Chassis_id  : xxxxxxx
Product_sn  : 

Fault class : fault.fs.zfs.device
Affects     : zfs://pool=data/vdev=cad34c3e3be42919
                  faulted but still in service
Problem in  : zfs://pool=data/vdev=cad34c3e3be42919
                  faulted but still in service

Description : A ZFS device failed.  Refer to http://illumos.org/msg/ZFS-8000-D3
              for more information.

Response    : No automated response will occur.

Impact      : Fault tolerance of the pool may be compromised.

Action      : Run 'zpool status -x' and replace the bad device.

示されているように、私は走ってzpool status -xそれを報告しましたall pools are healthy

DTraceを実行した結果、すべてのIOアクティビティが<none>(ファイルの場合)に発生することがわかりました。これはメタデータなので、実際にファイルIOが発生しませんでした。

実行すると、kstat -p zone_vfs次のように報告されます。

zone_vfs:0:global:100ms_ops     21412
zone_vfs:0:global:10ms_ops      95554
zone_vfs:0:global:10s_ops       1639
zone_vfs:0:global:1s_ops        20752
zone_vfs:0:global:class zone_vfs
zone_vfs:0:global:crtime        0
zone_vfs:0:global:delay_cnt     0
zone_vfs:0:global:delay_time    0
zone_vfs:0:global:nread 69700628762
zone_vfs:0:global:nwritten      42450222087
zone_vfs:0:global:reads 14837387
zone_vfs:0:global:rlentime      229340224122
zone_vfs:0:global:rtime 202749379182
zone_vfs:0:global:snaptime      168018.106250637
zone_vfs:0:global:wlentime      153502283827640
zone_vfs:0:global:writes        2599025
zone_vfs:0:global:wtime 113171882481275
zone_vfs:0:global:zonename      global

数字はとても心配1s_opsです10s_ops

コントローラの問題のようですが、よくわかりません。それともどこでより多くの情報を入手できますか?

ベストアンサー1

プールは暗号化されたZFSコンテナdataですlofi。これが問題です。

次の理由で、これがlofiの「仮想」コントローラのパフォーマンスの問題であることを確認できます。

  • lofi + zfs +暗号化スループットは約10〜25 MB / sです。
  • lofi + zfs +暗号化なしスループットは約30MB / sです。
  • 既存のZFSなしのLofiのスループットは〜250MB / sです。
  • コントローラはdata100%の利用率を報告しますが、実際のコントローラはほとんど利用できません。
  • 同じ設定で複数のコンピュータでテストした結果は、基本的に同じでした。

ここで問題はlofiディスクコントローラではありません。

おすすめ記事