2012年7月21日土曜日

ZFS mirror(2台)からraidz(4台)に移行

HDD4台でZFSを使うときに使用しそうなパターンで、4KセクタHDD向けの設定比較をして来ました。
結果を見ると設定した方が良いのかなという感じです。

さて、一通り試したいことは出来たので、2台のmirrorから4台のraidzに移行しようと思います。
環境は、こんな感じです。
  • HP ProLiant MicroServer
  • Seagete ST3000DM001 x4台
  • CentOS 6.2
  • ZFS on Linux (0.6.0 RC8)
HDD2台でmirrorで運用していたものを、HDD4台のraidzの運用に変更します。
まず、mirrorで使用していたHDD1台と、性能比較で使用したHDD3台(poolはdestroy済み)を接続します。
$ cd /dev/disk/by-id
$ ls scsi*ST3000*part1
scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1
scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1
scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1
scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
次のようにしてmirrorプールをimportします。
dtpoolとして使用していたものをopoolでインポートしています。
# zpool import -d /dev/disk/by-id/ dtpool opool
  pool: opool
    id: 3916950419245301417
 state: DEGRADED
status: One or more devices contains corrupted data.
action: The pool can be imported despite missing or damaged devices.  The
        fault tolerance of the pool may be compromised if imported.
   see: http://zfsonlinux.org/msg/ZFS-8000-4J
config:

        opool                                      DEGRADED
          mirror-0                                 DEGRADED
            ata-ST3000DM001-9YN166_Z1F0AAAA-part1  ONLINE
            sdb1                                   FAULTED  corrupted data

なんか、sta-*でimportされました。
次に、移行先のraidzを作るためのダミーデバイスを作ります。
$ dd if=/dev/zefo of=/var/tmp/dummy bs=1024K count=1 seek=3000000
raidzのデバイスの1つに穴開きファイルを使って、データ移行後に入れ換える作戦です。
次のようにraidzのプールを作ります。
# zpool create -o ashift=12 -f dtpool raidz \
    /var/tmp/dummy \
    scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
    scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
    scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zpool list
NAME     SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
dtpool  10.9T   912K  10.9T     0%  1.00x  ONLINE  -
opool   2.72T  2.32T   412G    85%  1.00x  DEGRADED  -
#
ashift=12で、4Kセクタ用の設定を指定しています。
ダミーデバイス(ファイル)は、オフラインにしないとデータ移行時に書き込まれてしまうのでオフラインにします。/varに3TBなんてありません。
情報をみるとこんな感じになります。
# zpool offline dtpool /var/tmp/dummy
# zpool list
NAME     SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
dtpool  10.9T   912K  10.9T     0%  1.00x  DEGRADED  -
opool   2.72T  2.32T   412G    85%  1.00x  DEGRADED  -
# zpool status
  pool: dtpool
 state: DEGRADED
status: One or more devices has been taken offline by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Online the device using 'zpool online' or replace the device with
        'zpool replace'.
 scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        dtpool                                        DEGRADED     0     0     0
          raidz1-0                                    DEGRADED     0     0     0
            /var/tmp/dummy                            OFFLINE      0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors

  pool: opool
 state: DEGRADED
status: One or more devices could not be used because the label is missing or
        invalid.  Sufficient replicas exist for the pool to continue
        functioning in a degraded state.
action: Replace the device using 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-4J
 scan: resilvered 39K in 0h0m with 0 errors on Fri Jun 29 22:41:17 2012
config:

        NAME                                       STATE     READ WRITE CKSUM
        opool                                      DEGRADED     0     0     0
          mirror-0                                 DEGRADED     0     0     0
            ata-ST3000DM001-9YN166_Z1F0AAAA-part1  ONLINE       0     0     0
            9459549258261188968                    UNAVAIL      0     0     0  was /dev/sdb1

errors: No known data errors
次のようにして移行元のマウントを変更します。
# zfs set mountpoint=/old/ts opool/ts
# zfs set mountpoint=/old/backup opool/backup
# zfs mount -a
# df -h
Filesystem            Size  Used Avail Use% Mounted on
 :
/dev/sde3              20G  1.2G   18G   7% /var
dtpool                7.8T  256K  7.8T   1% /dtpool
opool                 369G  128K  369G   1% /opool
opool/ts              2.7T  2.4T  369G  87% /old/ts
opool/backup          372G  2.7G  369G   1% /old/backup
#
移行先の領域をつくります。
# zfs create dtpool/ts
# zfs create dtpool/backup
# zfs set mountpoint=/data/ts dtpool/ts
# zfs set mountpoint=/data/backup dtpool/backup
# zfs mount -a
# df -h
Filesystem            Size  Used Avail Use% Mounted on
 :
dtpool                7.8T  128K  7.8T   1% /dtpool
opool                 369G  128K  369G   1% /opool
opool/ts              2.7T  2.4T  369G  87% /old/ts
opool/backup          372G  2.7G  369G   1% /old/backup
dtpool/ts             7.8T  128K  7.8T   1% /data/ts
dtpool/backup         7.8T  128K  7.8T   1% /data/backup
#
領域が出来たのでデータ移行します。
zfsのsend,receiveでも良かったんですが、今回は進捗を見たかったのでrsyncを使いました。
TSデータ以外は、バックアップして整理したら意外と少なくなりました。

データ移行が完了したら、mirrorプールを削除して、raidzプールのダミーデバイスをリプレースします。
# zpool destroy opool
# zpool list
AME     SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
dtpool  10.9T  3.27T  7.61T    30%  1.00x  DEGRADED  -
# zpool status
  pool: dtpool
 state: DEGRADED
status: One or more devices has been taken offline by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Online the device using 'zpool online' or replace the device with
        'zpool replace'.
 scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        dtpool                                        DEGRADED     0     0     0
          raidz1-0                                    DEGRADED     0     0     0
            /var/tmp/dummy                            OFFLINE      0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors
# zpool replace dtpool /var/tmp/dummy scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1
リプレース中は、次のような状態になります。
リプレース開始から暫くすると転送レートが安定して、それなりの終了時間がわかるようになります。
# zpool status
  pool: dtpool
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
 scan: resilver in progress since Sun Jul  1 19:01:13 2012
    35.4G scanned out of 3.27T at 232M/s, 4h3m to go
    8.84G resilvered, 1.06% done
config:

        NAME                                            STATE     READ WRITE CKSUM
        dtpool                                          DEGRADED     0     0     0
          raidz1-0                                      DEGRADED     0     0     0
            replacing-0                                 OFFLINE      0     0     0
              /var/tmp/dummy                            OFFLINE      0     0     0
              scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1  ONLINE       0     0     0  (resilvering)
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1    ONLINE       0     0     0

errors: No known data errors
で、大体4時間後に完了しました。
# zpool status
  pool: dtpool
 state: ONLINE
 scan: resilvered 836G in 3h51m with 0 errors on Sun Jul  1 22:53:02 2012
config:

        NAME                                          STATE     READ WRITE CKSUM
        dtpool                                        ONLINE       0     0     0
          raidz1-0                                    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors
# zpool list
NAME     SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
dtpool  10.9T  3.28T  7.60T    30%  1.00x  ONLINE  -
時間はかかりましたが、特に問題なく移行完了できました。

2012年7月14日土曜日

ZFS ashift比較その4 - stripe(4台)

ZFSでの4KセクタHDD向け設定比較の最後はstripeです。

4台構成のstripeで、ashiftオプションの設定による違いを確認します。
次のようにしてpoolを作ります。
# zpool create tank \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zpool status
  pool: tank
 state: ONLINE
 scan: none requested
config:

        NAME                                        STATE     READ WRITE CKSUM
        tank                                        ONLINE       0     0     0
          scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1  ONLINE       0     0     0
          scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
          scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
          scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors
# zdb |grep ashift
            ashift: 9
            ashift: 9
            ashift: 9
            ashift: 9
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  10.9T  80.5K  10.9T     0%  1.00x  ONLINE  -
ashift=9の場合の結果は、次のようになります。
$ bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 44318  99 334959  92 139748  49 43830  95 279734  42 353.9   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12951  99 +++++ +++ 13327  99 12333  99 +++++ +++ 14310  99
abcde.localdomain,15488M,44318,99,334959,92,139748,49,43830,95,279734,42,353.9,6,16,12951,99,+++++,+++,13327,99,12333,99,+++++,+++,14310,99
次はashift=12を指定してpoolを作ります。
# zpool destroy tank
# zpool create -o ashift=12 tank \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zdb |grep ashift
            ashift: 12
            ashift: 12
            ashift: 12
            ashift: 12
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  10.9T   872K  10.9T     0%  1.00x  ONLINE  -
ashift=12の場合の結果は、次のようになります。
$ bonnie+++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 44671  99 347417  94 175133  62 44037  97 307946  47 374.0   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12908  99 +++++ +++ 14430  99 11167  99 +++++ +++ 13170  98
abcde.localdomain,15488M,44671,99,347417,94,175133,62,44037,97,307946,47,374.0,6,16,12908,99,+++++,+++,14430,99,11167,99,+++++,+++,13170,98
並べるとこんな感じです。
Sequential Writeのrewriteが2割強UPして、Block Readは1割UPしています。
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
ashift=9     15488M 44318  99 334959  92 139748  49 43830  95 279734  42 353.9   6
ashift=12    15488M 44671  99 347417  94 175133  62 44037  97 307946  47 374.0   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
ashift=9         16 12951  99 +++++ +++ 13327  99 12333  99 +++++ +++ 14310  99
ashift=12        16 12908  99 +++++ +++ 14430  99 11167  99 +++++ +++ 13170  98
Sequential Block Write/Readは、2台構成のmirrorと比べ大体3倍になっています。

ZFS ashift比較その3 - raidz(4台)

今回は、RAIDZ構成で比較します。

4台構成のraidzで、ashiftオプションの設定による違いを確認します。
まずは、ashit=9でpoolを作ります。
# zpool create tank raidz \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zpool status
  pool: tank
 state: ONLINE
 scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        tank                                          ONLINE       0     0     0
          raidz1-0                                    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors
# zdb |grep ashift
            ashift: 9
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  10.9T   148K  10.9T     0%  1.00x  ONLINE  -
ashift=9の場合の結果は、次のようになります。
$ bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 45119  98 198220  54 96029  35 41985  94 353884  55 233.7   5
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 13007  99 +++++ +++ 13452  98 12167  99 +++++ +++ 14491  99
abcde.localdomain,15488M,45119,98,198220,54,96029,35,41985,94,353884,55,233.7,5,16,13007,99,+++++,+++,13452,98,12167,99,+++++,+++,14491,99
次は、ashift=12でpoolを作ります。
# zpool destroy tank
# zpool create -o ashift=12 tank raidz \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zdb |grep ashift
            ashift: 12
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  10.9T  1.08M  10.9T     0%  1.00x  ONLINE  -
ashift=12の場合の結果は、次のようになります。
$ bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 44184  98 217651  57 120804  43 43254  93 228627  36 227.7   5
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12981  99 +++++ +++ 13074  98 12308  99 +++++ +++ 14327  99
abcde.localdomain,15488M,44184,98,217651,57,120804,43,43254,93,228627,36,227.7,5,16,12981,99,+++++,+++,13074,98,12308,99,+++++,+++,14327,99
並べるとこんな感じになります。
Sequential Writeのrewriteが2割強UPして、Block Readが3割強DOWNしています。
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
ashift=9     15488M 45119  98 198220  54 96029  35 41985  94 353884  55 233.7   5
ashift=12    15488M 44184  98 217651  57 120804 43 43254  93 228627  36 227.7   5
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
ashift=9         16 13007  99 +++++ +++ 13452  98 12167  99 +++++ +++ 14491  99
ashift=12        16 12981  99 +++++ +++ 13074  98 12308  99 +++++ +++ 14327  99
Sequential block readで、性能ダウンするのは少し予想と違う結果になりました。
2台のmirror構成から4台のraidz構成に移行を考えているので、ashiftの設定をどちらにするか悩ましいところです。

2012年7月8日日曜日

ZFS ashift比較その2 - raid10

今回は、RAID10構成で比較します。 4台でmirror+stripeの構成を作り、ashiftオプションの設定による違いを確認します。

まずは、ashift=9から。
# zpool create tank \
  mirror scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
         scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  mirror scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
         scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zpool status
  pool: tank
 state: ONLINE
 scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        tank                                          ONLINE       0     0     0
          mirror-0                                    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1  ONLINE       0     0     0
          mirror-1                                    ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1  ONLINE       0     0     0
            scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1  ONLINE       0     0     0

errors: No known data errors
# zdb |grep ashift
            ashift: 9
            ashift: 9
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  5.44T   110K  5.44T     0%  1.00x  ONLINE  -
ashift=9のbonnie++の結果は、次のようになります。
# bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 45686  99 190095  60 99181  36 43745  93 192523  32 335.0   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12889  97 +++++ +++ 14336  99 12505  99 +++++ +++ 14838  99
abcde.localdomain,15488M,45686,99,190095,60,99181,36,43745,93,192523,32,335.0,6,16,12889,97,+++++,+++,14336,99,12505,99,+++++,+++,14838,99

次は、ashift=12。
# zpool destroy tank
# zpool create -o ashift=12 tank \
  mirror scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
         scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1 \
  mirror scsi-SATA_ST3000DM001-9YN_Z1F0CCCC-part1 \
         scsi-SATA_ST3000DM001-9YN_Z1F0DDDD-part1
# zdb |grep ashift
            ashift: 12
            ashift: 12
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  5.44T   110K  5.44T     0%  1.00x  ONLINE  -
ashift=12の結果は、次のようになります。
# bonnie+++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 44152  99 240200  74 112329  42 44438  95 195719  32 342.1   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12948  99 +++++ +++ 13296  98 12095  99 +++++ +++ 14483  99
abcde.localdomain,15488M,44152,99,240200,74,112329,42,44438,95,195719,32,342.1,6,16,12948,99,+++++,+++,13296,98,12095,99,+++++,+++,14483,99

並べるとこんな感じになります。
Sequential Writeが2割強UPしてるのが目立ちます。
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
ashift=9     15488M 45686  99 190095  60 99181  36 43745  93 192523  32 335.0   6
ashift=12    15488M 44152  99 240200  74 112329 42 44438  95 195719  32 342.1   6
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
ashift=9         16 12889  97 +++++ +++ 14336  99 12505  99 +++++ +++ 14838  99
ashift=12        16 12948  99 +++++ +++ 13296  98 12095  99 +++++ +++ 14483  99
前回の2台構成のmirrorと比べるとRAID1とRAID10の比較になるので予想通りですが、Sequential Read/Writeがほぼ2倍になっていることが分かります。

2012年7月7日土曜日

ZFS ashift比較その1 - mirror(2台)

4KBセクタのHDDを使用しているHP ProLiant MicroServer, CentOS 6.2, ZFS on Linuxという環境で、ashiftの設定による性能を比較します。
環境はこんな感じです。
$ uname -r
2.6.32-220.23.1.el6.x86_64
$ rpm -q zfs-* spl-*
zfs-0.6.0-rc8.x86_64
spl-0.6.0-rc8.x86_64

まずは、今まで使用していた2台構成のmirrorで、ashiftオプションの設定による違いを確認します。

ashiftには、512byteセクタの場合は9、4096byteの場合は12を指定することになります。

こんな感じでpoolを作ります。
Seagate ST3000DM001は、論理セクタサイズを512byteと返すので、デフォルトだとashiftは9が使用されるようです。
# zpool create tank mirror \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1
# zdb |grep ashift
            ashift: 9
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  2.72T   552K  2.72T     0%  1.00x  ONLINE  -
#
ashift=9の場合の結果は、次のようになりました。
# bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 45832  99 114327  36 47687  20 41445  90 93675  16 265.3   4
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 13073  99 +++++ +++ 14567  99  7688  99 +++++ +++  5378  99
abcde.localdomain,15488M,45832,99,114327,36,47687,20,41445,90,93675,16,265.3,4,16,13073,99,+++++,+++,14567,99,7688,99,+++++,+++,5378,99

次は、4096byte用の設定を試します。
pool作製時に、-o ashift=12を指定します。
# zpool destroy tank
# zpool create -o ashift=12 tank mirror \
  scsi-SATA_ST3000DM001-9YN_Z1F0AAAA-part1 \
  scsi-SATA_ST3000DM001-9YN_Z1F0BBBB-part1
# zdb |grep ashift
            ashift: 12
# zpool list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
tank  2.72T   552K  2.72T     0%  1.00x  ONLINE  -
#
ashift=12の場合の結果は、次のようになりました。
# bonnie++
~ 略 ~
Version 1.03e       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
abcde.locald 15488M 43242  99 135921  41 58642  24 43621  93 105678  19 284.4   5
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 12874  99 +++++ +++ 14309  99 11690  99 +++++ +++ 13996  99
abcde.localdomain,15488M,43242,99,135921,41,58642,24,43621,93,105678,19,284.4,5,16,12874,99,+++++,+++,14309,99,11690,99,+++++,+++,13996,99
結果を並べるとこんな感じになります。
Sequrntial Block Write/Readが大体1,2割性能UPしています。
Per charは、まあそんな感じかという値ですが、Random Create/Delteは、面白い結果ですね。
                    ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
ashift=9     15488M 45832  99 114327  36 47687  20 41445  90 93675  16 265.3   4
ashift=12    15488M 43242  99 135921  41 58642  24 43621  93 105678 19 284.4   5
                    ------Sequential Create------ --------Random Create--------
                    -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
ashift=9         16 13073  99 +++++ +++ 14567  99  7688  99 +++++ +++  5378  99
ashift=12        16 12874  99 +++++ +++ 14309  99 11690  99 +++++ +++ 13996  99
それぞれの設定についてbonnie++で数回計測したところ、大体同じような結果になったので初回実行時の結果を載せています。