ZFS가 유효한 복제본없이 핫 스페어를 강제로 분리하면 어떻게됩니까?


9

6 개의 RAIDZ로 구성된 ZFS 풀이 있습니다. RAIDZ 중 하나는 단일 RAIDZ에서 두 개의 디스크를 잃어 버려서 두 번째 디스크가 고장 나기 전에 첫 번째 오류에서 ZFS를 복구 할 수 없었기 때문에 성능이 저하되었습니다. 다음은 재부팅 직후 "zpool status"의 출력입니다.

  pool: pod2
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: resilver in progress for 0h6m, 0.05% done, 237h17m to go
config:

        NAME                                                 STATE     READ WRITE CKSUM
        pod2                                                 DEGRADED     0     0 29.3K
          raidz1-0                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F165XG    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1660X    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1678R    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1689F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16AW9    ONLINE       0     0     0
          raidz1-1                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C6E    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C9F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16FCD    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16JDQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17M6V    ONLINE       0     0     0
          raidz1-2                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MSZ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MXE    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XKB    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XMW    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17ZHY    ONLINE       0     0     0
          raidz1-3                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BM4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BRF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18XLP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09880    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F098BE    ONLINE       0     0     0
          raidz1-4                                           DEGRADED     0     0 58.7K
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09B0M    ONLINE       0     0     0
            spare-1                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09BEN  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01  ONLINE       0     0     0  837K resilvered
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0D6LC    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CWD1    ONLINE       0     0     0
            spare-4                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09C8G  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE  ONLINE       0     0     0  830K resilvered
          raidz1-5                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-1CH_Z1F2KNQP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BML0    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPV4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPZP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ78    ONLINE       0     0     0
          raidz1-6                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ9G    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQDF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQFQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CW1A    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BV7M    ONLINE       0     0     0
        spares
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49MB1      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001SS2      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001R0F      AVAIL   

errors: 37062187 data errors, use '-v' for a list

첫 번째 디스크가 고장 나면 핫 스페어로 교체하고 다시 은화되기 시작했습니다. 리 실버가 완료되기 전에 두 번째 디스크에 오류가 발생하여 두 번째 디스크를 다른 핫 스페어로 교체했습니다. 그 이후로 리 실버가 시작되고 약 50 % 정도 완료된 다음 메모리가 모두 소모되어 OS가 중단 될 때까지 메모리 고 블링을 시작합니다.

이 시점에서 서버의 RAM을 업그레이드하는 것은 간단한 옵션이 아니며 그렇게함으로써 해결책을 보장 할 수 있는지 확실하지 않습니다. 이 단계에서 데이터 손실이 발생한다는 것을 이해하지만,이 RAIDZ의 내용을 희생하여 완벽하게 수용 가능한 결과 인 나머지 풀을 보존하기 위해 RAIDZ의 내용을 희생 할 수 있음을 이해합니다. 이 서버의 내용을 다른 서버에 백업하는 중이지만 메모리 소비 문제로 인해 48 시간마다 재부팅 (또는 충돌)이 발생하여 rsync 백업이 중단되고 rsync를 다시 시작하는 데 시간이 걸립니다. 중단 된 부분을 파악하면 다시 시작하지만 시간이 오래 걸립니다).

ZFS가 두 개의 예비 교체 작업을 처리하려고 시도하는 것이 메모리 소비 문제의 원인이라고 생각하므로 ZFS가 한 번에 하나씩 작동 할 수 있도록 핫 스페어 중 하나를 제거하고 싶습니다. 그러나 예비 디스크 중 하나를 분리하려고하면 "/ dev / disk / by-id / scsi-SATA_ST3000DM001-1CH_W1F49M01 : 유효한 복제본을 분리 할 수 ​​없습니다"라는 메시지가 나타납니다. 아마도 -f 옵션을 사용하여 작업을 강제 할 수는 있지만 그 결과가 무엇인지 정확히 알지 못하므로 앞으로 누군가가 입력 사항이 있는지 확인하고 싶었습니다.

백업이 완료 될 정도로 충분히 오래 작동 할 수있는 안정적인 상태로 시스템을 확보 할 수있는 경우 점검을 위해 시스템을 중단 할 계획이지만 현재 상태에서는 약간의 복구 루프가 발생합니다.


이 태그를 태그했습니다 zfs-fuse. 이것이 실제로 ZFS 퓨즈입니까? OS 세부 사항을 제공하십시오.
ewwhite

당신은 ewwhite 내기. 데비안 6.0.6
jasongullickson

이 시스템의 RAM 용량은 얼마입니까? 어레이를 얼마나 자주 문지르셨습니까?
Chris S

실제 ZFS 구현이 아닌 FUSE를 사용한 이유는 무엇입니까? 특히 여기에는 많은 하드웨어가 있습니다. 이 배열이 완료된 것 같습니다 ...
ewwhite

시스템을 구축 할 당시에는 Linux 용 기본 ZFS 구현이 없었습니다.
jasongullickson

답변:


1

현재 UNAVAIL 디스크를 분리 할 수 ​​있으며 ZFS는 더 이상 디스크를 사용하지 않습니다.

RAIDZ-1 설정에 디스크 두 개가 고장났습니다. 일부 데이터 손실을보고있을 가능성이 높으며 백업에서 복원 할 준비가되어 있어야합니다.

참고로, RAIDZ는 OpenSolaris / Solaris11에 대한 경험에서 매우 색다른 것으로 판명되었습니다. 모든 종류의 프로덕션 워크로드에서 사용하지 않는 것이 좋습니다.

또한 ewwhite가 말한 것을 강화하기 위해 FUSE가 최선의 선택은 아닙니다. 이 기회를 통해보다 안정적인 것으로 마이그레이션 할 수 있습니다 (아마 FreeBSD 10).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.