ZFS-L2ARC 캐시 장치 오류의 영향 (Nexenta)


10

NexentaStor 스토리지 장치로 실행 되는 HP ProLiant DL380 G7 서버가 있습니다. 이 서버에는 36GB RAM, 2 개의 LSI 9211-8i SAS 컨트롤러 (SAS 확장기 없음), 2 개의 SAS 시스템 드라이브, 12 개의 SAS 데이터 드라이브, 핫 스페어 디스크, Intel X25-M L2ARC 캐시 및 DDRdrive PCI ZIL 가속기가 있습니다. 이 시스템은 여러 VMWare 호스트에 NFS를 제공합니다. 또한 어레이에 약 90-100GB의 중복 제거 된 데이터가 있습니다.

VM 게스트와 Nexenta SSH / 웹 콘솔에 액세스 할 수 없게하고 기능을 복원하기 위해 어레이를 완전히 재부팅해야하는 두 가지 사고가 발생했습니다. 두 경우 모두 인텔 X-25M L2ARC SSD가 실패하거나 "오프라인"되었습니다. 캐시 오류에 대해 NexentaStor가 경고하지 못했지만 응답이없는 콘솔 화면에 일반 ZFS FMA 경고가 표시되었습니다.

여기에 이미지 설명을 입력하십시오

zpool status출력했다 :

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

이것은 Nexenta 내에서 경고를 트리거하지 않았습니다.

L2ARC 장애가 시스템에 영향을 미치지 않을 것이라는 인상을 받았습니다. 그러나이 경우 분명히 범인이었습니다. RAID L2ARC에 대한 권장 사항을 본 적이 없습니다. 서버에서 불량 SSD를 완전히 제거하면 다시 실행되지만 장치 오류의 영향 (NexentaStor의 알림이 없음)에 대해 걱정하고 있습니다.

편집 - 요즘 L2ARC 캐시 애플리케이션을위한 현재 최고의 선택 SSD는 무엇입니까?


SSD 또는 SATA 포트에 하드웨어 문제가있을 수 있습니까?
tegbains

HP SAS 백플레인입니다. 많은 (Linux) 배포에서 하나의 실패 또는 문제가 발생하지 않았지만 실패는 소비자 급 SSD의 기능이라는 것을 확신합니다. 장애는 수용 할 수 있지만 나머지 디스크 및 전체 스토리지 시스템에 미치는 영향은 더 큰 문제입니다.
ewwhite

특히 Pogo Linux (Nexenta의 최대 통합 업체 / 리셀러 인 것으로 이해)는 Intel 펌웨어의 이후 버전 문제로 인해 더 이상 L2ARC 또는 ZIL 옵션으로 Intel X25 장치를 제공하지 않습니다.
Skyhawk

그리고 권장 교체는 (제조업체, 모델, 가격)?
ewwhite

1
그건 그렇고, 새로운 인텔 320 시리즈는 L2ARC 또는 ZIL 장치로 시도해 볼 수 있습니다. 캐패시터 지원이며 쓰기 내구성이 제한적이지만 (모델에 따라 최대 60 테라 바이트) 남은 마모 비율은 SMART 속성 E9를 사용하여 추적됩니다 (100에서 시작하여 1까지 카운트 다운). 많은 ZFS 사용자가 E9가 1에 접근하는 것을 막기 위해 필요한만큼 자주이 장치를 교체 할 수있을 것으로 예상됩니다.
Skyhawk

답변:


10

ZFS는 디스크 I / O를 수행하지 않으며 ZFS 아래의 장치 드라이버는 디스크 I / O를 수행합니다. 장치가 적시에 응답하지 않거나이 경우 확장기의 다른 모든 장치가 중단되면 ZFS에 장애로 표시되지 않습니다. 모든 ZFS는 I / O가 느립니다.

Intel X-25M 펌웨어에는 과부하가 걸리는 동안 동작에 영향을 미치고 재설정 폭풍이 발생할 수있는 버그가 있습니다. 이 문제는 모든 OS에 영향을 미치며 OS 계층에서 해결할 수 없습니다. 수정 또는 수정에 대해서는 하드웨어 공급 업체에 문의하십시오.

L2ARC에 의해 판독이 만족 될 것으로 예상되면, 판독이 시도 될 것이다. 그런 다음 ZFS는 하위 계층 드라이버를 사용하여 오류를보고합니다. 이 경우 드라이버, 장치 및 기본 시간 초과 설정에 따라 드라이브가 5 분 동안 계속 재설정되고 다시 시도하여 I / O가 실패한 것으로 선언됩니다. 하위 계층 드라이버가 I / O를 실패로 선언 한 후에 만 ​​ZFS가 풀에서 재 시도합니다.

NexentaStor의 볼륨 확인 및 디스크 확인 러너는 추가 오류 메시지를 찾고 이메일 및 오류 로깅을 통해 경고합니다. 디스크 검사 러너는 3.1 릴리스에서 SSD의 펌웨어가 손상되어 나타나는 상태를 구체적으로 알려주기 위해 개선되었습니다.

결론 : 하드웨어에 결함이 있으므로 수정하거나 교체해야합니다.


2
감사합니다. 따라서 더 이상 Intel X-25를 사용하지 않습니다. 교체 할 새 L2ARC SSD 장치에 대한 테스트를 거친 권장 사항을 원합니다.
ewwhite

3

X25-M SSD를 후면 판에 연결하고 있습니까? Nexenta에 알려진 문제가 있으며 백플레인을 통해 L2ARC에 액세스합니다. 가장 좋은 방법은 SSD를 마더 보드의 SATA 포트에 직접 연결하는 것입니다. AHCI도 사용하도록 구성되어 있는지 확인하십시오.

이 서버에서 미션 크리티컬을 실행중인 경우 SLC SSD (예 : X25-E 또는 STEC SSD)로 전환합니다. 그러나 X25-M이 아니라면 아마도 괜찮을 것입니다.


예, 일반 드라이브 베이를 통해 연결하고 있습니다. L2ARC (Sun 및 HP 하드웨어)와 동일한 Intel SSD를 사용하는 다른 설치가 있습니다. 그러나이 특별한 것은 나에게 어려움을 주었다. 필자의 연구에 따르면 L2ARC는 ZIL만큼 강력 할 필요가 없었습니다 (따라서 SLC 및 PCI 기반 ZIL 솔루션과 L2ARC 용 소비자 드라이브 사용). 이것이 바뀌 었습니까?
ewwhite 2016 년

SSD를 마더 보드에 직접 연결하고 작동하는지 확인합니다. 여분의 작동하는 X25-M이있는 경우 현재 제품을 교체하고 SSD 자체가 불량인지 확인할 수 있습니다. SLC SSD : 위험 수준에 따라 다릅니다. 절대 다운되지 않고 빠르게 실행되어야하는 SLA에서 소프트웨어를 실행하는 경우 고급 SSD를 구입하는 것이 더 저렴할 수 있습니다.
zippy

온라인에서 본 대부분의 기사와 토론에서 L2ARC에 Intel X25-M이 권장되었다고 말하려고합니다. 더 이상 해당되지 않으면 선호하는 장치는 무엇입니까?
ewwhite

1
@ewwhite : 이론적으로 L2ARC 장치의 장애는 ZFS가 디스크 읽기로 다시 넘어갈 수 있기 때문에 중단이 없어야합니다 (분명히 성능이 저하 될 수 있습니다). 실제로 .. SSD 동작에 의해 트리거되는 ZFS 또는 scsi 드라이버 버그에 부딪힌 것 같습니다.
Tom Shaw

1
@ewwhite : 아마 좀 더 실용적인 조언을 드리겠습니다. 다음에 시스템 웨지에 시스템 크래시 덤프를 생성하려면 여기의 지침을 따르십시오 . 이러한 종류의 덤프는 Illumos 개발자에게 유용 할 수 있습니다.
Tom Shaw

0

에드, 당신은 비교적 합리적인 가격에서 꽤 대담한 가격에 이르기까지 다양한 것을 사용할 수 있습니다. 나는 모든 경우에 SAS SSD를 배치하는 것을 선호하며 STEC와 Pliant와 함께 잘 해냈습니다. 두 제품 모두 L2ARC 장치가있는 MLC 드라이브를 제공합니다. 아직 테스트되지 않았지만 곧 출시 될 SLC SAS 2.0 인 Seagate의 SSD 제품은 "비싸지 않다"는 소문이 있습니다. 지켜봐 주시기 바랍니다 ....

-PB

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.