SAN의“필수”여유 공간?

저는 SAN 전문가가 아니며 공급 업체가 해결할 수없는 지속적이고 치명적인 문제에 대한 힌트를 얻기 위해이 글을 쓰고 있습니다.

비디오 감시 시스템 용으로 제공되는 16 x 2 Tb 디스크가있는 ENHANCE ES3160P4 SAN을 소유하고 있습니다. SAN은 공급 업체가 RAID 5 어레이 내에서 14 개의 디스크를 사용하도록 구성되었으며 2 개의 디스크가 전역 예비입니다. RAID는 일반적으로 전체 RAID 공간에 걸쳐있는 동일한 크기의 가상 디스크 2 개로 나뉩니다. 각각은 12 Tb 이상이됩니다. 각 가상 디스크는 단일 LUN에 해당하며 단일 LUN은 단일 비디오 서버에 연결되어 비디오 데이터를 지속적으로 저장하고 사용자가 필요할 때 녹화를 검색 할 수 있도록합니다. LUN은 NTFS로 포맷되며 iSCSI를 통해 Windows Server 2012 비디오 서버에 연결됩니다. 비디오 서버는 사용 가능한 공간을 완전히 사용하는 경향이 있습니다.

이 구성을 사용하면 SAN 디스크가 고장 나고 다른 디스크가 고장 나서 SAN이 RAID를 복구 할 수 없을 때마다 실패합니다. 지난 몇 달 동안 RAID를 4 번 잃었습니다.

이 문제는 SAN 샘플이 잘못 되었기 때문에 발생하지 않는 것 같습니다. 동일한 유형의 동일한 세 가지 시스템이 동일하게 구성되어 있기 때문에 동일한 문제가있는 것 같습니다. 오직 하나만 문제가 없지만 현재는 충분히 사용되지 않습니다.

몇 달 동안 알 수없는 테스트와 점검을 거친 후 공급 업체는 SAN을 100 % 사용해서는 안된다는 사실을 잘 알고 있거나 물리적으로 빠르게 성능이 저하 될 것이라고 말하면서 문제를 해결하기 위해 가상 디스크를 만들어야한다고 말했습니다. RAID에서 사용 가능한 총 공간의 10-15 %를 남겨 둡니다.

웹에서 문제를 검색했지만 이에 대한 구체적인 진술을 찾지 못했습니다. 전체 RAID에 걸쳐 가상 디스크를 생성 한 다음 LUN을 사용하지 않는 것이 더 합리적이라고 생각합니다 (즉, Windows에 여유 공간이 있고 조각화를 방지 할 수 있음). 그렇지 않다면, ENHANCE SAN이 여유 공간이 남아 있어야하는 "잘 알려진"경우 전체 RAID에 걸쳐 가상 디스크를 생성 할 수있는 이유와 공급 업체가 처음에 이와 같이 시스템을 구성한 이유를 이해할 수 없습니다. ... 그러나 그것은 또 다른 요점입니다.

결국 우리는이 상황을 해결하고자합니다. 모든 제안이 수락됩니다. 말했듯이, 나는 SAN 전문가가 아니지만 많은 문제가 발생하면 더 이상이 상황을 받아 들일 수 없기 때문에 공급 업체가 진행 상황을 알고 있는지 여부를 실제로 이해하고 싶습니다.

미리 감사드립니다! 문안 인사

편집 : 디스크 유형 답에서 알 수 있듯이 디스크는 모두 Western Digital 모델 WD2001FYYG-01SL3이라고 덧붙입니다.

storage-area-network disk-space-utilization diskmanagement

— z2k
소스

올바르게 작동하기 위해 여유 공간이 필요한 경우 올바르게 엔지니어링 된 시스템은 클라이언트가 사용할 공간을 제공하지 않고 여유 공간을 확보합니다. 스냅 샷에는 공간이 필요하고 쓰기시 복사 파일 시스템이 필요할 수 있지만 일반적으로 이러한 용도로 사용되는 공간이 적습니다. 최소한 기본적으로 사용자가 위험을 감수하고자하는 경우 사용자가이를 무시할 수 있습니다.

— ptman

최소한 디스크는 좋아 보이고 24/7 SAS 디스크이지만 자주 실패해서는 안됩니다.

— Sven

iossue는 여유 공간이 아니며 바보 같은 구성입니다. Raid 5의 14 개 디스크는 수학별로 안정적이지 않으므로 간단합니다. Raid 6조차도 세금을 부과 할 수 있습니다. 일반적으로 2TB 디스크가있는 RAID는 통계적으로 안정적이지 않습니다. 기간.

— TomTom

@TomTom : 간단한 수학이라고 생각되면 수학을 보여주는 질문에 답하십시오. 내 냅킨 수학에 따르면 13 * 2TB를 읽고 성능이 저하 된 배열을 재구성해도 실패하지 않을 경우 배열이 안정적이라고 말합니다. 물론 레이드 6이 더 좋습니다. 재 구축에 이중 오류가 발생하지 않을 경우 안정적입니다.

— MSalters

With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.

TomTom이 말했듯이 디스크가 RAID5에 비해 너무 크기 때문입니다. 그리고 아마도 RAID 6도 마찬가지입니다. 성공적인 재건 가능성은 거의 100 %에 달하지 않으며, 여러분 자신은 몇 달 만에 "4 건"의 재건이 실패했다고 말했기 때문에이 사실을 알고 있습니다. RAID 구성은 바보이며 공급 업체는 무능하며 단순합니다.

— HopelessN00b 2019

답변:

당신이 묘사 한 것의 주된 문제는 그들이 큰 어레이에 대해 RAID5를 사용하기로 결정했다는 것입니다.이 설정에는 아주 나쁜 선택입니다. 이는 경험 한 이유입니다. 복구 중에 두 번째 디스크 장애가 발생하면 이 두 번째 실패는 그 위험을 감수 할 가능성이 너무 높습니다.

예를 들어 RAID6을 대신 사용하는 경우 복구 중에 두 번째 디스크 장애가 발생해도 어레이에 장애가 발생하지 않으며 순 스토리지 용량에 해당하는 디스크 하나의 비용과 특정 성능 영향으로 복구가 정상적으로 진행될 수 있습니다.

15 %의 여유 공간을 남겨두면이 문제에 어떤 도움이되는지 알 수 없으며 파일 시스템의 성능 관점에서 보면 좋은 아이디어 일 수도 있고 그렇지 않을 수도 있지만, 이는 실패한 RAID와는 관련이 없습니다. 나는 헛소리라고 부릅니다.

그러나 몇 달 동안 여러 번 이런 일이 발생하는 것은 RAID5 시스템에 비해 너무 많은 것으로 보입니다. 사용 된 디스크 유형을 살펴 보는 것이 좋습니다. 공급 업체가 그러한 시스템에서 사용하도록 인증 된 24/7 드라이브 대신 저렴한 데스크탑 드라이브를 사용했을 수 있습니다.

— 스벤
소스

입력 해 주셔서 감사합니다. 디스크 유형을 추가하는 질문을 편집했습니다.

— z2k

나는 이것이 오래된 게시물이라는 것을 완전히 이해하고 있지만 프로덕션 환경에서 계속 큰 RAID5 어레이를 볼 때 여기에 내 생각을 추가하고 싶습니다.

너무 자주 고장난 디스크는 일반적으로 과열 및 / 또는 너무 많은 진동의 경우로 엔지니어링이 잘 안된 시스템 또는 잘못된 위치에서 발견 될 수 있습니다.
대형 RAID5 배열은되어야 강력하게 피했다. 일반적 으로 RAID5 + 핫 스페어가 아닌 RAID6 어레이를 사용하는 것이 훨씬 좋습니다. OP의 경우, 2 개의 전역 핫 스페어가있는 1 개의 패리티 디스크를 갖는 것이 아니라 RAID6 구성에 2 개의 패리티 디스크를 갖는 것이 훨씬 낫습니다.
오류 및 상태보고를위한 안정적인 시스템을 갖추는 것이 중요합니다. 무의식적으로 저하되고 모니터링되지 않는 어레이는 재난을위한 레시피입니다.

— 쇼 단쇼
소스

프로덕션에서 큰 RAID5 어레이를 계속 볼 수 있습니다. 나는 또한 대형 배열이 추가 거라고 무서운 인해 가난한 기하학에 일반적으로 성능 및 배열이 RAID6로 구축하는 경우에도 동일한 배열에서 공유 다중 LUN 사이의 경쟁. IME는 내가 권장하는 가장 큰 배열은 4 + 1 RAID5 및 8 + 2 RAID6입니다. 일부 고급 컨트롤러는 더 큰 어레이에서 일부 성능 문제를 숨길 수 있지만 최고의 컨트롤러는 시간을 재 구축하는 데 도움이되지 않습니다.

— Andrew Henle