정확히 URE 란 무엇입니까?


14

최근 RAID5 Vs RAID6을 살펴 보았으며 URE 등급과 드라이브 크기 증가로 인해 RAID5가 더 이상 충분히 안전하지 않다는 것을 계속 알고 있습니다. 기본적으로 내가 찾은 대부분의 내용은 RAID5에서 디스크 장애가 발생했을 때 나머지 어레이가 12TB 인 경우 거의 100 %의 확률로 URE를 충족시키고 데이터를 잃을 수 있다고 말합니다.

12TB 수치는 디스크가 하나의 URE에 도달하기 위해 읽은 10 ^ 14 비트의 정격이라는 사실에서 비롯됩니다.

글쎄, 내가 여기에 도착하지 않는 것이 있습니다. 판독은 섹터를 진행하는 헤드에 의해 수행되며, 판독에 실패 할 수있는 것은 헤드 다이 또는 섹터 다이입니다. 또한 다른 이유로 독서가 작동하지 않을 수 있습니다 (머리가 뛰는 진동처럼 모르겠습니다 ...). 3 가지 상황을 모두 다루겠습니다.

  • 독서가 효과가 없습니다 : 그것은 회복 불가능하지 않습니까? 다시 시도 할 수 있습니다.
  • 머리는 죽는다 : 이것은 확실히 회복 할 수 없지만, 또한 전체 플래터 (또는 적어도 측면)를 읽을 수 없다는 것을 의미합니다. 더 놀랍습니다. 아니요?
  • 섹터는 죽습니다 : 완전히 복구 할 수는 없지만 4TB 디스크가 URE의 경우 10 ^ 14로, 8TB의 경우 URE의 경우 10 ^ 14로 등급이 매겨진 이유를 이해할 수 없습니다. 8TB (대부분 최신 기술 일 가능성이 높음)는 4TB에 비해 절반 정도 신뢰할 수 있으므로 의미가 없습니다.

아시다시피, 내가 식별 한 3 가지 실패 지점에서, 아무 의미가 없습니다. 정확히 URE 란 무엇입니까?

저에게 설명 할 사람이 있습니까?

편집 1

첫 번째 답변이 나온 후, 그 이유는 부문이 실패한 것 같습니다. 좋은 점은 펌웨어, RAID 컨트롤러 및 OS + 파일 시스템이이를 조기에 감지하고 섹터를 재 할당하는 절차를 가지고 있다는 것입니다.

글쎄, 나는 이제 URE가 무엇인지 안다 (실제로 그 이름은 매우 자명하다 :)).

나는 여전히 근본적인 원인과 그들이 제공하는 안정적인 등급에 의아해합니다.

일부는 실패한 섹터를 외부 소스 (우주 파)에 기인 한 것으로 생각합니다. 그런 다음 URE 비율이 나이가 아니라 판독 횟수를 기반으로한다는 사실에 놀랐습니다. 더, 나는 이것이 잘못되었을 수도 있지만 이것은 환상에 가깝다고 생각합니다.

이제 디스크의 마모와 관련된 다른 이유가 생겼으며 일부는 고밀도가 약한 자기 영역을 제공하여 완전히 의미가 있으며 설명을 따를 것이라고 지적했습니다. 그러나 여기에 잘 설명되어 있듯이 , 다른 크기의 새로운 디스크는 대부분 HDD 섀시에 동일한 플래터 (그리고 동일한 밀도)를 어느 정도 넣거나함으로써 얻을 수 있습니다. 섹터는 동일하고 모두 동일한 안정성을 가져야하므로 더 큰 디스크는 더 작은 디스크보다 등급이 높아야합니다. 섹터는 덜 읽습니다. 왜 그렇지 않습니까? 그래도 최신 기술을 갖춘 새로운 디스크가 이전 디스크보다 더 나은 등급을받지 못하는 이유를 설명 할 수 있습니다. 단순히 더 높은 밀도로 인한 손실로 인해 더 나은 기술 이득이 상쇄되기 때문입니다.


"URE 및 데이터 손실"afaik (그리고 내가 틀렸을 수도 있음), URE는 일부 데이터가 손실되는 것을 의미합니다. 모든 데이터가 아니라 URE를 기록한 후 다시 빌드를 시도 할 수 있습니다. 즉, raid 10 또는 zfs는 요즘 어디에 있습니다.
Sirex

1
" [새로운 디스크의] 섹터는 [이전의] 섹터보다 절반 정도 신뢰할 수 있습니다." 자기 영역이 점점 작아짐에 따라 (동일한 크기의 패키지에서 높은 데이터 밀도가 암시 함) 우발적 인 삭제 (로컬 감마선 방출, 우주 광선 이벤트 등)에 더욱 취약 해지는 것이 매우 합리적입니다. 현대식 드라이브의 이러한 취약성 증가로 인해 우리 중 누구도 중요한 드라이브에 RAID가없는 드라이브를 배치하지 않았으며, 대부분의 사람들이 RAID-5를 포기한 이유도 있습니다.
MadHatter


여기서 실제 문제는 너무 많은 RAID 어레이가 단일 URE를 전체 어레이 오류로 바꾸고 있다는 것입니다. 단일 URE는 단일 RAID 블록을 유실해야합니다. 파일 시스템이 해당 블록이 사용 중인지 알아 내도록합니다. 실제로 문제가되지 않을 가능성이 있습니다.
MSalters

1
@Memes 아니오, 숫자가 취소됩니다. 두 번의 섹터가 실패 할 가능성이 두 배나 높으므로 동일한 읽기 오류율이 바이트 당 동일한 안정성과 같습니다. 그것이 처음에 사용되는 이유입니다.
홉스

답변:


13

URE는 복구 할 수없는 읽기 오류입니다. 드라이브를 고칠 수없는 섹터 읽기에 실패한 일이 발생했습니다. 드라이브 전자 장치는 정교하며 디스크에서 올바르게 읽을 수있는 경우에만 데이터를 전달합니다. 드라이브 전자 장치는 손상된 부분을 읽기 전에 여러 번 불량 섹터를 읽습니다.

읽기 오류의 원인-여기 전문가가 아니지만 (팔을 흔드는 경우) 드라이브 노화로 인해 제조 공차가 관련 될 수 있습니다. 자기 영역이 약해질 수 있습니다. 우주 광선은 손상 등을 일으킬 수 있습니다. 본질적으로 이것은 무작위 고장입니다.

이것이 RAID 5에 어떤 영향을 줍니까?

RAID 5는 분산 패리티와 스트라이핑 블록 레벨로 구성되어 있습니다. 패리티 블록은 데이터 블록의 비트를 함께 XOR하여 계산됩니다. XOR 함수는 기본적으로 모든 비트가 동일하면 결과는 0이고 그렇지 않으면 결과는 1이라고 말합니다.

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

XOR 기능의 특성은 디스크가 죽고 교체 될 경우 디스크에있는 데이터를 나머지 디스크에서 재구성 할 수 있도록하는 것입니다.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

보시다시피 나머지 데이터와 패리티를 XOR하여 손상된 데이터를 재구성 할 수 있습니다.

URE는 어떤 영향을 미칩니 까?

URE는 RAID 5 재 구축시에만 중요합니다.

RAID 5를 재구성 할 때 수행해야 할 많은 양의 읽기가 있습니다. 새 디스크의 데이터를 재구성하려면 모든 데이터 블록을 읽어야합니다. URE가 발생하면 관련 블록의 데이터를 복구 할 수 없으므로 데이터가 일치하지 않습니다. 충분히 큰 R5에있는 충분히 큰 디스크의 경우 교체 된 디스크를 재구성하기 위해 읽은 비트 수가 10 ^ 14 읽기에서 1 비트의 URE 값을 초과합니다.


2
단일 8TB 디스크이 때문에 RAID-5 단지 세 디스크와 같은하는 URE는에 6 * 10 ^ 13 비트 이상을 갖는 확률하지보다 재구성시. 아, 그리고 나에게서 +1.
MadHatter

3
12TB를 읽은 후 읽기 오류가 거의 확실하다는 주장 (질문과 일부 답변과 의견, 다른 질문, 사실 인터넷 전체에서)에 대한 주장은 거짓입니다. 믿지 않습니까? 하지마 그것을 알고. 디스크에서 12TB 이상을 읽고 오류가 발생하지 않는 것을 관찰합니다. 그것을하고이 신화를 멈추십시오. 감사합니다.
David Balažic

1
@IanKemp 아닙니다. 나는 그것을 시도했다. 당신은 분명히하지 않았다. (또한, 더 나은 평가는 단지 신화를 조금 움직이며, 실제 변화는 없습니다)
David Balažic

1
@ DavidBalažic 분명히 하나 의 표본 크기 는 확률 이론 전체를 무효화합니다! 노벨위원회에 논문을 제출하시기 바랍니다.
Ian Kemp

1
@IanKemp 누군가가 모든 숫자를 7로 나눌 수 있다고 주장하고 그렇지 않은 것을 발견하면 하나의 발견으로 전체 이론을 무효화 할 수 있습니다. BTW는 여전히 한 사람이 실험에 의해 실제로 신화를 확인하지 않았습니까? 믿음이 지식 이상인 이유는 무엇입니까?
David Balažic

9

정확히 URE 란 무엇입니까?

하드 디스크는 단순히 요청한 데이터를 저장하지 않습니다. 자기 도메인 크기가 계속해서 감소하고 하드 디스크가 이진 방식이 아닌 아날로그로 데이터를 저장한다는 사실 때문에 (하드 디스크 펌웨어는 플래터에서 아날로그 신호를 가져옵니다.이 신호는 이진 신호로 변환됩니다. 제조사의 비밀 소스의 일부)에 따라, 판독에서 거의 항상 어느 정도의 오차가 존재하며, 이는 보상되어야한다.

데이터를 다시 읽을 수 있도록 하드 디스크는 오류 수정 데이터 를 저장하도록 요청한 데이터 와 함께 저장합니다.

정상적인 작동에서 FEC 데이터는 플래터에서 다시 읽은 신호의 오류를 수정하기에 충분합니다. 그러면 펌웨어가 원본 데이터를 재구성 할 수 있으며 모든 것이 정상입니다. 이것은 인 회수 판독 오류 는 AS SMART 노출되어 판독 오류율 특성 (SMART 속성하는 0x01) 및 / 또는 ECC 재기 하드웨어 (SMART 속성 0xc3).

어떤 이유로 신호가 특정 지점 아래로 저하되면 FEC 데이터는 더 이상 원본 데이터를 재구성하기에 충분하지 않습니다. 그 시점에서 이론은 그렇습니다. 펌웨어는 데이터를 안정적으로 읽을 수는 없지만 아무것도 할 수 없다는 것을 여전히 감지 할 수 있습니다. 그러한 여러 번의 읽기가 실패하면 디스크는 어떻게 든 나머지 컴퓨터에 읽기를 성공적으로 수행 할 수 없음을 알려야합니다. 그것은 신호에 의해 그렇게 복구 할 수없는 읽기 오류 . 또한 보고 된 수정할 수없는 오류 (SMART 특성 0xbb) 카운터가 증가합니다 .

복구 불가능한 읽기 오류 또는 URE는 단순히 어떤 이유로 든 페이로드 데이터와 FEC 데이터가 원래 저장된 데이터를 재구성하기에 충분하지 않은 보고서입니다.

URE 비율은 통계적 임을 명심하십시오 . 정확히 10 ^ 14 (또는 10 ^ 15)-1 비트를 읽을 수 있고 다음 비트가 실패 할 수있는 하드 디스크가 없습니다. 오히려 10 ^ 14 비트를 읽는다면 평균적으로 해당 프로세스 중 어느 시점에서 읽을 수없는 섹터가 발생한다는 제조업체의 진술 입니다.

또한 위의 마지막 몇 마디에 따라 URE 속도는 비트 당 섹터 수로 표시 됩니다. 플래터에 데이터가 저장되는 방식으로 인해 디스크는 섹터의 어느 부분이 불량인지 알 수 없으므로 섹터가 FEC 검사에 실패하면 전체 섹터가 불량으로 간주됩니다.


좋아, 그것은 실패한 부문을 가리키는 것 같습니다. 나는 통계를 완전히 얻습니다. 걱정하지 마십시오. 또한 밀도가 높아질수록 섹터의 신뢰성이 떨어지지 만 여전히 의미가 없다는 것을 알 수 있습니다. 최신 디스크는 일반적으로 물리적 크기에 상관없이 동일한 플래터 밀도를 갖습니다. 4TB는 6TB보다 플래터가 적습니다. 기본적으로 섹터는 동일하므로 8TB가 통계적으로 더 높은 값을 달성 할 수없는 경우, 두 배 더 많은 섹터가 있으므로 각 섹터를 절반으로 (통계적으로) 읽습니다. 그러면 실패가 줄어들지 않습니까?
Memes

3

섹터는 죽습니다 : 완전히 복구 할 수는 없지만 4TB 디스크가 URE의 경우 10 ^ 14로, 8TB의 경우 URE의 경우 10 ^ 14로 등급이 매겨진 이유를 이해할 수 없습니다. 8TB (대부분 최신 기술 일 가능성이 높음)는 4TB에 비해 절반 정도 신뢰할 수 있으므로 의미가 없습니다.

사양은 일반적으로 " n 비트 를 읽는 동안 평균 1 오류가 감지 됨 "이므로 드라이브 크기는 중요하지 않습니다. 드라이브 및 작업 부하에서 오류가 발생할 위험을 계산하는 경우 문제가되지만 제조업체 는 오류를 찾기 위해 n 비트를 읽는 데만 필요하다는 것을 의미합니다 (평균적으로 보장되지는 않음).

예 : 1TB 드라이브를 구입하면 오류를 찾기 위해 약 12 ​​회 읽어야하지만 8TB 드라이브는 두 번째 읽기에서이를 경험할 수 있지만 읽은 비트 수는 두 번 동일하므로 품질 마그네틱 스핀들의 크기는 거의 동일합니다.

가격 인하로 지불하는 것은 다른 요인, 8TB를 1TB의 물리적 공간에 넣을 수있는 능력, 에너지 소비를 크게 줄이며 드라이브를 이동하는 동안 헤드 크래시 감소 등입니다.


0

@Michael Kjörling이 분명히 대답했다고 생각합니다.

디스크를 읽으면 헤드가 자기 도메인의 방향을 감지 한 다음 아날로그 신호 인 전자 신호를 보냅니다. 우리는 펌웨어가 0.5V보다 높은 전압을 수신 할 때 1을 제공해야한다고 가정하지만 자기장은 너무 약하므로 헤드는 0.499V의 신호 만 보내고 오류가 발생합니다. 이 오류를 해결하려면 FEC가 필요합니다.

섹터 데이터는 0x0F23이어야하며 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30으로 인코딩해야합니다. 이제 우리는 FEC를 받고, 섹터 후에 작성합니다. 읽을 때 0x0E23과 FEC 0x30을 읽으면 일치하지 않습니다. 계산 한 결과 0x0F23이어야한다는 것을 알았습니다. 그러나 0x0E13과 0x30을 얻거나 0x0E23과 0x32를 얻으면 올바른 것을 계산할 수 없습니다.

hdd 제조소 읽기 PB의 EB 데이터가 안정적인 값을 얻을 수 없다면이 등급은 매우 낮을 것이다. 따라서 그들은 확률 값을 제공합니다. 10 ^ 14 비트 데이터를 읽을 때 한 번만 발생할 수 있습니다. 이 값은 확률 값이므로 섹터 데이터를 1 개만 읽은 후 격려했을 수도 있고 50TB 데이터를 읽을 때까지 발생할 수도 있습니다. 이 값은 디스크 용량과 관련이 없으며 읽은 데이터 크기와 관련이 있습니다. 6TB의 데이터로 6 번 가득 찬 4TB 디스크를 읽는 경우이 기회는 6TB 디스크를 4 번 읽거나 8TB 디스크를 3 번 ​​읽는 것과 같습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.