평균 장애 시간 — SSD


32

SSD 의 평균 고장 간격 (MTBF)은 시간 으로 표시됩니다 .1,500,000

그것은 많은 시간입니다. 1,500,000시간은 대략 170몇 년입니다. 이 특정 SSD의 발명은 남북 전쟁 이후이므로 MTBF가 무엇인지 어떻게 알 수 있습니까?

나에게 맞는 몇 가지 옵션 :

  • Newegg는 오타가 있습니다
  • 고장 사이의 평균 시간의 정의는 내가 생각하는 것이 아닙니다.
  • 그들은 MTBF가 무엇인지 추정하기 위해 어떤 유형의 통계적 외삽 법을 사용하고 있습니다.

의문:

SSD / HDD에 대해 MTFB (Mean Time Between Failures)는 어떻게 얻습니까?


답변:


34

드라이브 제조업체는 다음과 같은 두 가지 관련 지표로 제품의 신뢰성을 지정합니다. 연간 고장률 (AFR)은 연간 추정에 맞춰 테스트에 실패한 인구 집단의 디스크 드라이브 백분율입니다. 평균 고장 시간 (MTTF).

신제품의 AFR은 일반적으로 가속 수명 및 스트레스 테스트 또는 이전 제품의 현장 데이터를 기반으로 추정됩니다. MTTF는 연간 전력 사용 횟수를 AFR로 나눈 것으로 추정됩니다. 서버의 드라이브에 대한 일반적인 가정은 100 % 전원이 공급된다는 것입니다.

http://www.cs.cmu.edu/~bianca/fast/

150 만 시간의 MTTF는 다소 그럴듯하게 들립니다.

대략 6 개월 동안 1000 개의 드라이브를 실행하고 3 개의 드라이브가 고장난 테스트입니다.
AFR은 (2 * 6 개월 * 3) / (1000 개 드라이브) = 매년 0.6 %이고 MTTF = 1 년 /0.6% = 1,460,967 시간 또는 167 년입니다.

이 숫자를 보는 다른 방법은 167 개의 드라이브가 있고 1 년 동안 드라이브를 계속 운영하는 경우 제조업체는 평균적으로 하나의 드라이브에 오류가 발생 한다고 주장합니다 .

그러나 나는 이것이 단순히 "무작위"기계적 / 전자적 고장률이라고 생각합니다.

의견에서 언급 한 바와 같이 고장률이 욕조 곡선을 따른다고 가정하면 제조업체의 마케팅 팀은 DOA를 포함하지 않아 (예 : 도착시 사망, 품질 관리를 통과했지만 최종 사용자가 실패한 경우) 신뢰도 수치를 약간 완화 할 수 있습니다. 초기 오류 급증에서 제외되도록 DOA 정의를 확장하고 설치합니다. 그리고 테스트가 충분히 오래 수행되지 않기 때문에 노화 효과도 나타나지 않습니다.

보증 기간 은 제조업체가 실제로 SSD의 수명을 얼마나 오래 기대하는지 나타내는 더 좋은 지표 라고 생각 합니다 !
그것은 수십 년이나 몇 세기 안에 측정되지 않을 것입니다 ...


MTBF와 관련하여 NAND 셀이 지원할 수있는 제한된 수의 기록 사이클과 관련된 신뢰성이있다. 일반적인 메트릭은 일반적으로 TB 단위의 총 쓰기 용량입니다. 하나의 큰 제한 인 다른 성능 요구 사항 외에도.

다른 제조사와 다른 크기의 드라이브를보다 편리하게 비교할 수 있도록 쓰기 내구성은 종종 디스크 용량의 일부로 일일 쓰기 용량으로 변환됩니다.

드라이브의 보증 기간이 만료
되는 한, 100GB SSD의 보증 기간은 3 년이며 쓰기 용량은 50TB입니다.

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

이 숫자가 높을수록 디스크는 쓰기 집약적 IO에 더 적합합니다.
현재 (2014 년 말) 가치 서버 라인 SSD의 값은 0.3-0.8 드라이브 / 일이며, 미드 레인지는 1-5에서 꾸준히 증가하고 있으며 쓰기 내구성 수준은 최대 25입니다. * 3-5 년 동안 매일 드라이브 용량.

일부 실제 테스트에 따르면 공급 업체의 주장이 크게 초과 될 수 있지만 공급 업체 한도를 초과하여 장비를 운전하는 것이 항상 기업의 고려 사항은 아닙니다 ... 대신 목적에 맞게 올바른 사양의 드라이브구입 하십시오.


1
AFR에서 MTTF 로의 변환은 일정한 AFR을 가정합니다. 움직이는 부품 (예 : 하드 드라이브)이있는 제품에는 해당되지 않으며 SSD에는 해당되지 않을 수 있습니다.
Mark

확실히 맞습니다. IIRC는 조기 실패 급증, 그 후 실패 기간이 짧아지고 연령이 증가함에 따라 AFR이 꾸준히 증가합니다. 변화하는 환경 요소를 추가하면 실제 숫자가 훨씬 높아집니다. @Chris S가 언급했듯이 보증 기간은 유용한 실제 영향으로 더 나은 측정 기준이 될 수 있습니다.
HBruijn

1,500,000 시간의 MTBF가 실제로 "이것과 같이 1000sss를 가지고 있다면 6 개월 이내에 3이 실패 할 가능성이 높다"는 좋은 냉담한 견해는 ... ". +1 (그리고 테스트 기간이 짧을수록 보증 기간이 너무 길지 않을 것으로 예상됩니다. 드라이브가 N 세가되면 "MTBF"가 많이 떨어질 수 있습니다)
Olivier Dulac

1
유익한 답변 감사합니다. 참조하는 현상 (초기 고장 스파이크, 저 고장 기간, 꾸준한 고장 증가)은 욕조 곡선으로 설명됩니다 .
OSE

19

불행히도 MTBF는 대부분의 사람들이 생각하는 것이 아닙니다 ...

  • 그것은 아닌 개별 드라이브의 유지 시간을.

    제조업체는 드라이브가 보증 기간 동안 지속될 것으로 예상하고 그 후에는 실제로 문제가되지 않습니다. 오래된 전자기 플래터 하드 드라이브는 10 년 정도 지나면 압수됩니다. 집적 회로는 매우 오래 지속되지만 다른 부품 (특히 커패시터)은 다소 예측 가능한 횟수의 사이클 후에 마모됩니다.

  • 그것은 이다 당신이 매 시간마다 실패 할 1 개 드라이브를 기대해야하는 방법이 드라이브의 많은.

    다른 제조업체들이 지적한 바와 같이 제조업체는 합리적인 기간 동안 다양한 테스트를 수행하고 고장률을 결정합니다. 이러한 종류의 테스트에는 상당한 차이가 있으며 마케팅에는 종종 최종 수치가 무엇인지에 대한 "입력"이 있습니다. 어쨌든 그들은 시간당 한 번의 고장을 평균하기 위해 얼마나 많은 드라이브가 필요한지 추측하기 위해 최선을 다합니다.

    드라이브 수가 적은 상황에서는 MTBF를 기반으로 통계적 실패 확률을 유추 할 수 있지만, 잘 설계된 제품의 실패는 "욕조"곡선을 따라야합니다. 즉, 장치를 처음 사용하고 서비스를받을 때 실패율이 높습니다. 보증 기간이 만료되어 고장률이 낮습니다.


2

작은 표본 크기와 짧은 시간을 기반으로 한 통계 평가에서 비롯됩니다. 실제로 동의 된 방법이나 프로세스가 없으므로 실제로 '마케팅'일뿐입니다.

기사는 조금 더 설명 할 수 있습니다. 그리고 Wikipedia 에는 당신이 찾고있는 수식이 있습니까?

기본적으로 식기 세척기와 같은 일반 가정용 기계를 포함한 거의 모든 제품에 대해 여러 제품이 X 시간 동안 실행됩니다. 이 기간 동안 실패 횟수는 MTFB를 계산하는 데 사용됩니다.

물론 전체 수명주기 (예 : SSD)를 통해 제품을 실행하는 것은 불가능합니다. 그것들은 대부분 기계적인 고장보다는 쓰기의 양에 의해 제한됩니다 (MTFB의 목적입니다)


2

MTBF에 대한 나쁜 소식은 일반적인 평가 방식이 모든 NAND 셀에 쓰기로드가 고르게 분산되어 있다고 가정한다는 것입니다. 그러나 셀은 클러스터로 그룹화되고 하나의 단일 셀에 장애가 발생하면 전체 클러스터가 사용 불능으로 표시되고 예비에서 새 것으로 대체됩니다. 일반적으로 예비는 SSD 볼륨의 약 20 %입니다. 예약이 소진되면 전체 SSD가 죽은 것으로 표시됩니다.

IRL SSD에는 영구적 인 데이터와 휘발성이 있습니다. 정적 데이터로 채워진 SSD의 90 %가 있고 나머지 10 %가 쓰기로드가 심한 경우를 상상해보십시오. SSD 컨트롤러는 사용 가능한 여유 클러스터간에로드를 분산시킵니다. 이 10 %는 예상보다 수명을 10 배 빠르게 소모합니다. 그들은 다시 준비금에서 끝까지 대체 될 것입니다.

영구 / 휘발성 데이터 양이 30 : 1 이상인 매우 나쁜 경우 (예 : 인기있는 웹 사이트의 사진 파일 및 상대적으로 작은 데이터베이스) SSD는 1 년 안에 사망합니다.

내 고객 중 한 명이 SSD 특성에 깊은 인상을 받았으며 DBMS 서버에 쌍을 갖추도록 요구했습니다. 다음 12 개월 동안 두 가지를 모두 교체했습니다.

그러나 SSD의 마케팅 자료 수명에 따르면 170 년입니다. 확실한.


1

MTBF는 SSD가 일반 회전 HDD 드라이브와 같은 시간 자체가 아니라 SSD 셀의 재기록 횟수에 민감하기 때문에 SSD 드라이브 내구성 측정과 관련이 없습니다. SSD에 대한 보다 관련성있는 조치는 DWPD (Drive Writes Per Day) 입니다. 예를 들어 일부 엔터프라이즈 급 SSD 디스크 3.2TB 내구성은 5 년간 3 DWPD입니다.

때때로 SSD 공급 업체는 (총) TBW (Terabytes Written) 또는 "쓰기주기"측면에서 내구성을 제공하며, 이는 주어진 SSD 드라이브에 대한 시간과 최대 처리량을 알고 DWPD로 쉽게 변환 할 수 있습니다.

3.2Tb SSD 드라이브가 제공된 예의 경우 :
TBW = DriveSize * Years * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520TB 5 년

드라이브가 초당
80MB의 지속 가능한 쓰기 처리량을 제공하는 경우 WriteCycles = DWPD * Years;
주어진 디스크의 WriteCycles = 3 * 365 * 5 = 5475 총 쓰기주기

드라이브에 100 % 사용률을 제공 할 경우 최악의 경우를 계산하는 것이 중요합니다 (아마도 불가능할 수도 있음).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.