MTTF (Mean Time to Failure) : 디스크 제조업체에서 게시 할 때 숫자를 어떻게 해석해야합니까?

10

MTTF (Mean Time to Failure)는 일반적으로 시간 단위로 제공되며, 일부 계산을 수행하면 몇 년이 지난 후에 만 디스크가 실패하는 것 같습니다 .

디스크는 그보다 더 자주 복구해야합니다. 이것이 왜 그런지 아는 사람이 있습니까?

이 측정 항목에 대해 비린내가 있다고 생각했습니다. 여기서 잘못 해석하고 있습니까?

— 케이틀린 맥 모디
소스

14

우선:

MTTF = 평균 고장 시간
MTTR = 평균
고장 시간 MTBF = 평균 고장 간격 = MTTF + MTTR

MTBF는 수리에 1 시간이 걸리고 MTTF는 수만 시간 일 수 있기 때문에 MTTF와 다소 비슷합니다. 그러나 결함이있는 제품은 수리되지 않고 단순히 교체하기 때문에 MTBF는 종종 적용되지 않습니다.

MTTF 계산은 각각의 모든 개별 부품의 고장 확률을 계산하는 복잡한 통계 방법입니다. 사람들이 때때로 추정하는 것처럼 그것은 선형적인 것이 아닙니다. MTTF가 1000 000 시간 인 경우 1000 개의 장치에서 1000 시간 후에 고장이 발생하거나 1 시간 후에 1000 000 개의 장치에서 고장이 발생한다는 의미는 아닙니다.
많은 전자 장치는 따라 "욕조 곡선" ,

여기에 이미지 설명을 입력하십시오

초기에 많은 장애가 발생한 경우 거의 실패하지 않은 채 오랜 시간이 걸리고 수명이 다가 오면 실패 횟수가 다시 증가합니다. 하드 디스크에는 더 선형적인 고장 곡선을 갖는 일부 기계 부품이 있습니다. 1 일부터 천천히 증가합니다.

제조업체에서 예를 들어 MTTF (가장 자주 POH 또는 Power-On Hours)가 1000 000 시간이라고 말하면 평균적 으로 드라이브가 100 년 이상 지속되어야 한다는 의미입니다 . 일부 드라이브는 더 오래 지속되고 일부 드라이브는 더 일찍 고장납니다. 따라서 1000 000 시간에도 불구하고 1000 시간 후에도 실패 할 수 있습니다. 나는 일주일 이내에 운전이 실패한 후 욕조 곡선을 다시 생각해야합니다. 교체 드라이브가 5 만 시간을 초과하여 행복하게 회전했습니다.

— 스티븐
소스

3

주목할만한 몇 가지 사항은 초기 고장이 종종 번인 (burn-in)이라고하는 사실입니다. 초기 오류가 훨씬 낮은 제조업체는 종종 번인 단계를 통해 장치를 실행합니다. 또한 순수 전자 제품은 마모 기간이없고 화상 만 입을 수 있습니다.

— Kortuk

1

MTTF (또는 MTBF)를 계산할 때는 일반적으로 단일 분포 만 사용하여 실패를 모델링합니다. 따라서 계산은 "유아 사망률", "정상 수명"또는 "수명 종료"분포를 기반으로합니다. Weibull을 기본 분포로 사용하는 경우이 세 분포를 구별하는 유일한 것은 Weibull 모양 모수입니다. 고장이 "정상 수명"분포에서 벗어날 수있는 유일한 경우는 시간이 고장률에 영향을 미치지 않기 때문에 분포가 지수적일 수 있습니다.

2

MTTF는 주로 장치 또는 위젯에서 어떤 종류의 수명을 기대해야 하는지를 나타내는 데 유용합니다. 명백한 이유로 장치 고장 날짜를 정확하게 예측할 수는 없습니다. 사용 가능한 데이터의 통계적 분석을 기반으로 한 추정치 일 뿐이며 그렇게 간주되어야합니다. 예산 책정 (여기에서 비용을 상각 또는 감가 상각해야하는 기간) 및 계획 (다음 위젯을 얻기 전에 위젯이 얼마나 오래 작동 할 것으로 예상 할 수 있는지)에 유용합니다.

— music2myear

우선, 정확히 무엇 이다 는 "디스크 실패"?

— Kaitlyn Mcmordie

2

@ Kaitlyn-당신이 나쁜 부문을 말하는 것 같아요. 디스크 오류는 더 이상 드라이브에서 읽거나 쓸 수 없을 때라고 말합니다. 일반적으로 헤드 크래쉬와 같은 기계적 오류. 이것은 여전히 좋은 섹터가 많이 남아있을 때 발생합니다.

— stevenvh

4

장비의 MTBF 사용량이 1,000,000 시간 인 경우, 장비가 1,000,000 시간 동안 지속될 수 있음을 의미하지는 않습니다. 이는 대략 정격 수명 기간 내에있는 1,000,000 개의 장비가 각각 1 시간 동안 작동되거나 10 시간 동안 (그러나 여전히 정격 수명 내에있는) 100,000 개 또는 1 분 동안 60,000,000 개의 장비가 작동하는 경우를 의미합니다. 로트에는 대략 하나의 실패가있을 것입니다. 정격 수명은 MTBF와 완전히 직교한다는 점에 유의하십시오. 다음 두 가지 유형의 위젯을 고려하십시오.

연령에 관계없이 모든 위젯은 1 시간마다 0.1 %의 확률로 실패합니다.
10 억 개 위젯 중 하나를 제외한 나머지는 정확히 61 분 동안 작동 한 다음 죽습니다. 30 분 후에 죽을 것입니다. 위젯의 지정된 서비스 수명은 60 분입니다.

첫 번째 유형의 위젯은 평균 수명이 약 1,000 시간이고 MTBF가 약 1,000 시간입니다. 두 번째는 평균 수명은 61 분이지만 MTBF는 서비스 수명 내에서 1,000,000,000 시간입니다. 두 번째 장치에 예상 수명보다 거의 10 억 배나 긴 MTBF가 있다고해도 이상하게 보일 수 있지만 MTBF는 의미가 없습니다.

1,000,000 개의 장치가 모두 한 시간 동안 완벽하게 작동하고 그 후에 모두 폐기 될 실험을 수행한다고 가정 해 봅시다. 기기가 고장 나면 전체 실험이 중단됩니다. 평균 1,000 시간 지속되지만 MTBF는 1,000 시간에 불과한 장치 또는 최대 61 분 동안 지속되지만 10 억 번의 실패 확률을 가진 장치는 더 유용합니다. 그 마크를 만나?

— 슈퍼 캣
소스

결론적으로 우리는 10 ^ 6 시간의 MTBF를 특정 디스크의 "평균 수명"으로 보지 말고 여러 디스크의 수명에 대한 척도로보아야합니까?

— Kaitlyn Mcmordie

@ Kaitlyn Mcmordie : "평생"이라는 용어는 실제로 적용 할 수 없습니다. 죽음이 실패를 의미하지도 않으며 그 반대도 마찬가지입니다. 저장 장치 제조업체는 데이터 손실을 피하기 위해 따라야하는 절차를 지정할 수 있습니다. 이러한 절차에는 "실패한"실패 표시를 제공하는 모든 장치에서 모든 데이터를 새 장치로 이동하는 것이 포함될 수 있습니다 (데이터가 복사 된 후 기존 장치는 "죽음"으로 간주 됨). 이러한 이벤트에서 데이터 손실이 발생하지 않으면 실패가 아닙니다. 그러나 모든 장치에서 발생하는 데이터 손실은 외관상으로는 건강에 문제가있는 것입니다. 평생과 관련이 없습니다.

— supercat

2

stevenvh의 답변에 추가 : 잘 알려진 디스크 제조업체는 모두 전자 부품 제조업체와 마찬가지로 새로운 장치를 번인 (burn-in) 방식으로 운영합니다. 하드 디스크에는 전체 MTBF 및 MTTF 뿐만 아니라 디스크 블록에 대한 개별 장애 통계도 있습니다. 다시 말해, 회전의 일부 부분 인 디스크의 "플래터"는 실패 할 수 있지만 대부분은 여전히 읽기 / 쓰기가 가능합니다. 소위 "불량 섹터"를 감지 한 다음 드라이브 내부의 펌웨어로 매핑 할 수 있습니다.

오늘날 모든 드라이브에는 예비 섹터에 추가 섹터가 포함되어 있으며 결함 섹터 대신 사용할 수 있습니다. 이것은 제조업체의 예방책 일뿐입니다. 이렇게하지 않으면 디스크를 판매 용량으로 팔 수 없었습니다. 이들이 예비 섹터로 숨겨진 x %의 추가 x %를 구축하면 비용을 <x % 정도 증가 시키지만 전체 생산량은 훨씬 더 높아집니다.

오늘날 디스크는 적절한 소프트웨어로 읽을 수있는 불량 섹터 수를 유지합니다. 이 및 기타 디스크 상태 매개 변수 (예 : 온도)를 SMART 값 이라고 합니다.

이제 제조업체가 드라이브 번인 테스트를 수행하고 일부 섹터가 거의 고장을 일으켜 드라이브의 내부 펌웨어에 의해 다시 매핑되면 "Bad Sector Count"SMART 매개 변수가 0으로 설정됩니다. 드라이브는 고객에게 제공됩니다.

일반적으로 번인 (burn-in) 공정 후 이미 언급 한 욕조 곡선의 시작은 더 이상 고객에게 보이지 않습니다. 우리는 운이 좋으며 시간이 지남에 따라 실패 가능성이 증가합니다.

따라서 제조업체가 인용 한 MTTF를 보면 실패 모델링을 수행하려는 경우 욕조 곡선의 시작을 무시할 수 있습니다.

— cfi
소스

감사합니다. Btw, "서버 결함"이라는 용어가 무엇을 의미하는지 알고 있습니까?

— Kaitlyn Mcmordie

명백한 의미는 다른 사람에게 서비스를 제공하는 컴퓨터에서 발생하는 오류입니다. 그리고 나는 그것이 당신이 serverfault.com에 질문을해야 할 때라고 생각합니다. ;-) FAQ에서

— cfi

-2

이를 마케팅으로 해석해야합니다. 그들은 실제로 정확한 MTBF (평균 고장 간격)를 알지 못하므로 다양한 트릭을 사용하여 추정하고 비용을 정당화하기 위해 '엔터프라이즈'드라이브에 더 많은 숫자를 표시합니다.

실제로, 보증 기간이 만료 된 직후 HDD 제조업체가 HDD 고장을 일으키는 것이 유리합니다.

음모론으로서 Seagate 7200.11의 대량 실패는 보증이 끝나기 전에 디스크가 고장 나는 '프로그램 된 죽음'을 구현하는 실수 였으므로 펌웨어 업데이트로이를 수정해야했습니다.

— 바 몬스터
소스

나는이 음모론을 사지 않습니다.

1

@Federico Russo : 왜? 일정 시간이 지나면 HDD가 복구 불가능한 상태로 잠기는 일반적인 개발자 오류 일 뿐이라고 생각하십니까?

— BarsMonster

2

-1 : 통계 분석은 MTBF 수를 결정하는 데 사용되며 특정 통계에 알려져 있습니다. "다양한 트릭"을 사용하는 것이 아닙니다. 엔터프라이즈 드라이브의 수가 더 많고 보증 기간이 지난 후 HDD 제조업체에서 드라이브 고장이 발생했으며 Seagate가 드라이브에 '프로그램 된 죽음'을 구현한다는 주장을 뒷받침하는 중요한 자료가 필요합니다.

— Kevin Vermeer

1

드라이브 제조업체는 경쟁 업체보다 높은 MTTF를 보여주는 것이 가장 큰 이익입니다. +1

— tyblu

디스크 고장 은 정확히 무엇입니까 ? 하나는 무엇입니까?

— Kaitlyn Mcmordie