실패 사이의 평균 시간은 해석하기 어려울 수 있지만 하드 데이터가있는 경우 사용할 수있는 다양한 통계 방법이 있습니다.
문제는 더 이상 MTBF 번호를보고하는 사람이 없다는 것입니다. (어쨌든 하드 드라이브 제조업체 이외)
어디 않습니다 당신은 구성 요소와 서버의 MTBF 데이터를 찾아 가고?
실패 사이의 평균 시간은 해석하기 어려울 수 있지만 하드 데이터가있는 경우 사용할 수있는 다양한 통계 방법이 있습니다.
문제는 더 이상 MTBF 번호를보고하는 사람이 없다는 것입니다. (어쨌든 하드 드라이브 제조업체 이외)
어디 않습니다 당신은 구성 요소와 서버의 MTBF 데이터를 찾아 가고?
답변:
MTBF가 중요한 이유
실패 횟수 사이의 평균 시간은 수정할 수없는 오류율만큼 중요하지 않습니다. MTBF는 부품의 전체 고장을 처리하고 드라이브를 읽습니다. 그러나 단일 비트 오류로 인해 RAID 5 패닉이 발생하고 핫 스페어가 작동하면이 숫자는 의미가 없습니다.
최근 몇 년 동안 전문가 및 소비자 수준 드라이브의 MTBF가 몇 배나 증가했지만 수정 불가능한 오류율은 비교적 일정하게 유지되었습니다. 이 속도는 10 ^ 14 비트로 추정되므로 소비자 SATA 드라이브 인 source에 대해 12 테라 바이트 당 1 비트를 읽습니다 .
RAID 5 어레이에서 절전 모드를 해제해야하는 이유
따라서 새로운 2Tb 드라이브에 걸치는 브랜드 는 6 패스에 불과 합니다. 12Tb의 데이터를 읽는 데 얼마나 걸립니까? 해당 드라이브의 MTBF보다 훨씬 적은 시간.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
더 중요한 것은 큰 드라이브로 구성된 RAID 5 어레이에서 이중 읽기 오류가 발생할 가능성입니다. 7 1Tb 드라이브 RAID 5 어레이의 경우 RAID 재 구축을 수행하는 동안 두 번째 읽기 오류가 발생했을 가능성은 50 %입니다.
MTBF 수치가 복잡한 시스템에는 적용되지 않는다고 생각하는 것은 부끄러운 일입니다. 실제 문제 (afaik)는 제조업체에 하드웨어 모듈에 대한 MTBF 수치가 없다는 것입니다. 이것은 모든 권리에 의해 이용 가능해야하는 수치입니다. Dell은 "Dell은 더 이상 서버에 대한 특정 MTBF를 나열하지 않습니다"라고 말합니다. 실제로 끔찍합니다! 그들은 "우리의 물건은 MTBF 수치가 필요한 곳에서 사용하기에 충분히 신뢰할 만하지 않습니다"라고 말할 수도 있습니다.
신뢰성 엔지니어 (또는 RE의 모자를 쓴 사람)는 가용성 연구의 범위를 제한해야합니다. 이것은 종종 하드웨어 모듈로 제한됩니다.
실패를 구성하는 요소의 분류는 FMECA 분석을 수행하는 이유입니다.
물론 시스템은 복잡하고 장애 모드에는 소프트웨어 장애가 포함되지만, 이는 종종 연구의 범위가 아닙니다. 우리는 하드웨어 용 MTBF 수치를 원합니다. 영업 담당자에게 문의하십시오. 귀하에게 제공하는 것은 그들의 기술적 책임입니다 ... 거부하거나 회피하는 경우, 하드웨어에 대한 필수 가용성 수치를 가진 통신 등급 서버가있는 곳으로 가십시오.
MTBF가 회사 지원 사이트에보고 된 것을 보았습니다. 정보를 얻으려면 영업 담당자 나 SE와상의하십시오.
내 생각에 MTBF 번호는 판매 도구가되었습니다. 현대 하드웨어는 MTBF 번호가 본질적으로 쓸모없는 상태에 도달했습니다. 가장 낮은 수준의 공급 업체조차도 합리적인 업그레이드주기보다 오래 지속되는 하드웨어를 생산하고 있습니다. 아시다시피 아무도 MTBF 번호를보고하지 않습니다. 나는 이것이 이유라고 생각합니다.
불행히도 MTBF는 현대 서버에서 실용적이거나 신뢰할 수있는 측정이 아닙니다. MTBF의 모든 개념은 특정 모델 / 구성이 오랫동안 많은 사람들에 의해 사용되고 있다면 그 신뢰성을 알 수 있다는 것입니다.
오늘날 대부분의 사용자는 입증 된 추가 성능 및 전력 효율성을 위해 잠재적 인 추가 안정성을 행복하게 거래합니다. 예를 들어, 안정성이 입증 된 18-24 개월 된 하드웨어에 새 서버를 구축 하시겠습니까? 아니면 더 많은 코어, 마력 및 전력 효율성을 갖춘 최신 CPU를 사용합니까?
또한 구식 전화 통신 시스템과 달리 시스템은 상당히 사용자 정의되며 물론 소프트웨어에 크게 의존합니다. BIOS 버전 x.xx 또는 드라이버 버전 y.yyy는 얼마나 안정적입니까? 최신 OS / DB / app 서버 패치가 안정성을 향상 시키거나 안정성이 저하됩니까? 실제로 세계에서 몇 대의 서버가 동일한 정확한 하드웨어 / 스택 버전을 사용합니까?
고 가용성이 필요한 경우 시스템에 이중화 (이중, 클러스터링, 핫 스페어, DRP 등)를 추가해야합니다. 따라서 단일 구성 요소 장애에도 견딜 수있는 인프라를 구축 할 때 각 하드웨어 구성 요소의 상대적 안정성은 일반적으로 중요한 요소가 아닙니다. 불확실성 (신뢰성이 소급적임)으로 살고 그에 따라 계획하십시오.