MTBF 데이터는 어디에서 찾을 수 있습니까?


9

실패 사이의 평균 시간은 해석하기 어려울 수 있지만 하드 데이터가있는 경우 사용할 수있는 다양한 통계 방법이 있습니다.

문제는 더 이상 MTBF 번호를보고하는 사람이 없다는 것입니다. (어쨌든 하드 드라이브 제조업체 이외)

어디 않습니다 당신은 구성 요소와 서버의 MTBF 데이터를 찾아 가고?


MTBF 데이터를 어떻게 사용하고 있는지 궁금합니다.
dr.pooter 2016 년

답변:


2

MTBF가 중요한 이유

실패 횟수 사이의 평균 시간은 수정할 수없는 오류율만큼 중요하지 않습니다. MTBF는 부품의 전체 고장을 처리하고 드라이브를 읽습니다. 그러나 단일 비트 오류로 인해 RAID 5 패닉이 발생하고 핫 스페어가 작동하면이 숫자는 의미가 없습니다.

최근 몇 년 동안 전문가 및 소비자 수준 드라이브의 MTBF가 몇 배나 증가했지만 수정 불가능한 오류율은 비교적 일정하게 유지되었습니다. 이 속도는 10 ^ 14 비트로 추정되므로 소비자 SATA 드라이브 인 source에 대해 12 테라 바이트 당 1 비트를 읽습니다 .

RAID 5 어레이에서 절전 모드를 해제해야하는 이유

따라서 새로운 2Tb 드라이브에 걸치는 브랜드 는 6 패스에 불과 합니다. 12Tb의 데이터를 읽는 데 얼마나 걸립니까? 해당 드라이브의 MTBF보다 훨씬 적은 시간.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

더 중요한 것은 큰 드라이브로 구성된 RAID 5 어레이에서 이중 읽기 오류가 발생할 가능성입니다. 7 1Tb 드라이브 RAID 5 어레이의 경우 RAID 재 구축을 수행하는 동안 두 번째 읽기 오류가 발생했을 가능성은 50 %입니다.

http://blogs.zdnet.com/storage/?p=162


항상 RAID6을 사용할 수 있습니까?
Chopper3

3
훌륭한 답변이지만 하드 드라이브에만 적용
Mark Henderson

@ Chopper3, 예 RAID6는 상황을 개선하지만, 두 개의 디스크를 패리티에, 세 번째를 핫 스페어에 전용으로 할당 한 다음 7 개의 드라이브 어레이에 할당하면 RAID10 어레이와 거의 동일한 공간에 근접하게됩니다.
Dave Cheney

하드 드라이브 이상의 데이터를 찾고 있습니다. 전체 서버는 때때로 실패하므로 얼마나 자주 측정 할 가치가 있습니다.

1

MTBF 수치가 복잡한 시스템에는 적용되지 않는다고 생각하는 것은 부끄러운 일입니다. 실제 문제 (afaik)는 제조업체에 하드웨어 모듈에 대한 MTBF 수치가 없다는 것입니다. 이것은 모든 권리에 의해 이용 가능해야하는 수치입니다. Dell은 "Dell은 더 이상 서버에 대한 특정 MTBF를 나열하지 않습니다"라고 말합니다. 실제로 끔찍합니다! 그들은 "우리의 물건은 MTBF 수치가 필요한 곳에서 사용하기에 충분히 신뢰할 만하지 않습니다"라고 말할 수도 있습니다.

신뢰성 엔지니어 (또는 RE의 모자를 쓴 사람)는 가용성 연구의 범위를 제한해야합니다. 이것은 종종 하드웨어 모듈로 제한됩니다.

실패를 구성하는 요소의 분류는 FMECA 분석을 수행하는 이유입니다.

물론 시스템은 복잡하고 장애 모드에는 소프트웨어 장애가 포함되지만, 이는 종종 연구의 범위가 아닙니다. 우리는 하드웨어 용 MTBF 수치를 원합니다. 영업 담당자에게 문의하십시오. 귀하에게 제공하는 것은 그들의 기술적 책임입니다 ... 거부하거나 회피하는 경우, 하드웨어에 대한 필수 가용성 수치를 가진 통신 등급 서버가있는 곳으로 가십시오.


공급 업체가 MTBF를 게시해야 할 때 문제는 실제 데이터를 수집 할 수있는 것보다 빨리 게시해야한다는 것입니다. 따라서 그들은 일종의 외삽 법을 통해 MTBF를 생산해야합니다. 때때로 그것은 벗어날 수 있습니다. 내가 본 최악의 경우는 3 배가 넘었습니다.
kasperd

0

MTBF가 회사 지원 사이트에보고 된 것을 보았습니다. 정보를 얻으려면 영업 담당자 나 SE와상의하십시오.


0

내 생각에 MTBF 번호는 판매 도구가되었습니다. 현대 하드웨어는 MTBF 번호가 본질적으로 쓸모없는 상태에 도달했습니다. 가장 낮은 수준의 공급 업체조차도 합리적인 업그레이드주기보다 오래 지속되는 하드웨어를 생산하고 있습니다. 아시다시피 아무도 MTBF 번호를보고하지 않습니다. 나는 이것이 이유라고 생각합니다.


그러나 일부 서버는 다른 서버보다 여전히 안정적입니다. "두 번째 전원 공급 장치가 가치가 있습니까?"와 같은 질문에 대답해야합니다. 이를 위해서는 데이터가 필요합니다. 이상적으로, 이는 여러 장치에서보고 된 실제 고장 통계입니다. 우리는 MTBF를 실제 배포에 대한 약한 프록시로 사용합니다.

그럴 수 있지. 내 작은 세상에서 중복이라는 아이디어는 프로세스의 예상 부분입니다. 다른 예를 들어, 가장 큰 규모의 호스팅 제공 업체 또는 Google을 살펴보십시오. 나는 여전히 wintel 서버의 상품 상태를 감안할 때 이것이 쇠약 한 문제라고 제안합니다. z 시리즈 또는 이와 유사한 것에 대해 이야기하는 경우 방정식과 기대치가 크게 다릅니다.
dr.pooter 2016 년

0

불행히도 MTBF는 현대 서버에서 실용적이거나 신뢰할 수있는 측정이 아닙니다. MTBF의 모든 개념은 특정 모델 / 구성이 오랫동안 많은 사람들에 의해 사용되고 있다면 그 신뢰성을 알 수 있다는 것입니다.

오늘날 대부분의 사용자는 입증 된 추가 성능 및 전력 효율성을 위해 잠재적 인 추가 안정성을 행복하게 거래합니다. 예를 들어, 안정성이 입증 된 18-24 개월 된 하드웨어에 새 서버를 구축 하시겠습니까? 아니면 더 많은 코어, 마력 및 전력 효율성을 갖춘 최신 CPU를 사용합니까?

또한 구식 전화 통신 시스템과 달리 시스템은 상당히 사용자 정의되며 물론 소프트웨어에 크게 의존합니다. BIOS 버전 x.xx 또는 드라이버 버전 y.yyy는 얼마나 안정적입니까? 최신 OS / DB / app 서버 패치가 안정성을 향상 시키거나 안정성이 저하됩니까? 실제로 세계에서 몇 대의 서버가 동일한 정확한 하드웨어 / 스택 버전을 사용합니까?

고 가용성이 필요한 경우 시스템에 이중화 (이중, 클러스터링, 핫 스페어, DRP 등)를 추가해야합니다. 따라서 단일 구성 요소 장애에도 견딜 수있는 인프라를 구축 할 때 각 하드웨어 구성 요소의 상대적 안정성은 일반적으로 중요한 요소가 아닙니다. 불확실성 (신뢰성이 소급적임)으로 살고 그에 따라 계획하십시오.


끊임없이 변화하는 구성의 문제는 실제입니다. 따라서 단일 구성 지점에 대한 경험을 쌓기가 어렵습니다. 그럼에도 불구하고 중복 구성을 사용하더라도 HA를 계획하는 경우 개별 장치의 안정성에 대한 개념이 있어야합니다.

IT가 과학이 될 희망은없는 것 같습니다. 우리는 가정, 하드 데이터 및 자원 낭비에 대해 계속 노력하고 있습니다. 요즘 무엇보다 흑 마법처럼. 공학은 먼 목표 인 것 같습니다.
Giovanni Tirloni

0

MTBF 번호는 나에게 유용하지 않으며 확인하지 않습니다.

한 가지 예외는 하드 드라이브이지만, 거기에서도 MTBF를 매우 거친 방식으로 만 볼 수 있으므로 선택의 여지가있을 경우보다 안정적인 "서버급"드라이브를 구입해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.