HP ProLiant Gen9 용 MTTF, MTBF, MTBR 및 MTBF

프로덕션 환경에서 실행되는 HP Gen9 서버의 MTTF, MTBF, MTBR 및 MTBF를 조사했습니다.

내 질문의 뿌리는 걱정해야합니다.

각 서버에 하드웨어가 혼합되어 있으므로 좋은 데이터를 얻을 수 없습니다.

마지막 회사에서 우리는 약 2000 대의 Dell 서버 r210 r410 r710을 실행했습니다. 평균적으로 하루에 약 5 대의 서버가 있었는데 일종의 장애가있었습니다. 따라서 서버의 약 0.25 %가 고장 나서 다시 사용할 수 있으려면 부품을 교체해야했습니다.

마지막 회사는 모든 것이 HA 쌍, N + 2 인프라로 설정되었으므로 프로덕션에는 영향을 미치지 않았습니다. 서버를 교체하고 계속 진행할 수있었습니다

현재 사무실에서 9 대의 서버를 운영하고 있습니다 (HP Gen9, 56 VM의 Hyper-V). 아무것도.

저의 CTO 나 IT 관리자는 작년에 약 2.5 일의 가동 중지 시간이 있었기 때문에 서버를 클러스터링해야한다고 생각했지만 필요를 보지 못했습니다.

여기에 잘못된 것이 있습니까? 무엇을해야할지 모르겠습니다.

CTO에 문제가 발생하면 책임이 아님을 알고 있습니다. 이 회사는 CTO, IT 관리자, 나 자신 (dev ops) 및 헬프 데스크 담당자 1 명만있는 매우 작은 회사입니다.

프로덕션 환경 실행에 대한 모든 경험을 통해 매우 제한적이며 많은 것들을 설정하는 방식은 매우 중학교 수준이라고 부릅니다. CTO 나 IT 관리자는 내가 가기 전에 클러스터링에 대해 많이 알지 못했습니다. 그들은 HA없이 DR을 설정하는 프로젝트의 한가운데에 있었고, 나는 반대했지만 잃었습니다.

hyper-v hardware hp-proliant

— 앤서니 포르 니토
소스

HA는 돈이 든다. 그들은 돈이 가치가 없다고 생각할 수도 있습니다.

— Michael Hampton

MTTF, MTBF, MTBR 및 MTBF 수치에 대해 걱정하지 마십시오. 왜 이것이 특정 환경에 적용됩니까?

서버에는 내부 중복성이 있으며 프로덕션 환경에서 매우 안정적 일 수 있습니다. 그러나 이는 환경, 디스크 배열 / 구성, 디스크 유형, RAM 수량, CPU 구성, 열 특성, 전원 등에 따라 다릅니다.

어떤 형태의 고 가용성 을 사용하면 가동 중지 시간이 줄어들 수 있으며 장애 발생시 워크로드를 전환 할 수 있습니다.

이것은 재정 및 운영상의 위험 문제입니다.

아마도 독립형에서 클러스터로 전환하는 데 드는 점증적인 비용이 비즈니스에 맞지 않을 정도로 높을까요? 아마도 2.5 일의 다운 타임 (~ 99.3 % 가용성)이 운영에 충분할 것입니다. 오프 사이트 보호 및 우수한 백업에 중점을 두어야합니다. 당신은 귀하의 HP Gen9 시스템의 모든 제조 업체의 보증 오늘날 않는 부분에 액세스 할 수 있습니다. RAID, 예비 전원 공급 장치 / 팬 및 안정적인 전원이있는 경우 가장 중요한 영역을 다룹니다.

이를 재정적 인 관점에서 생각하고 위험, 관련 비용을 설명하고 원하는 것에 대해 매력적인 비즈니스 사례 를 만들어보십시오 .

— ewwhite
소스