블레이드 섀시 고장 가능성


48

우리 조직에서는 랙 서버 대신 블레이드 서버를 구입하려고합니다. 물론 기술 공급 업체도 사운드를 매우 좋게 만듭니다. 다른 포럼에서 매우 자주 읽게되는 문제는 서버 섀시가 다운 될 가능성이 있다는 이론적 인 가능성이 있다는 것입니다. 결과적으로 모든 블레이드가 다운됩니다. 공유 인프라 때문입니다.

이 가능성에 대한 나의 반응은 중복성이 있고 하나가 아니라 두 개의 섀시를 사용하는 것입니다 (물론 비용이 많이 듭니다).

일부 공급 업체 (예 : HP 공급 업체 포함)는 많은 중복성 (이중화 전원 공급 장치 등)으로 인해 섀시가 고장날 가능성이 거의 없다고 우리에게 설득하려고합니다.

내 측면의 또 다른 관심사는 무언가가 고장 나면 예비 부품이 필요할 수 있으며 이는 우리 위치 (에티오피아)에서 어렵다는 것입니다.

따라서 블레이드 서버를 관리 한 숙련 된 관리자에게 다음과 같이 묻습니다. 그것들은 전체적으로 내려 가고 있으며 합리적으로 공유되는 인프라는 무엇입니까?

이 질문은 공유 스토리지로 확장 될 수 있습니다. 다시 말하지만, 우리는 단지 하나가 아닌 두 개의 저장 장치가 필요하며 공급 업체는이 일이 너무 견고하여 실패가 예상되지 않는다고 말합니다.

글쎄-나는 그러한 중요한 인프라가 중복없이 매우 안정적이라고 믿을 수는 없지만, 블레이드 기반 프로젝트의 성공 여부, 핵심 부분 (섀시, 스토리지 ... )

현재 IBM은 너무 비싸 보입니다.


3
좋은 질문입니다. 오늘 답변과 실제 실패 시나리오를 게시하겠습니다.
ewwhite

C 서버에 Dell이 가지고있는 것을 보셨습니까? 예를 들어 C6100에는 2U 박스에 4 개의 노드가 있으며 이는 4 개의 슬롯 블레이드 섀시와 같습니다. 하나의 10U 블레이드 섀시 대신 5 개의 2U 랙 서버를 얻을 수 있습니다. 더 이상 단일 장애 지점이 아니라 백플레인 이점을 잃게됩니다. 아마도 HP / IBM은 동등한 제품을 가지고있을 것입니다.
jqa December

답변:


49

완전한 섀시 고장 가능성이 낮습니다 ...

블레이드 인클로저 가 완전히 고장 나기 전에 시설에 문제가있을 수 있습니다.

저의 경험은 주로 HP C7000HP C3000 블레이드 인클로저에 대한 것입니다. 또한 Dell 및 Supermicro 블레이드 솔루션을 관리했습니다. 공급 업체는 약간 중요합니다. 그러나 요약하자면, HP 장비는 훌륭하고 Dell은 훌륭했으며 Supermicro는 품질, 복원력이 부족하고 제대로 설계되지 않았습니다. HP와 Dell 측에서 실패를 경험 한 적이 없습니다. 슈퍼 마이크로는 심각한 가동 중단으로 인해 플랫폼을 포기해야했습니다. HP와 Dell에서는 완전한 섀시 오류가 발생하지 않았습니다.

  • 열 이벤트가있었습니다. 코 로케이션 시설에서 온도를 115 ° F / 46 ° C로 10 시간 동안 보내지 않아 냉방이 실패했습니다.
  • 전원 서지 및 라인 고장 : A / B 피드의 한쪽이 손실됩니다. 개별 전원 공급 장치 고장. 블레이드 설정에는 일반적으로 6 개의 전원 공급 장치가 있으므로 충분한 경고와 중복성이 있습니다.
  • 개별 블레이드 서버 오류 한 서버의 문제는 인클로저의 다른 서버에 영향을 미치지 않습니다.
  • 섀시 내 화재 ...

다양한 환경을보고 이상적인 데이터 센터 조건과 일부 거친 위치에 설치하는 이점을 얻었습니다. HP C7000 및 C3000 측면에서 고려해야 할 주요 사항은 섀시가 완전히 모듈 식이라는 입니다. 구성 요소는 전체 장치에 영향을주는 구성 요소 오류의 영향을 최소화하도록 설계되었습니다.

다음과 같이 생각하십시오. 기본 C7000 섀시는 전면 (수동) 미드 플레인 및 백플레인 어셈블리로 구성됩니다. 구조적 인클로저는 전면 및 후면 구성 요소를 함께 고정하고 시스템 무게를지지합니다. 거의 모든 부품을 교체 할 수 있습니다 ... 믿습니다. 많은 부품을 분해했습니다. 주요 이중화는 팬 / 냉각, 전력 및 네트워킹 관리에 있습니다. 중복성을 위해 관리 프로세서 ( HP의 Onboard Administrator )를 페어링 할 수 있지만, 서버없이 실행할 수 있습니다.

여기에 이미지 설명을 입력하십시오

완전히 채워진 인클로저-전면 모습. 하단의 6 개의 전원 공급 장치는 섀시의 전체 깊이를 실행하고 인클로저 후면의 모듈 식 전원 백플레인 어셈블리에 연결합니다. 전원 모드는 3 + 3 또는 n + 1과 같이 구성 할 수 있습니다. 따라서 인클로저에는 전원 중복성이 있습니다. 여기에 이미지 설명을 입력하십시오

완전히 채워진 인클로저-후면. 후면의 Virtual Connect 네트워킹 모듈에는 내부 교차 연결이 있으므로 한쪽 또는 다른 쪽을 잃어도 서버에 대한 네트워크 연결을 유지할 수 있습니다. 6 개의 핫 스왑 가능 전원 공급 장치와 10 개의 핫 스왑 가능 팬이 있습니다. 여기에 이미지 설명을 입력하십시오

빈 인클로저-전면 모습. 인클로저의이 부분에는 실제로 아무것도 없습니다. 모든 연결은 모듈 식 미드 플레인으로 전달됩니다. 여기에 이미지 설명을 입력하십시오

미드 플레인 어셈블리가 제거되었습니다. 하단의 중앙 판 조립품에 대한 6 개의 전원 공급 장치를 확인하십시오. 여기에 이미지 설명을 입력하십시오

미드 플레인 어셈블리. 이것은 마법이 일어나는 곳입니다. 16 개의 개별 다운 플레인 연결 (각 블레이드 서버마다 하나씩)에 유의하십시오. 전체 인클로저를 죽이거나 다른 서버에 영향을주지 않으면 서 개별 서버 소켓 / 베이가 실패했습니다. 여기에 이미지 설명을 입력하십시오

전원 공급 장치 백플레인 표준 단상 모듈 이하 3ø. 데이터 센터의 배전을 변경하고 새로운 전원 공급 방법을 처리하기 위해 전원 공급 장치 백플레인을 간단히 교체했습니다. 여기에 이미지 설명을 입력하십시오

섀시 커넥터 손상. 이 특정 인클로저는 조립 중에 떨어 뜨려 리본 커넥터에서 핀을 분리했습니다. 이것은 며칠 동안 눈에 띄지 않아 실행중인 블레이드 섀시가 FIRE를 잡았습니다. 여기에 이미지 설명을 입력하십시오

다음은 미드 플레인 리본 케이블의 탄화 된 유골입니다. 이는 섀시 온도 및 환경 모니터링 중 일부를 제어했습니다. 내부의 블레이드 서버는 사고없이 계속 실행되었습니다. 영향을받는 부품은 예정된 가동 중지 시간 동안 여가 시간에 교체되었으며 모든 것이 정상이었습니다. 여기에 이미지 설명을 입력하십시오


C7000의 경우 +1 우리는 지난 2 년 동안 하나를 운영해 왔으며 인클로저 나 블레이드에서 하드웨어 나 성능면에서 문제가 없었습니다.
tombull89

1
이에 동의해야합니다. Dell의 다양한 블레이드 섀시가 있었으며 방탄 성능이 뛰어났습니다. 하나의 섀시에서 하나의 컨트롤러 모듈에 장애가 발생했다고 생각합니다. 그 결과 Dell 지원팀이 다른 컨트롤러와 엔지니어에게 적합한 섀시를 제공하는 데 하루 동안 섀시 자체를 원격으로 관리 할 수 ​​없었습니다. 컨트롤러 교체 작업 또는 고장으로 인해 실제 블레이드 다운 타임이 없습니다.
Rob Moir

1
@ewwhite에 동의해야합니다. 섀시 오류없이 약 8 년 동안 논스톱으로 c7000을 실행했습니다. 우리는 심지어 HVAC 고장으로 인해 130'F에서 몇 시간 동안 가동했으며 아무런 실패도 없었습니다. 명심해야 할 것은 전원로드를 여러 전원 패널로 분할하고 네트워킹을 여러 스위치로 분할하여 단일 장애 지점을 제거하는 것입니다. 우리가 잘못한 것은 블레이드 서버 하드 드라이브 뿐이지 만 기존 서버에서도 마찬가지입니다.
mrTomahawk

20

저는 8 년 동안 적은 수의 블레이드 서버를 관리해 왔으며 아직 시스템 전체에 장애가 발생하여 여러 블레이드가 오프라인 상태가되었습니다. 나는 전력 관련 문제로 인해 아주 가까이 왔지만 외부 소스에 기인하지 않은 섀시 전체의 실패는 아직 없었습니다.

섀시가 단일 장애 지점을 나타내는 것으로 확인되었지만 오늘날에는 많은 양의 중복성이 구축되어 있습니다. 내가 사용한 모든 블레이드 시스템에는 블레이드에 대한 병렬 전원 공급 장치와 별도의 경로를 통과하는 여러 네트워크 잭이 있으며 블레이드에서 랙 후면 광학 포트까지의 파이버 채널 다중 경로의 경우가 있습니다. 섀시 정보 시스템에도 여러 경로가있었습니다.

적절한 네트워크 엔지니어링 (중복 NIC 사용, 스토리지 용 MPIO)을 통해 단일 문제 이벤트가 완전히 생존 할 수 있습니다. 이 시스템을 사용하면서 다음과 같은 문제가 발생했지만 둘 중 어느 것도 하나 이상의 블레이드에 영향을 미치지 않았습니다.

  • 블레이드 랙에 두 개의 전원 공급 장치가 작동하지 않습니다. 다른 4에는로드를 지원하기에 충분한 중복성이있었습니다.
  • 3 상 전원 공급 장치의 위상을 잃어버린 경우. 이러한 공급 장치는 요즘 드물지만 다른 두 단계는 부하를 지원하기에 충분한 용량을 가졌습니다.
  • 섀시 간 관리 루프 손실 다른 전화를 거는 벤더 기술이이를 알아 차리기까지 몇 년이 걸렸습니다.
  • 섀시 간 관리를 잃으면 완전히 반복됩니다. 우리는 관리 콘솔 액세스 권한을 잃었지만 아무 문제가없는 것처럼 서버가 계속 실행되었습니다.
  • 누군가 랙 뒤 네트워크 백플레인을 실수로 재부팅했습니다. 해당 섀시의 모든 것이 중복 NIC를 사용했기 때문에 서비스 중단이 발생하지 않았습니다. 모든 트래픽이 다른 백플레인으로 이동했습니다.

그러나 TomTom의 비용에 대한 요점은 매우 사실입니다. 완전한 비용 패리티를 달성하려면 블레이드 섀시가 완전히로드되어 랙 뒤 스위치와 같은 특수한 것을 사용하지 않아야합니다. 공간 제약으로 인해 밀도가 정말로 필요한 영역에서 블레이드 랙이 의미가 있습니다.


SuperMicro Twin 아키텍처는 컴퓨터 당 2 개의 소켓으로 TU 당 2 대의 컴퓨터를 제공합니다. 이는 MOST 블레이드와 비슷한 기능입니다. 내가 아는 유일한 고밀도는 아이비 브릿지를 사용하는 Dell 블레이드입니다. 그러나 비교가 더 제한적입니다.
TomTom

@tomtom 그러나 supermicro twin은 중복 psus를 제공합니까? 우리는 방금 하나를 만들었고 그 옵션을 어디에도 보지 못했습니다. 우리는 만일을 위해 손에 들고있는 차가운 여분의 psu를 샀다.
Jeff Atwood

@JeffAtwood, 나는 SuperMicro의 1U 트윈에서 중복 PSU를 보지 못했지만 2U 4 노드 트윈 트윈 라인에는 PSU가 있습니다. .
Charles

또한 누가 신경 써요. 랙에 예비 전원 공급 장치가 있어야합니다. 교체하는 데 몇 초가 걸립니다.
TomTom

14

이 질문은 공유 스토리지로 확장 될 수 있습니다. 다시 말하지만, 우리는 단지 하나가 아닌 두 개의 저장 장치가 필요하며 공급 업체는이 일이 너무 견고하여 실패가 예상되지 않는다고 말합니다.

사실은 아니야 당신은 지금까지 이해가되었는데,이 문장은 그것들을 "눈 앞에서 내용을 읽습니다". 전체 복제 기능이있는 HA는 스토리지 장치의 알려진 엔터프라이즈 기능입니다. 요점은 SAN (저장 장치가 블레이드 섀시보다 훨씬 더 복잡하다는 것입니다. 마지막에 "stupid metal"입니다. 일부 백플레인을 제외한 블레이드 섀시의 모든 것은 교체 가능합니다. 모든 모듈 등은 교체 가능하며 개별 블레이드는 아무도 블레이드 센터 자체가 블레이드의 고 가용성을 제공한다고 말합니다.

이것은 SAN과는 상당히 다르며 100 %는 일관된 상태로 유지되므로 복제와 같은 것들이 있습니다.

말 : 당신의 숫자를보십시오. 나는 한동안 블레이드를 구매하는 것을 고려해 보았고 결코 금융 감각을 만들지 않았습니다. 섀시는 너무 비싸고 블레이드는 일반 컴퓨터에 비해 실제로 저렴하지 않습니다. 대안으로 SuperMicro Twin 아키텍처를 살펴볼 것을 제안합니다.


트윈 및 트윈 트윈 (2U 4 노드)은 블레이드의 훌륭한 대안입니다. 인텔은 또한 트윈 및 트윈 트윈 서버 라인을 만듭니다.
Charles

@Charles 뚱뚱한 쌍둥이를 아십니까? 8 기계 4 U)
탐 탐

나는 하나를 보았지만 그것을 가지고 놀거나 평가할 기회가 없었습니다.
Charles

4

내가 경험 한 블레이드 서버는 IBM의 서버입니다. 이러한 특정 모듈은 완전히 모듈 식이며 많은 중복 기능이 내장되어 있습니다. 따라서 장애가 발생하면 PSU 나 모듈 식 스위치 등과 같은 구성 요소 중 하나가됩니다. 그러나 다시 말하지만 이중화 기능도 있습니다.

IBM 블레이드와 관련이 있기 때문에 이전에는 완전한 실패를 보지 못했습니다.

다른 브랜드들도 비슷한 방식으로 제작 될 것으로 생각합니다.
공급 업체와도 대화하고 많은 독서를하는 것이 좋습니다.
큰 투자입니다.


1

동일한 엔클로저에서 여러 블레이드 서버가 중단되는 장애는 가능성이 높고 동일한 랙에서 여러 서버가 중단되는 장애와 비슷합니다.

실패 (두 단일 지점 최소화하기 위해 설정 초기 별도의 두; 반 중 하나가 전체 부하 처리 할 수 있도록 DC 전원 공급 장치, 별도의 실행, 전체 부하를 처리 할 수있는 각각의 전원의 AC 소스를 별도의 네트워크 첨부 파일 중 하나를 전체 예상 부하 등을 처리 할 수 ​​있으며 섀시의 모든 블레이드 또는 랙의 모든 2U 서버를 제거하는 것의 차이는 매우 작습니다.


1

다른 포럼에서 매우 자주 읽게되는 문제는 서버 섀시가 다운 될 가능성이 있다는 이론적 인 가능성이 있다는 것입니다. 결과적으로 모든 블레이드가 다운됩니다. 공유 인프라 때문입니다.

과연! 약 5 년 전에 두 개의 HP Proliant p- 클래스 인클로저를 관리하는 동안 섀시 전체에 여러 번 문제가 발생했습니다.

블레이드 서버가 꺼져 있으면 블레이드 서버를 켤 수 없었습니다 (서버가 자주 꺼지지는 않지만 우리에게 똑같은 문제가되었습니다). 서버가 갑자기 꺼지고 다시 켜지지 않습니다. 마지막으로 모든 서버를 끄고 다시 켤 수 없었습니다.

내가 기억하는 것처럼, 거의 모든 문제는 나쁜 전원 백플레인 또는 컨트롤러 백플레인으로 인한 것입니다. 우리는 여러 번 교체를 받았고 기술에서 얻은 비 특정 기록은이 세대의 블레이드 인클로저에 문제가 있다는 메시지를 받았습니다.

그 당시에 구매할 때 할 말이 있다면 블레이드 서버의 이점은 그다지 위험하지 않다고 결정했습니다.

그 문제에 대해 다음 고용주와 현재 고용주에게 빨리 전달하십시오. 그들은 이미 HP Proliant c-Class 엔클로저를 실행 했으므로 블레이드에 대한 미지근한 느낌은 중요하지 않았습니다. 5 년 동안 저는 c-Class 인클로저를 다루었지만 p-Class에서 한 것처럼 인클로저 전체가 고장난 경험을 한 적이 없습니다. 그들은 큰 문제없이 달리고 있습니다.

(비가 폭풍으로 지붕, 4 층, 컴퓨터 실의 작은 구멍, 케이블 아래 및 섀시로 비를 보냈습니다)


-1

DELL 및 HP 블레이드 섀시에는 중복 미드 플레인이 없습니다. IBM Bladecenter가 승자가되는 곳입니다. 내 지식으로는 중복 미드 플레인을 제공하는 유일한 블레이드 섀시입니다. HP는 블레이드를위한 환상적인 관리 소프트웨어 제품군을 제공하지만 전체 섀시의 단일 장애 지점을 피하기 위해 회사를 위해 Bladecenter E를 구입했습니다.


이것이 바로 IBM 마케팅 자료가 말하는 것입니다. 완전히 이중화 된 블레이드 솔루션을 제공하는 유일한 공급 업체입니다. 그러나이 스레드에서 다른 메시지를 읽은 후에도 HP 솔루션에이 기능이있는 것 같습니다.
Martijn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.