이중 CPU는 내결함성을 제공합니까?


16

두 개의 Intel Xeon을 구입하여 서버급 하드웨어에 설치했다고 가정 해 봅시다. 한 CPU가 고장 나더라도 다른 CPU가 여전히 작동하고 여유를 잡아서 내결함성을 제공합니까?

이것은 가능성이 높지 않지만 가정을 대신하는 것이 아니라고 생각했습니다.

답변:


29

일반적인 듀얼 소켓 시스템에는 프로세서와 RAM의 핫스왑을 허용하는 서버가 있지만 아닙니다. 그래서 이런 일들은 존재,하지만 그들은 시장의 매우 하이 엔드에있어.

서버에서 실패 할 수있는 모든 것의 큰 문제는 아닙니다. 프로세서는 목록의 맨 아래에 있으며 섀시에서 마더 보드를 고정시키는 작은 황동 라이저 옆에 있습니다.


1
열전 사를 잘못 설치하면 최대로드 중에 CPU가 과열 될 수 있습니다. 자발적인 황동 라이저 고장보다 더 많은 사례가 발생한다고 확신합니다.
Oddthinking

8
@Oddthinking 나는 당신이 너무 심각하게 생각합니다.
Peter

5
핫 스왑 가능 CPU를 사용하더라도 시스템은 여전히 ​​그 중 하나의 갑작스러운 장애를 허용하지 않습니다. OS 커널이 현재 CPU에서 실행되고 있다고 가정하고 다른 CPU에서 실행을 재개 할 수는 없습니다. 핫 스왑 가능 CPU의 경우 커널은 해당 CPU를 먼저 정상적으로 종료해야합니다.
Patrick

4
@Patrik : 네 맞습니다. 아시다시피-잘못된;) 이것은 고급 CPU의 표준 동작입니다. 당연히 CPU 가격이 5000+ USD 인 메인 프레임입니다. 여전히 트랜잭션 메모리를 사용하고 다른 CPU에서 트랜잭션이 다시 시작됩니다.
TomTom

5
@TomTom : 물론 우리는 바닐라 x86-64 아키텍쳐가 아니라 훌륭한 TANDEM (그리고 현대의 후계자)과 같은 것을 이야기하고 있습니다.
Piskvor

9

시스템이 실행 중이고 CPU에 장애가 발생하면 x86 상용 하드웨어에 관해 이야기하면 정상적으로 중단됩니다. 그러나 재부팅 후에는 시스템이 다소 느리지 만 정상적으로 작동합니다.

여러 CPU에는 대개 내결함성이 아니라 병렬 처리가 필요합니다. 그러나 CPU (또는 그 이상)가 고장날 경우 여전히 부팅하는 시스템을 갖추는 것이 좋습니다.

Mark Henderson이 제안한 것보다 CPU가 실패 할 가능성이 높지만 여전히 가능성은 낮습니다. 내 경험에 따르면 대부분 시스템이 자주 과열되어 종료 될 때 발생합니다. 에어컨이 제대로 작동하지 않는 사무실 서버 실에서는 매우 쉽습니다. CPU는 그다지 좋아하지 않는 경향이 있습니다.

물론 IBM 메인 프레임이나 이와 유사한 기능이 있다면 CPU (보드)를 핫스왑하는 것은 "쉬운"것입니다.


흠, 그러나 하드 재부팅의 경우에도 : IIRC CPU # 0이 실패해도 여전히 나사가 없습니다. POST가 없습니다. 즉, 초기 부팅 프로세스에 첫 번째 CPU 만 사용되므로 더 이상 부팅 할 수 없습니다.
Piskvor

그것이 사실인지 모르겠습니다. 서버에서 테스트해야합니다. 나는 그것이 중요하지 않다고 생각했고 CPU가 1 개 존재하는 한 시스템은 정상적으로 부팅 할 것입니다.
aseq

5

CPU가 실패한 경우 (다른 답변에 따르면 극히 드물지만) 기본적으로 시스템이 복구 할 수있는 작업은 없습니다. 실패하는 방식에 따라 이상한 방식으로 메모리가 손상되거나 프로세스 테이블이 손상되거나 다른 것을 아는 사람이 생길 수 있습니다. CPU의 탭을 유지하여 작동 상태를 유지하고 (죽음이 발생하는 동안 CPU에서 변경 한 사항을 롤백 할 수있는) 일종의 활성 모니터링 시스템을 갖추었다면 다른 시스템 일 것입니다 실패 할 수 있으며 프로그래밍 방식으로 소프트웨어 실패를 결정하는 것은 매우 어렵습니다 (기본적으로 실제로 수행 할 수있는 유일한 방법은 다른 CPU가 동일한 시간에 정확히 동일한 작업을 수행하고 결과를 비교하는 것입니다. 아래로

즉, CPU 오류가 드문 경우이지만 시스템에서 CPU 수를 늘리면 실제로 실패율이 두 배나 높아 지므로 실제로 실패율이 높아집니다. 또한 CPU 캐시를 동기화 상태로 유지하는 시스템과 같이 고장날 수있는 다른 서브 시스템이 있으며 전력 소비 및 열 출력의 증가는 전체 시스템 고장의 원인이됩니다 (물론 활성 냉각 팬은 또 다른 시스템입니다) 실패 지점).


1
CPU가 2 배가되면 시스템의 고장 가능성이 높아진다는 점을 +1하십시오. "이동 부품"이 많을수록 고장 발생 가능성이 높아집니다.
에반 앤더슨

4

처리하려는 장애의 종류를 정확하게 정의해야합니다. 함께 작동하는 코어 / CPU / 컴퓨터 모음을 네트워크로 간주하면 한 가지 유형의 장애는 노드가 단순히 응답을 중지한다는 것입니다. 훨씬 더 심각한 장애는 노드가 데이터를 손상시키기 시작하고 결함있는 정보를 다른 사람에게 보내는 경우입니다. 이를 비잔틴 장애 라고하며 최악의 경우 전략적 "거짓말"을 통해 네트워크 작동을 방해합니다. 비잔틴으로가는 노드 의 3 분의 1 이상을 처리 할 수 있는 시스템없다는 것을 쉽게 알 수 있습니다 .

당신이해야 할 일은 정확히 어떤 종류의 실패를 예상하고 그것을 염두에두고 시스템을 설계하고 임의의 수의 악성 노드를 처리하는 문제를 해결할 수 없다는 사실을 받아들이는 것입니다. 귀하의 경우, CPU 중 하나에 결함이있는 경우 최소 4 개의 CPU가 필요합니다.

참고 사항 : 양자 물리학에서는 불가능이 없지만 통계적으로 특정 행동을 관찰 할 수있는 우주의 나이보다 오래 기다려야하는 경우 가능하다고 말할 필요는 없습니다. 시스템을 설계 할 때 명심하십시오. ;)


2

CPU 고장은 드물다. 실패는 아마도 OS 레벨에서 다른 문제를 야기 할 것입니다. 나는 이것을 어떤 형태의 내결함성으로 생각하지 않을 것이다.


1

다른 대답으로 CPU가 실패하는 경우는 매우 드물며 평균 서버에서 핫 스왑을 수행 할 수 없으므로 실패한 CPU를 교체 할 때까지 서버를 하나의 CPU로 남겨 두는 것이 좋습니다. 절차가 완전히 오프라인 상태이며 서버를 중지해야합니다


1
글쎄, 나는 그것을 슈퍼 레어라고 부르지 않을 것이다. 내 서버 중 하나에서 발생했습니다. 현재 문제 해결 과정에 있습니다. 팬 오류로 인해 이중 CPU 서버에서 CPU 중 하나가 손실되었습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.