이중 CPU는 내결함성을 제공합니까?

16

두 개의 Intel Xeon을 구입하여 서버급 하드웨어에 설치했다고 가정 해 봅시다. 한 CPU가 고장 나더라도 다른 CPU가 여전히 작동하고 여유를 잡아서 내결함성을 제공합니까?

이것은 가능성이 높지 않지만 가정을 대신하는 것이 아니라고 생각했습니다.

central-processing-unit

— 소비에로
소스

29

일반적인 듀얼 소켓 시스템에는 프로세서와 RAM의 핫스왑을 허용하는 서버가 있지만 아닙니다. 그래서 이런 일들은 할 존재,하지만 그들은 시장의 매우 하이 엔드에있어.

서버에서 실패 할 수있는 모든 것의 큰 문제는 아닙니다. 프로세서는 목록의 맨 아래에 있으며 섀시에서 마더 보드를 고정시키는 작은 황동 라이저 옆에 있습니다.

— 마크 헨더슨
소스

1

열전 사를 잘못 설치하면 최대로드 중에 CPU가 과열 될 수 있습니다. 자발적인 황동 라이저 고장보다 더 많은 사례가 발생한다고 확신합니다.

— Oddthinking

8

@Oddthinking 나는 당신이 너무 심각하게 생각합니다.

— Peter

5

핫 스왑 가능 CPU를 사용하더라도 시스템은 여전히 그 중 하나의 갑작스러운 장애를 허용하지 않습니다. OS 커널이 현재 CPU에서 실행되고 있다고 가정하고 다른 CPU에서 실행을 재개 할 수는 없습니다. 핫 스왑 가능 CPU의 경우 커널은 해당 CPU를 먼저 정상적으로 종료해야합니다.

— Patrick

4

@Patrik : 네 맞습니다. 아시다시피-잘못된;) 이것은 고급 CPU의 표준 동작입니다. 당연히 CPU 가격이 5000+ USD 인 메인 프레임입니다. 여전히 트랜잭션 메모리를 사용하고 다른 CPU에서 트랜잭션이 다시 시작됩니다.

— TomTom

5

@TomTom : 물론 우리는 바닐라 x86-64 아키텍쳐가 아니라 훌륭한 TANDEM (그리고 현대의 후계자)과 같은 것을 이야기하고 있습니다.

— Piskvor

9

시스템이 실행 중이고 CPU에 장애가 발생하면 x86 상용 하드웨어에 관해 이야기하면 정상적으로 중단됩니다. 그러나 재부팅 후에는 시스템이 다소 느리지 만 정상적으로 작동합니다.

여러 CPU에는 대개 내결함성이 아니라 병렬 처리가 필요합니다. 그러나 CPU (또는 그 이상)가 고장날 경우 여전히 부팅하는 시스템을 갖추는 것이 좋습니다.

Mark Henderson이 제안한 것보다 CPU가 실패 할 가능성이 높지만 여전히 가능성은 낮습니다. 내 경험에 따르면 대부분 시스템이 자주 과열되어 종료 될 때 발생합니다. 에어컨이 제대로 작동하지 않는 사무실 서버 실에서는 매우 쉽습니다. CPU는 그다지 좋아하지 않는 경향이 있습니다.

물론 IBM 메인 프레임이나 이와 유사한 기능이 있다면 CPU (보드)를 핫스왑하는 것은 "쉬운"것입니다.

— aseq
소스

흠, 그러나 하드 재부팅의 경우에도 : IIRC CPU # 0이 실패해도 여전히 나사가 없습니다. POST가 없습니다. 즉, 초기 부팅 프로세스에 첫 번째 CPU 만 사용되므로 더 이상 부팅 할 수 없습니다.

— Piskvor

그것이 사실인지 모르겠습니다. 서버에서 테스트해야합니다. 나는 그것이 중요하지 않다고 생각했고 CPU가 1 개 존재하는 한 시스템은 정상적으로 부팅 할 것입니다.

— aseq

5

CPU가 실패한 경우 (다른 답변에 따르면 극히 드물지만) 기본적으로 시스템이 복구 할 수있는 작업은 없습니다. 실패하는 방식에 따라 이상한 방식으로 메모리가 손상되거나 프로세스 테이블이 손상되거나 다른 것을 아는 사람이 생길 수 있습니다. CPU의 탭을 유지하여 작동 상태를 유지하고 (죽음이 발생하는 동안 CPU에서 변경 한 사항을 롤백 할 수있는) 일종의 활성 모니터링 시스템을 갖추었다면 다른 시스템 일 것입니다 실패 할 수 있으며 프로그래밍 방식으로 소프트웨어 실패를 결정하는 것은 매우 어렵습니다 (기본적으로 실제로 수행 할 수있는 유일한 방법은 다른 CPU가 동일한 시간에 정확히 동일한 작업을 수행하고 결과를 비교하는 것입니다. 아래로

즉, CPU 오류가 드문 경우이지만 시스템에서 CPU 수를 늘리면 실제로 실패율이 두 배나 높아 지므로 실제로 실패율이 높아집니다. 또한 CPU 캐시를 동기화 상태로 유지하는 시스템과 같이 고장날 수있는 다른 서브 시스템이 있으며 전력 소비 및 열 출력의 증가는 전체 시스템 고장의 원인이됩니다 (물론 활성 냉각 팬은 또 다른 시스템입니다) 실패 지점).

— 푹신한
소스

1

CPU가 2 배가되면 시스템의 고장 가능성이 높아진다는 점을 +1하십시오. "이동 부품"이 많을수록 고장 발생 가능성이 높아집니다.

— 에반 앤더슨

4

처리하려는 장애의 종류를 정확하게 정의해야합니다. 함께 작동하는 코어 / CPU / 컴퓨터 모음을 네트워크로 간주하면 한 가지 유형의 장애는 노드가 단순히 응답을 중지한다는 것입니다. 훨씬 더 심각한 장애는 노드가 데이터를 손상시키기 시작하고 결함있는 정보를 다른 사람에게 보내는 경우입니다. 이를 비잔틴 장애 라고하며 최악의 경우 전략적 "거짓말"을 통해 네트워크 작동을 방해합니다. 비잔틴으로가는 노드 의 3 분의 1 이상을 처리 할 수 있는 시스템 이 없다는 것을 쉽게 알 수 있습니다 .

당신이해야 할 일은 정확히 어떤 종류의 실패를 예상하고 그것을 염두에두고 시스템을 설계하고 임의의 수의 악성 노드를 처리하는 문제를 해결할 수 없다는 사실을 받아들이는 것입니다. 귀하의 경우, CPU 중 하나에 결함이있는 경우 최소 4 개의 CPU가 필요합니다.

참고 사항 : 양자 물리학에서는 불가능이 없지만 통계적으로 특정 행동을 관찰 할 수있는 우주의 나이보다 오래 기다려야하는 경우 가능하다고 말할 필요는 없습니다. 시스템을 설계 할 때 명심하십시오. ;)

— 앤더스 쇼크 비스트
소스

2

CPU 고장은 드물다. 실패는 아마도 OS 레벨에서 다른 문제를 야기 할 것입니다. 나는 이것을 어떤 형태의 내결함성으로 생각하지 않을 것이다.

— ewwhite
소스

1

다른 대답으로 CPU가 실패하는 경우는 매우 드물며 평균 서버에서 핫 스왑을 수행 할 수 없으므로 실패한 CPU를 교체 할 때까지 서버를 하나의 CPU로 남겨 두는 것이 좋습니다. 절차가 완전히 오프라인 상태이며 서버를 중지해야합니다

— 핵심
소스

1

글쎄, 나는 그것을 슈퍼 레어라고 부르지 않을 것이다. 내 서버 중 하나에서 발생했습니다. 현재 문제 해결 과정에 있습니다. 팬 오류로 인해 이중 CPU 서버에서 CPU 중 하나가 손실되었습니다.