답변:
일반적인 듀얼 소켓 시스템에는 프로세서와 RAM의 핫스왑을 허용하는 서버가 있지만 아닙니다. 그래서 이런 일들은 할 존재,하지만 그들은 시장의 매우 하이 엔드에있어.
서버에서 실패 할 수있는 모든 것의 큰 문제는 아닙니다. 프로세서는 목록의 맨 아래에 있으며 섀시에서 마더 보드를 고정시키는 작은 황동 라이저 옆에 있습니다.
시스템이 실행 중이고 CPU에 장애가 발생하면 x86 상용 하드웨어에 관해 이야기하면 정상적으로 중단됩니다. 그러나 재부팅 후에는 시스템이 다소 느리지 만 정상적으로 작동합니다.
여러 CPU에는 대개 내결함성이 아니라 병렬 처리가 필요합니다. 그러나 CPU (또는 그 이상)가 고장날 경우 여전히 부팅하는 시스템을 갖추는 것이 좋습니다.
Mark Henderson이 제안한 것보다 CPU가 실패 할 가능성이 높지만 여전히 가능성은 낮습니다. 내 경험에 따르면 대부분 시스템이 자주 과열되어 종료 될 때 발생합니다. 에어컨이 제대로 작동하지 않는 사무실 서버 실에서는 매우 쉽습니다. CPU는 그다지 좋아하지 않는 경향이 있습니다.
물론 IBM 메인 프레임이나 이와 유사한 기능이 있다면 CPU (보드)를 핫스왑하는 것은 "쉬운"것입니다.
CPU가 실패한 경우 (다른 답변에 따르면 극히 드물지만) 기본적으로 시스템이 복구 할 수있는 작업은 없습니다. 실패하는 방식에 따라 이상한 방식으로 메모리가 손상되거나 프로세스 테이블이 손상되거나 다른 것을 아는 사람이 생길 수 있습니다. CPU의 탭을 유지하여 작동 상태를 유지하고 (죽음이 발생하는 동안 CPU에서 변경 한 사항을 롤백 할 수있는) 일종의 활성 모니터링 시스템을 갖추었다면 다른 시스템 일 것입니다 실패 할 수 있으며 프로그래밍 방식으로 소프트웨어 실패를 결정하는 것은 매우 어렵습니다 (기본적으로 실제로 수행 할 수있는 유일한 방법은 다른 CPU가 동일한 시간에 정확히 동일한 작업을 수행하고 결과를 비교하는 것입니다. 아래로
즉, CPU 오류가 드문 경우이지만 시스템에서 CPU 수를 늘리면 실제로 실패율이 두 배나 높아 지므로 실제로 실패율이 높아집니다. 또한 CPU 캐시를 동기화 상태로 유지하는 시스템과 같이 고장날 수있는 다른 서브 시스템이 있으며 전력 소비 및 열 출력의 증가는 전체 시스템 고장의 원인이됩니다 (물론 활성 냉각 팬은 또 다른 시스템입니다) 실패 지점).
처리하려는 장애의 종류를 정확하게 정의해야합니다. 함께 작동하는 코어 / CPU / 컴퓨터 모음을 네트워크로 간주하면 한 가지 유형의 장애는 노드가 단순히 응답을 중지한다는 것입니다. 훨씬 더 심각한 장애는 노드가 데이터를 손상시키기 시작하고 결함있는 정보를 다른 사람에게 보내는 경우입니다. 이를 비잔틴 장애 라고하며 최악의 경우 전략적 "거짓말"을 통해 네트워크 작동을 방해합니다. 비잔틴으로가는 노드 의 3 분의 1 이상을 처리 할 수 있는 시스템 이 없다는 것을 쉽게 알 수 있습니다 .
당신이해야 할 일은 정확히 어떤 종류의 실패를 예상하고 그것을 염두에두고 시스템을 설계하고 임의의 수의 악성 노드를 처리하는 문제를 해결할 수 없다는 사실을 받아들이는 것입니다. 귀하의 경우, CPU 중 하나에 결함이있는 경우 최소 4 개의 CPU가 필요합니다.
참고 사항 : 양자 물리학에서는 불가능이 없지만 통계적으로 특정 행동을 관찰 할 수있는 우주의 나이보다 오래 기다려야하는 경우 가능하다고 말할 필요는 없습니다. 시스템을 설계 할 때 명심하십시오. ;)