서버에서의 ECC 램 사용에 대한 토론을 보았습니다. 왜 더 낫습니까?
서버에서의 ECC 램 사용에 대한 토론을 보았습니다. 왜 더 낫습니까?
답변:
ECC RAM은 패리티 비트를 활용하여 비트 단위의 작은 오류를 복구 할 수 있습니다. 서버는 가동 시간과 안정성이 중요한 공유 리소스이므로 ECC RAM은 일반적으로 약간의 가격 차이만으로 사용됩니다. ECC RAM은 CAD / CAM 워크 스테이션에서도 사용됩니다. 작은 비트 오류로 인해 계산 실수가 발생하여 설계가 제조 과정에서 더 심각한 문제가 될 수있었습니다.
우수한 실제 연구 :
야생에서의 DRAM 오류 : 대규모 현장 연구 (pdf)
이 백서는 현장에서 DRAM 메모리 오류에 대한 최초의 대규모 연구를 제공합니다. 수백만 개의 DIMM 일을 구성하는 2 년 이상 Google 서버에서 수집 한 데이터를 기반으로합니다. 본 연구에서 DRAM은 여러 공급 업체, DRAM 밀도 및 기술 (DDR1, DDR2 및 FBDIMM)을 포괄합니다.
이 백서는 다음과 같은 질문을 다룹니다. 실제로 메모리 오류는 어떻게 발생합니까? 통계적 속성은 무엇입니까? 온도 및 시스템 활용도와 같은 외부 요인에 의해 어떻게 영향을 받습니까? 그리고 칩 밀도, 메모리 기술 및 DIMM 수명과 같은 칩 특정 요소에 따라 어떻게 달라 집니까?
많은 측면에서이 분야의 DRAM 오류는 일반적으로 가정되는 것과 매우 다르게 행동합니다. 예를 들어, FIT 속도 (10 억 장치 시간당 시간 실패)가 Mbit 당 25,000 ~ 70,000이고 매년 8 % 이상의 DIMM이 영향을받는 이전에보고 된 것보다 훨씬 높은 DRAM 오류율을 관찰합니다. 우리는 메모리 오류가 대부분의 이전 작업에서 중점을 둔 소프트 오류보다는 하드 오류에 의해 지배된다는 강력한 증거를 제공합니다. 현장에서 DIMM의 오류 동작에 영향을 미치는 모든 요소 중에서 온도는 놀라 울 정도로 작은 영향을 미칩니다. 마지막으로, 일반적으로 두려워하는 것과 달리, 우리는 최신 DIMM 세대에 따라 DIMM 당 오류율이 증가한다는 징후를 발견하지 못했습니다.
대부분의 메모리 오류가 하드라는 점에 관심이 있습니다. 하드 메모리 오류는 복구 할 수 없습니다. 즉, 메모리를 물리적 으로 장애가 발생한 것으로 교체 해야하는 반면 소프트 메모리 오류는 메모리를 올바른 값으로 덮어 써서 수정할 수 있습니다. 이것은 ECC의 가치가 상당히 제한되어 있음을 나타냅니다.
메모리 시스템에서 일반적으로 발생할 수있는 두 가지 종류의 오류가 있습니다. 첫 번째는 반복 가능 또는 하드 오류라고합니다. 이 상황에서는 하드웨어가 고장 나서 일관되게 잘못된 결과를 반환합니다. 예를 들어 비트에 쓰여진 내용에 관계없이 비트는 항상 "0"을 반환하도록 붙어있을 수 있습니다. 하드 오류는 일반적으로 메모리 모듈이 느슨하거나 칩이 끊어 졌거나 마더 보드 결함 또는 기타 물리적 문제를 나타냅니다. 일관성 있고 반복 가능하기 때문에 진단 및 수정이 비교적 쉽습니다.
연구의 모든 서버가 ECC를 사용하는 것처럼 들리므로 ECC와 비 ECC 오류율을 알 수 없습니다.
이 백서는 대량의 상용 서버에서 DRAM 오류의 발생률과 특성을 연구했습니다. 우리의 연구는 2 년 이상 수집 된 데이터를 기반으로하며 여러 공급 업체의 DIMM, 세대, 기술 및 용량을 다룹니다. 모든 DIMM에는 최소 단일 비트 오류를 수정하기 위해 ECC (오류 수정 논리)가 장착되어 있습니다.
ECC는 패리티에 비해 몇 가지 장점이 있습니다. 우선, 단일 비트 오류를 감지하고 복구 할 수 있으며 전체 시스템을 중지하지 않아도됩니다. 다중 비트 오류는 여전히 패리티 오류를 반환하지만 메모리 자체에 결함이 없으면 PC 수명 동안 천문학적으로 발생할 가능성이 낮습니다. ECC는 자동차 보험과 같습니다. 잘못 될 수있는 대부분의 것들에 대해 보험 혜택을 제공하지만, 멀티 카 누적을 막을 수는 없습니다.
여기에 더 자세히 : ECC 메모리 : 서버를위한 필수가 아닌 데스크탑 PC 용
Wikipedia 에서 인용 한 것을 간단하게 만들기 위해 :
컴퓨터 시스템 내부의 전기적 또는 자기 적 간섭으로 인해 단일 비트의 DRAM이 자발적으로 반대 상태로 전환 될 수 있습니다. 처음에는 이것이 칩 패키징 재료에서 오염 물질에 의해 방출 된 알파 입자 때문인 것으로 생각되었지만, 연구 [5]에 따르면 DRAM 칩에서 대부분의 일회성 ( "소프트") 오류는 배경 방사선의 결과로 발생합니다
...
이 문제는 여분의 메모리 비트를 포함하는 DRAM 모듈과 이러한 비트를 이용하는 메모리 컨트롤러를 사용하여 완화 할 수 있습니다. 이러한 추가 비트는 패리티를 기록하거나 오류 수정 코드를 사용하는 데 사용됩니다.