ECC 램이란 무엇이며 왜 더 낫습니까?


31

서버에서의 ECC 램 사용에 대한 토론을 보았습니다. 왜 더 낫습니까?


2
또 다른 질문으로 질문에 답변했습니다 : serverfault.com/questions/5817/…
sh-beta

ECC 메모리가 사용에 필요하거나 유익하다는 증거가 있습니까? 이점과 작용 메커니즘은 이해하기 쉽지만 그 사용을 정당화 할 증거를 들어 본 적이 없습니다.
Drew Stephens

그리고 그러한 메모리 (비트) 오류가 발생하면 다양한 결과는 무엇입니까? 예를 들어, 5 년 동안 논스톱 (온라인 ECC 램 사용) 동안 온라인 상태 인 서버의 전원을 끄고 전체적으로 문제가 해결되지 않았으며, 그곳에서 호스팅되거나 주요한 경험이있는 고객의 불만은 없었습니다. 그것으로 잘못 ... 내 데스크탑 컴퓨터 경험과 동일-BSOD 여기 저기 매우 드물지만, 이것이 전부입니까? :)
Denis Volovik 2011

@Denis, 사람들이 귀하의 질문에 답변하기를 원한다면, 의견이 아닌 별도의 질문으로 질문해야 할 수도 있습니다.
Toby Allen

답변:


28

ECC RAM은 패리티 비트를 활용하여 비트 단위의 작은 오류를 복구 할 수 있습니다. 서버는 가동 시간과 안정성이 중요한 공유 리소스이므로 ECC RAM은 일반적으로 약간의 가격 차이만으로 사용됩니다. ECC RAM은 CAD / CAM 워크 스테이션에서도 사용됩니다. 작은 비트 오류로 인해 계산 실수가 발생하여 설계가 제조 과정에서 더 심각한 문제가 될 수있었습니다.


5
누군가의 소기업 금융 패키지를 포함하여 어디에서나 숫자 오류가 매우 작 거나 클 수 있습니다 . 그것은 모두 어떤 비트에 달려 있습니다.
Zan Lynx

또한 잘못된 위치에서 잘못된 오류가 발생하면 가상화 할 때 여러 대의 컴퓨터가 다운 될 수 있습니다.
MikeyB

1
나는 부도덕 한 회사가 회계 사기가 실제로 약간의 오류라고 주장하기를 기다리고 있습니다.
Eloff

29

우수한 실제 연구 :

야생에서의 DRAM 오류 : 대규모 현장 연구 (pdf)

이 백서는 현장에서 DRAM 메모리 오류에 대한 최초의 대규모 연구를 제공합니다. 수백만 개의 DIMM 일을 구성하는 2 년 이상 Google 서버에서 수집 한 데이터를 기반으로합니다. 본 연구에서 DRAM은 여러 공급 업체, DRAM 밀도 및 기술 (DDR1, DDR2 및 FBDIMM)을 포괄합니다.

이 백서는 다음과 같은 질문을 다룹니다. 실제로 메모리 오류는 어떻게 발생합니까? 통계적 속성은 무엇입니까? 온도 및 시스템 활용도와 같은 외부 요인에 의해 어떻게 영향을 받습니까? 그리고 칩 밀도, 메모리 기술 및 DIMM 수명과 같은 칩 특정 요소에 따라 어떻게 달라 집니까?

많은 측면에서이 분야의 DRAM 오류는 일반적으로 가정되는 것과 매우 다르게 행동합니다. 예를 들어, FIT 속도 (10 억 장치 시간당 시간 실패)가 Mbit 당 25,000 ~ 70,000이고 매년 8 % 이상의 DIMM이 영향을받는 이전에보고 된 것보다 훨씬 높은 DRAM 오류율을 관찰합니다. 우리는 메모리 오류가 대부분의 이전 작업에서 중점을 둔 소프트 오류보다는 하드 오류에 의해 지배된다는 강력한 증거를 제공합니다. 현장에서 DIMM의 오류 동작에 영향을 미치는 모든 요소 중에서 온도는 놀라 울 정도로 작은 영향을 미칩니다. 마지막으로, 일반적으로 두려워하는 것과 달리, 우리는 최신 DIMM 세대에 따라 DIMM 당 오류율이 증가한다는 징후를 발견하지 못했습니다.

대부분의 메모리 오류가 하드라는 점에 관심이 있습니다. 하드 메모리 오류는 복구 할 수 없습니다. 즉, 메모리를 물리적 으로 장애가 발생한 것으로 교체 해야하는 반면 소프트 메모리 오류는 메모리를 올바른 값으로 덮어 써서 수정할 수 있습니다. 이것은 ECC의 가치가 상당히 제한되어 있음을 나타냅니다.

메모리 시스템에서 일반적으로 발생할 수있는 두 가지 종류의 오류가 있습니다. 첫 번째는 반복 가능 또는 하드 오류라고합니다. 이 상황에서는 하드웨어가 고장 나서 일관되게 잘못된 결과를 반환합니다. 예를 들어 비트에 쓰여진 내용에 관계없이 비트는 항상 "0"을 반환하도록 붙어있을 수 있습니다. 하드 오류는 일반적으로 메모리 모듈이 느슨하거나 칩이 끊어 졌거나 마더 보드 결함 또는 기타 물리적 문제를 나타냅니다. 일관성 있고 반복 가능하기 때문에 진단 및 수정이 비교적 쉽습니다.

연구의 모든 서버가 ECC를 사용하는 것처럼 들리므로 ECC와 비 ECC 오류율을 알 수 없습니다.

이 백서는 대량의 상용 서버에서 DRAM 오류의 발생률과 특성을 연구했습니다. 우리의 연구는 2 년 이상 수집 된 데이터를 기반으로하며 여러 공급 업체의 DIMM, 세대, 기술 및 용량을 다룹니다. 모든 DIMM에는 최소 단일 비트 오류를 ​​수정하기 위해 ECC (오류 수정 논리)가 장착되어 있습니다.


5
좋은 보고서 +1. 내가없는 동안 알고 비 ECC 오류 요금, 나는 추정 이 비 ECC 에러 비율이 대략 GB 당 ECC 오류 요금과 동일합니다. 동일한 RAM 칩이 ECC 및 비 ECC DIMM에 모두 사용됩니다 (ECC DIMM은 64 비트 데이터 워드를 저장하기 위해 72 개의 원시 메모리 비트, 8/9의 오류율은 9/8만큼 많은 칩을 사용합니다). ECC DIMM에 배치 할 때와 비 ECC DIMM에 배치 할 때 RAM 칩의 오류율이 크게 다른 이유는 없습니다.
David Cary

9

ECC는 패리티에 비해 몇 가지 장점이 있습니다. 우선, 단일 비트 오류를 ​​감지하고 복구 할 수 있으며 전체 시스템을 중지하지 않아도됩니다. 다중 비트 오류는 여전히 패리티 오류를 반환하지만 메모리 자체에 결함이 없으면 PC 수명 동안 천문학적으로 발생할 가능성이 낮습니다. ECC는 자동차 보험과 같습니다. 잘못 될 수있는 대부분의 것들에 대해 보험 혜택을 제공하지만, 멀티 카 누적을 막을 수는 없습니다.

여기에 더 자세히 : ECC 메모리 : 서버를위한 필수가 아닌 데스크탑 PC 용


1
기사에 동의하지 않습니다. 모두가 ECC를 사용해야한다고 생각합니다. 나는 포기하지 않았지만 마침내 내가 할만 큼 새로운 Core I7을 원했습니다. 그러나 6GB의 RAM이 모든 곳에서 오류를 포착하고 있다고 확신합니다.
Zan Lynx

4
@zan과 당신이 "확실한"이러한 오류는 어떤 결과를 가져 옵니까?
Jeff Atwood

추측하지 마십시오. 수정 가능한 오류는 OS (Windows의 시스템 로그, Linux의 / var / log / mcelog)에 기록 될 수있는 MCE를 손상시켜야합니다.
MikeyB

@ JeffAtwood : 일반적으로 아무것도 없지만 분명한 이유없이 가끔 블루 스크린을 사용했습니다. 내가 가지고있는 시스템에서 수행 ECC가 나는 매달 단일 비트 오류의 몇 가지를 볼 수 있습니다.
Zan Lynx

@ JeffAtwood : 그리고 내가 확신하는 모든 사람들처럼, 때때로 응용 프로그램 (Office. Visual Studio.)이 미친 듯이 사라져서 다시 설치해야했습니다. 손상된 디스크 파일을 일으키는 앱 버그 또는 ECC 오류? ECC가없는 사람은 누구입니까?
Zan Lynx

5

Wikipedia 에서 인용 한 것을 간단하게 만들기 위해 :

컴퓨터 시스템 내부의 전기적 또는 자기 적 간섭으로 인해 단일 비트의 DRAM이 자발적으로 반대 상태로 전환 될 수 있습니다. 처음에는 이것이 칩 패키징 재료에서 오염 물질에 의해 방출 된 알파 입자 때문인 것으로 생각되었지만, 연구 [5]에 따르면 DRAM 칩에서 대부분의 일회성 ( "소프트") 오류는 배경 방사선의 결과로 발생합니다
...
이 문제는 여분의 메모리 비트를 포함하는 DRAM 모듈과 이러한 비트를 이용하는 메모리 컨트롤러를 사용하여 완화 할 수 있습니다. 이러한 추가 비트는 패리티를 기록하거나 오류 수정 코드를 사용하는 데 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.