참고 : 이 답변은 물리학이 아니라 비 ECC 메모리 모듈의 자동 메모리 오류에 관한 것입니다. 일부 오류는 외부 공간에서, 일부는 데스크톱의 내부 공간에서 발생할 수 있습니다.
CERN 클러스터 및 Google 데이터 센터와 같은 대규모 서버 팜에서 ECC 메모리 오류에 대한 여러 연구가 있습니다. ECC가있는 서버급 하드웨어는 모든 단일 비트 오류를 감지하고 수정할 수 있으며 많은 다중 비트 오류를 감지 할 수 있습니다.
비 ECC 데스크톱 (및 비 ECC 모바일 스마트 폰)이 많다고 가정 할 수 있습니다. ECC로 수정 가능한 오류율 (단일 비트 플립)에 대해 논문을 확인하면 비 ECC 메모리에서 자동 메모리 손상 률을 알 수 있습니다.
대규모 CERN 2007 연구 "데이터 무결성" : 공급 업체는 "선언 (10)의 비트 오류율 -12 자신의 메모리 모듈 ", " 관찰 오류율 크기의 4 개 주문이 예상보다 낮은 것입니다 ". 데이터 집약적 인 작업 (8GB / s의 메모리 읽기)의 경우 이는 1 분마다 ( 10-12 벤더 BER) 또는 2 일에 한 번 ( 10-16 BER) 단일 비트 플립이 발생할 수 있음을 의미합니다 .
2009 구글의 논문 "와일드에서의 DRAM 오류 : 대규모 현장 연구"에 따르면 Mbit 당 최대 25000-75000 개의 1 비트 FIT ( 10 억 시간당 실패 )가 1-5 비트에 해당한다고합니다. 내 계산 후 8GB RAM에 대한 시간당 오류. 종이도 마찬가지다. " 연간 GB 당 2000–6000의 수정 가능한 오류율을 의미한다 ".
2012 Sandia 보고서 "대규모 고성능 컴퓨팅을위한 자동 데이터 손상 탐지 및 수정" : "더블 비트 플립은 거의 불가능한 것으로 간주됩니다." ECC와 함께. 그리고 단일 비트 오류가 더 높아야합니다.
따라서 프로그램에 큰 데이터 세트 (수 GB)가 있거나 메모리 읽기 또는 쓰기 속도 (GB / s 이상)가 높고 몇 시간 동안 실행되는 경우 데스크톱 하드웨어에서 최대 몇 개의 자동 비트 플립을 기대할 수 있습니다. 이 속도는 memtest로 감지 할 수 없으며 DRAM 모듈이 좋습니다.
BOINC 인터넷 전체 그리드 컴퓨팅과 같은 수천 개의 비 ECC PC에서 긴 클러스터를 실행하면 항상 메모리 비트 충돌 및 디스크 및 네트워크 자동 오류로 인한 오류가 발생합니다.
Sandia의 2012 보고서에서 볼 수 있듯이 단일 비트 오류로부터 ECC를 보호하는 경우에도 더 큰 시스템 (1 만 대의 서버)의 경우 매일 이중 비트 플립이 발생할 수 있으므로 전체 크기 병렬을 실행할 수있는 기회가 없습니다 며칠 동안 프로그램 (정기 검사 점 및 이중 오류의 경우 마지막 검사 점에서 다시 시작하지 않음). ECC에 의해 보호되는 것은 아니기 때문에 거대한 머신은 캐시 및 CPU 레지스터 (ALU 데이터 경로 등의 아키텍처 및 내부 칩 트리거 모두)에서 비트 플랩을 얻을 수 있습니다.
추신 : DRAM 모듈이 불량하면 상황이 훨씬 나빠질 것입니다. 예를 들어 노트북에 새로운 DRAM을 설치했는데 몇 주 후에 사망했습니다. 많은 메모리 오류가 발생하기 시작했습니다. 내가 얻는 것 : 랩톱이 멈추고, 리눅스가 재부팅되고, fsck가 실행되고, 루트 파일 시스템에서 오류를 발견하고 오류를 수정 한 후 재부팅하고 싶다고 말합니다. 그러나 매번 재부팅 할 때마다 (약 5-6 번 정도) 루트 파일 시스템에 여전히 오류가 있습니다.