서버급 하드웨어 용 RAM을 레코딩해야합니까?


31

많은 서버급 시스템에 ECC RAM 이 장착되어 있다는 사실을 고려할 때 , 배포 전에 메모리 DIMM 을 번인 해야합니까?

모든 서버 RAM이 긴 번인 (burn-in) / 스트레스 테스트 프로세스를 통해 배치 되는 환경에 직면했습니다 . 이로 인해 시스템 배포가 때때로 지연되고 하드웨어 리드 타임에 영향을 미칩니다.

서버 하드웨어는 주로 Supermicro 이므로 RAM은 다양한 공급 업체에서 제공합니다. Dell Poweredge 또는 HP ProLiant 와 같은 제조업체에서 직접 구입 하지 마십시오 .

이것은 유용한 운동입니까? 과거의 경험에서 나는 공급 업체 RAM을 즉시 사용했습니다. 하지해야 POST 메모리 테스트 캐치 DOA 메모리? ECC 임계 값은 일반적으로 보증 배치의 트리거이므로 DIMM이 실제로 실패하기 훨씬 전에 ECC 오류에 응답했습니다.

  • 당신은 당신의 RAM 을 태워 합니까?
  • 그렇다면 어떤 방법으로 테스트를 수행합니까?
  • 배포 이전에 문제가 있는지 확인 했습니까?
  • 번인 프로세스로 인해 해당 단계를 수행하지 않고 추가 플랫폼 안정성이 발생 했습니까?
  • 기존의 실행중인 서버에 RAM을 추가 할 때 무엇을합니까 ?

답변:


25

Kingston에서 서버 메모리와의 작동 방식을 자세히 설명하는 문서 를 찾았습니다. 이 프로세스는 일반적으로 대부분의 알려진 제조업체와 동일하다고 생각합니다. 메모리 칩과 모든 반도체 장치는 욕조 곡선이라고 알려진 특정 신뢰성 / 실패 패턴을 따릅니다.

여기에 이미지 설명을 입력하십시오

시간은 가로축으로 표시되며, 공장 출하부터 시작하여 세 가지 다른 기간으로 계속됩니다.

  • 조기 고장 : 대부분의 고장은 초기 사용 기간 동안 발생합니다. 그러나 시간이 지남에 따라 실패 횟수가 빠르게 줄어 듭니다. 노란색으로 표시된 조기 수명 장애 기간은 약 3 개월입니다.

  • 유용한 수명 :이 기간 동안 고장은 극히 드 rare니다. 유효 수명은 파란색으로 표시되며 20 년 이상으로 추정됩니다.

  • 수명 종료 오류 : 결국 반도체 제품은 마모되어 고장납니다. 수명 종료 기간은 녹색으로 표시됩니다

Kingston은 처음 3 개월 동안 높은 실패율이 발생할 것이라고 언급 했으므로 (이 3 개월 후 약 15-20 년 후 EOL이 될 때까지 장치는 양호한 것으로 간주됩니다). 그들은 모든 DRAM 칩의 모든 셀이 지속적으로 작동되는 높은 전압에서 섭씨 100도에서 24 시간 동안 서버 메모리 모듈을 잔인하게 테스트하는 KT2400이라는 장치를 사용하여 테스트를 설계했습니다 . 이 높은 수준의 스트레스 테스트는 모듈이 노화되는 효과가 3 개월 이상 지속됩니다 (대부분의 모듈이 고장을 나타내는 중요 기간 이전에 언급 된 바와 같이).

결과는 다음과 같습니다.

2004 년 3 월 Kingston은 서버 메모리의 100 %가 KT2400에서 테스트되는 6 개월의 시험을 시작했습니다. 실패의 변화를 측정하기 위해 결과를 면밀히 모니터링했습니다. 2004 년 9 월, 모든 테스트 데이터가 컴파일 및 분석 된 결과, 실패가 90 % 감소한 것으로 나타났습니다. 이러한 결과는 기대를 뛰어 넘었고 이미 동급 최고 제품 라인에 대한 상당한 개선을 나타냅니다.

그렇다면 왜 메모리에서 굽기가 서버 메모리에 유용하지 않습니까? 제조업체가 이미 수행했기 때문에 간단히!


10
칩 제조업체 및 서버 공급 업체조차 일부 칩을 테스트 할 수 있습니다 . 그러나 mst 구성 요소는 요즘 샘플 테스트를 거쳐 비용을 절감합니다. 칩이나 전체 DIMM을 한 번 테스트 한 경우에도 조립 또는 배송 중에 접점 또는 PCB가 조정되거나 엉망이되었는지 알 수 없습니다. 우리는 MemTEst86 번인 (burn-in)에서 두 개의 서로 다른 "티어 1"서버 공급 업체가 제공 한 두 개의 서로 다른 서버의 메모리 문제를 발견했습니다. 그들이 생산에 이르렀다면 ECC가 우리를 구했을 수도 있지만 자동 데이터베이스 손상도 결과 일 수 있습니다.
rmalayter 2016 년

7
이 욕조 곡선은 반도체만을위한 것이 아닙니다. 하드 드라이브, SSD, 전원 공급 장치 (주로 커패시터로 인해), 팬 등 모든 수준의 품질 관리 기능이 내장 된 대부분의 구성 요소는 다음과 같습니다.
voretaq7

6
이것이 제가 전자 제품에 대해 연장 보증을 구매하지 않는 이유 중 하나입니다. 장치 (또는 구성 요소)가 처음 몇 개월 동안 고장 나거나 남은 수명 동안 지속됩니다. 또한 가능한 빨리 부드러운 항해를 할 수 있도록 나쁜 사과를 조기에 제거하는 것이 왜 중요한지 보여줍니다.
Atari911 2016 년

@rmalayter 그래서 당신은 어쨌든 RAM 굽기를 옹호하겠습니까?
ewwhite 2016 년

2
@ewwhite 예, 테스트하겠습니다. memtest86을 부팅하고 384GB의 RAM을 검사하는 데 몇 시간 정도 걸립니다. 우리는 동일한 이유로 IOmeter를 사용하여 모든 스토리지 서브 시스템에서 레코딩합니다. 지난 몇 년 동안 번인 (burn-in) 중에 여러 개의 RAID 컨트롤러 또는 드라이브가 죽었을 때 (OS 설치 중에 처음에는 정상적으로 작동했지만) 때때로 그것은 나쁜 펌웨어 일이었고 때로는 RAID 컨트롤러의 캐시 RAM에 결함이있었습니다. 때로는 "누가 아는가-RMA it!"
rmalayter

30

아니.

하드웨어에서 굽기의 목표는 구성 요소의 고장을 촉매하는 시점까지 하드웨어를 강조하는 것입니다.

기계식 하드 드라이브로이 작업을 수행하면 몇 가지 결과를 얻을 수 있지만 RAM에는 그다지 도움이되지 않습니다. 구성 요소의 특성은 환경 요소와 연령이 RAM을 읽고 쓰는 것보다 몇 시간 또는 며칠 동안 최대 대역폭을 사용하는 것보다 실패의 원인이 될 가능성이 훨씬 높습니다.

RAM을 처음 사용할 때 솔더가 녹지 않을 정도로 품질이 높다고 가정하면 번인 (burn-in) 프로세스는 결함을 찾는 데 도움이되지 않습니다.


15

우리는 블레이드를 구입하고 일반적으로 네트워크 포트가 준비 / 보안되기 전에 블레이드를 가져와 DAYS를 통해 설치하기 때문에 일반적으로 한 번에 상당히 큰 블록으로 구매합니다. 그래서 우리는 그 시간을 약 24 시간 동안 memtest를 사용하는데, 주말이 지나면 더 길어집니다. 일단 완료되면 기본 ESXi를 스프레이하고 IP가 네트워크가 시작되면 호스트 프로파일을 적용 할 준비가되었습니다. 그렇습니다. 필요한 것보다 기회가 많지 않은 것으로 테스트했지만 지금까지 DOA DIMM이 몇 개 잡혔습니다. 내가 할거야


3
"기회 테스트"는 내가 할 수있는 기회를 고려할 때 의미가 있습니다. 배포가 지연 될 경우 불량 DIMM 및 ECC 표시등이 위험에 처할 수 있습니다. :-)
voretaq7

2
배포 계획에 테스트를 구축 한 경우 시간을 충분히 확보 한 후 최대한 빨리 모든 것을 수행하면 나중에 비판을받을 수 있습니다. 가능할 때마다 강력한 무기 관리 :)
Chopper3

@ Chopper3 따라서 정책을 수립하는 경우 항상합니까? , 그것을 결코하지 않는다? 아니면 할 수있을 때합니까? .
ewwhite 2016 년

@ewwhite-후자를 말하지만 표준 배포 계획으로 엔지니어링하는 경향이 있기 때문에 매번 가능성이 높습니다.
Chopper3

11

글쎄, 그것이 정확히 당신의 프로세스가 무엇인지에 달려 있다고 생각합니다. 시스템 (서버 또는 기타)에 넣기 전에 항상 메모리에서 MemTest86을 실행합니다. 시스템을 시작한 후 실행하면 메모리 결함으로 인한 문제를 해결하기가 어려울 수 있습니다.

실제로 "스트레스 테스트"에 관해서는 메모리; 오버 클로킹 목적으로 테스트하지 않는 한 이것이 왜 유용한 지 아직 알지 못했습니다.


MemTest86은 무엇을 알려줍니까? 이 방법을 사용하여 서버에 설치하기 전에 RAM 문제를 발견 했습니까?
ewwhite

4
MemTest86 +에서 BIOS 및 Windows 메모리 진단으로 찾을 수없는 많은 오류가 발견되었습니다. 나는 그것을 강력히 추천합니다. 예, ECC는 동일한 오류를 발견하지만 memtest는 미리 오류를 찾는 데 도움이됩니다.
Owen Johnson

6
MemTest는 메모리 내부에 결함이 있는지 알려줍니다. 오류를 유발하기 위해 바이트 패턴과 임의의 바이트 세트를 메모리에 저장하여이를 수행합니다. 이 프로그램은 메모리가 좋은지 알려주기 위해 "패스"를 실행할 수 있지만 일반적으로 확인하기 위해 밤새 여러 패스를 실행합니다. MemTest의 좋은 점은 시스템을 배포하기 전에 메모리가 나쁜지 알려줍니다. 그것은 RMA를 여러 번 촉발 시켰고 나에게 많은 두통을 저장했다. 일단 머신이 전개되면 @ss에서 RMA가 메모리를 고통스럽게합니다.
Atari911

2
@OwenJohnson 일반적으로 당신은 당신이 :-) 생산에 기계를 넣어 전에 당신이 그 ECC 오류를 트리거 기대하고있는 memtest86 (+)를 실행할 때
voretaq7

6

나는하지 않지만 나는 사람들을 보았다. 나는 그들이 그들로부터 무언가를 얻는 것을 보지 못했습니다. 아마도 숙취 또는 미신 일 수 있다고 생각합니다.

개인적으로, RAM이 DOA가 아니라고 가정하면 ECC 오류율이 나에게 더 유용하다는 점에서 당신과 같습니다.


6

비 ECC 램의 경우 memtest86 +에서 30 분 동안 실행하면 일반적으로 시스템이 실행될 때 비트 오류를 ​​감지하는 신뢰할 수있는 방법이 없기 때문에 유용합니다.
블루 스크리닝은 신뢰할 수있는 방법으로 간주되지 않습니다 ...
그리고 시스템에 약간의 메모리가 가득 차고 RAM에있는 데이터가 사용 된 코드이고 그런 다음 추락했다. 데이터 손상은 오랫동안 눈에 띄지 않을 수 있습니다.

ECC 램의 경우 메모리 컨트롤러 자체가 수행하지 않는 작업을 수행하지 않으므로 실제로는 의미가 없습니다. 시간 낭비 일뿐입니다.

내 경험에 따르면, 불타고 있다고 주장하는 사람들은 대개 이런 식으로 항상 해왔으며 실제로는 사실을 생각하지 않고 습관에서 벗어나는 노인입니다.
또는 그들은 노인들에 의해 쓰여진 규정 된 절차를 따르는 젊은이들입니다.


여러 세대에 걸쳐 나눠진 나쁜 지식?
ewwhite

@ewwhite 예, 아는 한. 그리고 나는 Bsc를 가지고있다. 컴퓨터 하드웨어 기술 분야에서 제가 무슨 말을하는지 알아야합니다 :-)
Tonny

스레드에 표시된 것처럼 실제로 오류를 발견 한 사람들의 모든 사건을 제외하고. 또한 확실하지 않은 경우 서버를 프로덕션 환경으로 전환하거나 24x7로 실행되는 DB 서버에서 램을 교체하기 전에 부품을 교체하는 데 차이가 있습니다. 척하는 것이 아니라면 "Grown error"이고 다른 모든 사람들은 방금 늙었 고화물 컬트 작업을하고 있지만, 여전히 서버를 오프라인 상태로 만들 수 있습니다.
Florian Heigl

1
@FlorianHeigl 나는 그것을 위해 RAM에 굽기를 옹호하지 않지만 적어도 24 시간 이상 스트레스 테스트를 거치지 않고는 서버를 프로덕션에 넣는 것을 결코 보증하지 않을 것입니다. RAM은 일반적으로 문제가되지 않습니다. 색다른 HDD, RAID 컨트롤러, IPMI 카드, 전원 공급 장치, CPU, VRM 등 모든 것을 보았습니다. (그리고 종종 서버는 초기 설치에서 그대로 유지됩니다. 실제로 작동해야 할 때 수행하는로드 및 / 또는 히스입니다.)
Tonny

3

따라 다릅니다.

50000 개의 새 RAM을 배포하고 있고이 특정 하드웨어의 작동 률이 하루 미만인 경우 0.01 % 인 경우 통계적으로 첫 날에 실패 할 수있는 하드웨어가 몇 개 있어야합니다. 불타는 것은 그것을 잡기위한 것입니다. 이러한 규모로 배포하면 예외가 아닌 실패가 예상됩니다.

그러나 수백 개의 항목 만 배포하는 경우 실패한 부품을 얻는 것이 운이 좋지 않기 때문에 통계가 가장 유용 할 수 있습니다.


당신은 요점을 얻었다. 우리는 대부분 그렇게 큰 배치를하지 않을 것입니다. (새로운 Google 데이터 센터를 구축하지 않는 한) 대부분의 서버는 일반적으로 동시에 최대 5-10 대의 서버를 배포합니다. 개인적으로 가장 큰 것은 16 개의 ESX 노드 (4x 4 노드 클러스터)로 각각 8 개의 DIMM을 사용했습니다. 3 년 전이었고 그 이후로 1 개의 DIMM이 고장났습니다 (2 개월 전). 같은 기계에서 5 개의 전원 공급 장치를 교체해야했습니다. 일주일 후 처음 1 개 그러나 이것들이 HP Proliants이므로 우리는 그 종류를 예상했습니다. (HP 및 전원 공급 장치 .. 시작하지 마십시오 ...)
Tonny
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.