하드웨어 RAID 컨트롤러 캐시 배터리 고장 빈도 / 수명?


14

AdaptecLSI MegaRAID 하드웨어 RAID 컨트롤러가 장착 된 많은 Supermicro 서버 가 포함 된 환경에 있습니다 . 이 컨트롤러에는 배터리 백업 캐시 모듈이 포함되어있어 쓰기 성능을 높이고 전송중인 데이터를 보호합니다.

자주 지원되는 문제는 RAID 컨트롤러 배터리 고장입니다. 이 변화는에서 배열 다시 쓰기는쓰기를 통해 모드. 시스템이 쓰기 속도가 느리게 실행될 때 성능에 부정적인 영향을 미칩니다. 이것은 시스템을 종료하고 배터리를 교체하기 위해 가동 중지 시간 창이 설정 될 때까지 지속됩니다.

이것은 우리에게 매우 일상적인 작업입니다. 거의 매주 수천 대의 물리적 서버에서 ... 우리는 충전주기없이 교체 배터리를 준비 할 수있는 충전 스테이션을 갖추고 있습니다.

HP ProLiant 서버와 Smart Array RAID 컨트롤러 로 오랜 역사를 잃었을 지 모르지만 HP 시스템의 배터리 수명은 일반적으로 4-6 년입니다. 그들은 2009 년 무렵에 RAID 배터리 사용을 제거했습니다. 수퍼 커패시터 지원 메모리 모듈 (플래시 지원 쓰기 캐시 또는 FBWC)로 교체되었으며 교체, 폐기 또는 긴 초기 충전주기가 필요하지 않습니다.

Adaptec 및 LSI 컨트롤러 배터리 오류 12 개월 미만 동안 서비스를 제공 한 시스템에서 가끔 발생하는 것을 보았으므로 다른 환경에서 이것이 일반적인지 궁금합니다.

이것이 일반적인 경우 다른 대형 서버 환경에서이를 어떻게 처리합니까?

  • RAID 배터리 교체 처리에 대한 팁이나 요령이 있습니까?
  • 도움이되는 구성 매개 변수가 있습니까?
  • 이에서 작업을 어떻게 파괴입니다 귀하의 환경?
  • 섀시 냉각 불량 및 온도가 문제가 될 수 있습니까?
  • 우리는 뭔가 잘못하고 있습니까?
  • Dell PERC 컨트롤러는 LSI에서 제조합니다. Dell 환경의 배터리 수명이 동일합니까?

1 년보다 오래 사용할 수있는 차세대 배터리에 대한 LSI 제품 설명서. 여기에 이미지 설명을 입력하십시오

하루 1000 시간 이상의 가동 시간과 행복한 RAID 배터리를 갖춘 HP ProLiant DL585 G2 서버 ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
힌트 : 최신 Adaptec 컨트롤러는 배터리 대신 슈퍼 캡 / 플래시를 사용합니다.
Sven

아, 제조 업체의 모든 수퍼캡 기반의 솔루션을 가지고 알고 있어요 지금 ,하지만 기존의 설치 공간을 감안할 때, 그것은 인프라를 통해 광범위한 변경을하기 어렵다.
ewwhite

2
나는 이것을하지 않았을 것입니다 (아마도 나쁜 생각처럼 들리고 자주 문제가 없었기 때문에) 테스트 서버 가 켜져있는 동안 RAID 배터리 교체 할 수 있습니다. 배터리를 빼내고 덮개를 벗기고 불량 배터리를 분리 한 다음 배터리를 분리 한 다음 랙에 다시 연결하십시오.
8

2
@August Uhm, 위험한 절차가 진행됨에 따라 "OMG WHERE DID MY DATA GO"목록에서 상당히 높은 소리를냅니다.
Dan

2
그렇습니다. 나는 그것이 끔찍한 생각처럼 들리지만 동의하지 않습니다. 상황과 상황이 필요하지 않으면 테스트 서버 (또는 30 대의 테스트 서버 ...)에서 촬영할 가치 가 있습니다. 가능한. 수천 대의 서버에서 개별 RAID 배터리에 의존하지 않기 위해 인프라를 다시 실행하는 것 외에 다른 옵션은 무엇입니까?
8

답변:


9

슈퍼 마이 크로스가 파손되었거나 배터리 팩이 과열 된 것 같습니다. 가장 최근의 LSI는 MegaCLI를 통해 온도를보고합니다. 교체가 필요한 서버에서이 값을 모니터링 할 수 있습니다.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

LSI BBU 컨트롤러가 장착 된 Dell 및 Fujitsu 시스템 몇 개를 보았는데, 매년 배터리 팩을 교체 한 적이 없었습니다. 일반적인 수명은 약 3-5 년입니다.


4
시스템이 명시 적으로 RAID BBU의 핫 교체를 승인하지 않는 한 시도하지 않을 것이라고 덧붙입니다. 시스템에 매년 RAID 캐시 배터리를 교체해야하는 것을 본 적이 없습니다. 3-5 년이 일반적인 서비스 수명입니다.
voretaq7

나는 당신이 그것을 생각합니다!
ewwhite

1

평균 배터리 수명은 3-5 년입니다. 그리고 플래시 기반 FBWC도 실패한다는 것을 잊지 마십시오. 이유 / 방법을 모르겠지만 HP 서버에서 정기적으로 요정을 교체했습니다. 배터리보다 오래 지속되어야하지만 개별 서버의 통계는 없습니다.

배터리 및 배터리 학습 실패의 영향을 방지하는 표준 방법은 여러 개의 배터리를 사용하는 것입니다. HP EVA (예 : HP EVA)가 보유한 방식입니다. 2 개의 핫 플러그 ​​배터리가 있으며 하나는 충전량이 적거나 교체되는 동안 컨트롤러는 나머지 배터리와 함께 작동합니다. SmartArray에 여러 개의 배터리를 연결할 수 있는지 확실하지 않지만 hpacucli diag출력이 지원되어야 함을 나타냅니다.

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

수백 번의 설치로 IBM 버전의 LSI 플랫폼에 대한 나의 경험은 평균 배터리가 거의 2 년이 걸리지 않으며 수퍼캡이 나쁘지 않다는 것입니다. 권리. 처음 2 년 동안 약 75 %의 슈퍼 캡 고장이있었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.