서버에서 소비자 MLC SSD를 사용하는 것이 안전합니까?


44

우리는 백업 데이터 센터에서 Consumer MLC SSD 디스크를 사용할 가능성을 찾고 있습니다.

우리는 비용을 줄이고 사용 가능한 공간을 유지하려고 노력하고 있습니다. 따라서 Intel X25-E는 각각 약 700 $와 64GB의 용량으로 거의 나옵니다.

우리가 생각하는 것은 더 낮은 가격으로 더 많은 용량을 제공하는 저가형 SSD를 구입하는 것입니다. 상사는 백업 데이터 센터에서 실행되는 서버의 디스크에 약 5k를 소비하는 것이 투자 가치가 있다고 생각하지 않습니다.

이 드라이브는 Lenovo RD120의 6 드라이브 RAID 어레이에 사용됩니다. RAID 컨트롤러는 Adaptec 8k (Lenovo 브랜드)입니다.

이 방법이 얼마나 위험하고 이러한 위험을 완화하기 위해 무엇을 할 수 있습니까?


4
스피너 대신 SSD를 사용하는 이유는 무엇입니까? SSD 성능에 대한 민중의 지혜는 "지불 또는 귀찮게하지 않는 것"이지만, 이점이 될 수있는 다른 측면이 있습니다.
peterchen

여기서 해결하려는 문제가 궁금합니다. 비용 중 하나 인 경우 왜 기존 드라이브 대신 SSD를 고려합니까?
John Gardeniers

@peterchen, 몇 개의 SSD 또는 50 개의 15K 스핀들을 사용할 수 있습니다.
Mircea Chirea 2012

@iconiK- "서버의 경우 어쨌든 많은 돈을 써야합니다"를 의미합니까? 그렇다면 그렇습니다.
peterchen

답변:


61

몇 가지 생각;

  • SSD에는 '과잉 커밋'메모리가 있습니다. 이것은 쓰기 대신 '손상된'셀 대신 사용되는 메모리입니다. 저가형 SSD는 오버 커밋 공간의 7 % 만 가질 수 있습니다. 중간 범위 약 28 %; 엔터프라이즈 디스크는 최대 400 %입니다. 이 요소를 고려하십시오.
  • 당신은 하루에 얼마나 쓸 것입니까? Sandforce의 1200 칩 기반의 SSD와 같은 중간급 SSD조차도 하루에 약 35GB 이상의 쓰기를 높이 평가하기 전에 지나치게 커밋 된 메모리를 심각하게 자르지 않습니다.
  • 일반적으로 새 SSD의 첫 날은 OS이든 데이터이든 쓰기로 가득합니다. 1 일에 35GB를 초과하는 쓰기가있는 경우 일괄로 복사하여 SSD간에 배치 간 '정돈 시간'을 제공하십시오.
  • TRIM을 지원하지 않으면 해당 기간 동안 쓰기가 많은 경우 임의 쓰기 성능이 몇 주 내에 최대 75 %까지 떨어질 수 있습니다. 가능하면 TRIM을 지원하는 OS를 사용하십시오.
  • 최신 SSD가 수행하는 내부 가비지 수집 프로세스는 조용한 기간 동안 매우 구체적으로 수행되며 활동이 중지됩니다. 디스크가 일반적인 8 시간 듀티 사이클의 60 % 동안 조용 할 수있는 데스크톱 PC에서는 문제가되지 않지만 24 시간 서비스를 실행하면 언제이 프로세스를 실행할 수 있습니까?
  • 일반적으로 사양에 깊게 묻혀 있지만 저렴한 '정규'디스크와 마찬가지로 저렴한 SSD는 약 30 %의 듀티 사이클 만 가질 것으로 예상됩니다. 당신은 거의 100 %의 시간 동안 그것들을 사용할 것입니다-이것은 MTBF 비율에 영향을 줄 것입니다.
  • SSD는 일반 디스크와 동일한 기계적 문제를 겪지 않지만 단일 및 다중 비트 오류가 있으므로 본능이 아닌 경우에도 RAID를 강력하게 고려하십시오. 분명히 그것은 당신이 방금 구입 한 사랑스러운 임의 쓰기 속도에 영향을 미치겠지만 어쨌든 고려하십시오.
  • 그것은 여전히 ​​SAS가 아닌 SATA이므로 서버 환경에서 대기열 관리가 좋지는 않지만 추가 성능 향상은 상당히 극적입니다.

행운을 빕니다-단지 쓰기로 그들을 튀기지 마십시오 :)


2
추가 공간 400 % 또는 40 %를 의미합니까? 귀하의 답변을 편집하려고했지만 인용을 찾을 수 없으므로 400 %가 될 수 있다고 가정합니다. (그런데 아주 좋은 지적입니다)
ChrisInEdmonton

9
RAID 구성에서 TRIM이 지원되는지 항상 명확하지는 않습니다. SSD는 RAID를 사용하여 OS와 추상화되어 있습니다. RAID 공급 업체에 확인하십시오.
Matt Sherman

5
나는 400 크리스, 특히 FC SAN에서 사용되는 것을 의미했지만 매우 비쌉니다.
Chopper3

5
드라이브에서 더 많은 여유 공간을 확보하기위한 한 가지 트릭은 보안 지우기를 수행 한 다음 사용하지 않는 부분으로 분할하는 것입니다. 이 여유 공간은 SSD의 성능과 수명에 추가됩니다.
잔 Lynx

1
@ZanLynx로 +1하고 싶습니다. SSD + Raid를 사용하는 경우 일반적으로 드라이브의 약 80 % 만 분할합니다.
트래커

12

서버에서 MLC 대 SLC SSD에 대한 흥미롭고 철저한 분석 이있는이 링크를 찾았습니다.

필자의 견해에 따르면, Easyco의 MFT와 같은 기술의 (소환) 마모 감소 효과를 사용하지 않고 엔터프라이즈 응용 프로그램에 MLC 플래시 SSD 어레이를 사용하는 것은 낙하산없이 비행기에서 뛰어 내리는 것과 같습니다.

일부 MLC SSD 공급 업체 는 드라이브가 쓰기 작업을 견딜 수 있을 정도로 "기업가"라고 주장합니다 .

SandForce는 서버에서 사용되는 솔리드 스테이트 드라이브를위한 다중 레벨 셀 플래시 칩을 지원하는 컨트롤러를 갖춘 최초의 회사가 되고자합니다. SF-1500은 MLC 칩을 사용함으로써 서버 제조업체가 원하는 저비용 및 고밀도 드라이브를 가능하게합니다. 현재까지 서버용 플래시 드라이브는 단일 레벨 셀 플래시 칩을 사용했습니다. MLC 칩의 내구성과 신뢰성은 일반적으로 서버의 요구 사항에 미치지 못하기 때문입니다.

AnandTech에서 이러한 주장 대한 추가 분석이 있습니다 .

또한 인텔은 SLC가 서버에서 90 %의 시간을 과도하게 사용 한다고 말했다 .

Winslow는“SLC (단일 레벨 셀)가 필요하다고 생각했지만 Microsoft와 Seagate의 연구를 통해 발견 한 것은 이러한 고집적 집약적 애플리케이션이 실제로 생각한만큼 많이 쓰지 않는다는 것입니다. "데이터 센터 애플리케이션의 90 %가이 MLC [다단계 셀] 드라이브를 활용할 수 있습니다."

.. 지난 1 년 동안 벤더는 드라이브 컨트롤러에 특수 소프트웨어를 사용함으로써 소비자 급 MLC SSD의 안정성과 탄력성을 기업이 수용 할 수있는 수준으로 향상시킬 수 있음을 인식했습니다. 고성능 데이터 센터 서버 및 스토리지 어레이. SSD 공급 업체는 SSD를 설명하기 위해 eMLC (엔터프라이즈 MLC) NAND 플래시라는 용어를 사용하기 시작했습니다.

Winslow는“볼륨 측면에서 SLC가 필요할 수있는 쓰기 집약적 인 고성능 컴퓨팅 환경이 실제로 존재하지만 엔터프라이즈 데이터 센터 요구 사항의 상위 10 %에 해당합니다.

인텔은 Hitachi Global Storage Technologies와의 합작 투자를 통해 엔터프라이즈 데이터 센터 시장의 상위 10 %를 공급하고 있습니다. Hitachi는 6Gbit / sec의 SSD400S 직렬 연결 SCSI SSD 라인을 생산하고 있습니다. 처리량-MLC 기반 SATA SSD의 두 배입니다.

인텔은 서버 지향 SSD 드라이브의 경우에도 새로운 인텔 SSD 710 시리즈를 사용하여 "과잉 프로비저닝"공간이 매우 높은 SLC에서 MLC로 마이그레이션했습니다 . 이 드라이브는 내부적으로 중복성을 위해 전체 스토리지의 최대 20 %를 할당합니다.

SSD 710의 성능은 최우선 순위가 아닙니다. 대신 인텔은보다 저렴한 eMLC HET NAND를 사용하여 합리적인 가격으로 SLC 수준의 내구성을 제공하는 것을 목표로합니다. SSD 710은 사용자 구성 가능한 오버 프로비저닝 (20 %)도 지원하므로 드라이브 내구성이 크게 향상됩니다. SSD 710의 보증 기간은 3 년 또는 마모 표시기가 특정 수준에 도달 할 때까지입니다. SSD 보증이 이런 방식으로 제한된 것은 이번이 처음입니다.


7

항상 이런 종류의 것들을 가정하는 것이 아니라 사실에 근거하십시오. 이 경우 사실을 쉽게 수집 할 수 있습니다. 프로덕션 시스템의 장기 읽기 / 쓰기 IOPS 프로파일을 기록한 다음 재해 복구 시나리오에서 살 수있는 것을 파악하십시오. 99 번째 백분위 수와 같은 것을 측정 값으로 사용해야합니다. 마십시오 하지 IOPS의 cpacity을 측정 할 때 평균 사용 - 피크 모든 문제가 있습니다! 그런 다음 DR 사이트에 필요한 용량과 IOPS를 구매해야합니다. SSD가 그렇게하는 가장 좋은 방법 일 수도 있고 아닐 수도 있습니다.

예를 들어 프로덕션 애플리케이션에 99 번째 백분위 수에서 7500 IOPS가 필요한 경우 재해시 5000 IOPS로 살 수 있다고 결정할 수 있습니다. 그러나 DR 사이트에는 최소 25 개의 15K 디스크가 필요하므로 용량 요구가 적 으면 (사운드와 같은) SSD가 더 나은 선택 일 수 있습니다. 그러나 프로덕션 환경에서 400 IOPS 만 수행한다고 측정하는 경우 6 개의 SATA 드라이브를 구입하고 코인을 절약하고 추가 공간을 사용하여 DR 사이트에 더 많은 백업 스냅 샷을 저장하십시오. 또한 데이터 수집에서 읽기와 쓰기를 분리하여 사양에 따라 비 엔터프라이즈 SSD가 워크로드에 얼마나 오래 지속되는지 파악할 수 있습니다.

또한 DR 시스템은 프로덕션보다 메모리가 작을 수 있으므로 더 많은 IOPS가 필요합니다 (스왑이 더 많고 파일 시스템 캐시가 더 적음).


5

MLS SSD가 1 년 동안 만 지속 되더라도 몇 년 안에 교체 비용이 훨씬 저렴 해집니다. 따라서 MLS SSD가 외부에있을 때 교체해야하는 상황에 대처할 수 있습니까?


특히 RAID 어레이에 있기 때문에 좋은 점입니다. "너무 많은"한 번에 실패하지 않는 한 실제로는 그럴듯합니다.
Jeff Atwood

@Jeff, 탁상용 PC와의 일부와의 교환이 가능하여 일부 사용 패턴을 얻지 못하면 동시에 실패하는 경우가 거의 없습니다.
Ian Ringrose

@Jeff, Fail == "매우 느린 권한을 가지기"시작한 다음 "데이터를 읽을 수 없음"
Ian Ringrose

자동 수정을
좋아하지 않습니까

3

쓰기 수량 문제를 제쳐두고 (또는 소비자 수준 SSD가이를 처리 할 수 ​​있음을 증명할 경우) SSD는 엔터프라이즈 수준 환경에 추가하는 것이 좋습니다. 아마도 RAID 배열에서 SSD를 사용하고있을 것입니다. RAID5 또는 RAID6. 그리고 이것의 문제점은 단일 드라이브 장애 후 어레이가 장애에 점점 더 취약해진다는 것입니다. 그리고 그것을 재 구축하는 시간은 어레이의 볼륨에 크게 좌우됩니다. 지속적으로 액세스하면서 몇 TB 어레이를 재 구축하는 데 며칠이 걸릴 수 있습니다. SSD의 경우 RAID 어레이는 a) 불가피하게 작습니다. b) 재 구축 시간이 크게 줄어 듭니다.


3

SuperTalent와의 SLC와 MLC의 차이점에 대한 백서 는 MLC의 내구성과 SLC SSD의 내구성의 10 분의 1을 제시하지만 MLS SSD가 하드웨어를 수명보다 더 오래 사용할 가능성이 있습니다. 그래도 SuperTalent의 통계 / 사실이 얼마나 신뢰할 수 있는지 잘 모르겠습니다.

MLC SSD 공급 업체로부터 비슷한 수준의 지원을받는다고 가정하면 가격이 낮을수록 가치가 있습니다.


1
일반적인 데스크탑 사용의 5 년 수명이 언급되었습니다. 이것이 정확한 추정치 인 경우 데이터 센터 환경에서 서버보다 오래 지속되지는 않습니다!
JamesRyan

@JamesRyan : 대부분의 계산에는 표시되지 않지만 수명은 여유 공간의 비율에 따라 크게 달라집니다.
Ben Voigt

1
내가 일한 조직에서 우리는 항상 서버 하드웨어를 3 년마다 새로 고쳤습니다. 나는 일반적으로 모범 사례로 인정받은 인상을 받았지만 내가 틀렸다면 나를 바로 잡으십시오.
chunkyb2002

3

현재 설정으로 매일 쓰는 양을 계산하고 제조업체가 SSD 드라이브가 유지할 수있는 것을 보장하는 것과 비교해야합니다. 예를 들어, 인텔은 메인 스트림 SSD 드라이브 데이터 시트를 살펴보십시오. http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

사양 문서의 섹션 3.5 (구체적으로 3.5.4)에 따르면 하루에 20GB의 쓰기 작업으로 최소 5 년 동안 드라이브를 유지할 수 있다고합니다. 전체 드라이브 용량을 사용하고 쓰기를 위해 여유 공간을 프로비저닝하지 않을 때 계산되는 것으로 가정합니다.

엔터프라이즈 환경에서 메인 스트림 SSD 사용에 관한 데이터 시트도 흥미 롭습니다.


불행히도 마모 레벨링은 독점적이고 사용 패턴에 따라 그 효과가 크게 달라질 수있는 방식으로 쓰기를 증폭시키기 때문에 (쓰기를 줄이지 않고 확산하도록 설계되어 있음) 전혀 간단하지 않습니다.
JamesRyan

흠, 아주 좋은 지적입니다. 또한 RAID 설정에서 드라이브를 사용하는 경우 TRIM 명령이 손실되면 쓰기 증폭도 증가해야합니다. 모든 것이 일반적인 사용 패턴에 대한 각 제조업체의 생각에 달려 있다고 생각합니다.
cearny

2

몇 년 전에 우리가 사용했던 끔찍하게 디자인 된 일부 앱의 버퍼로 32GB SLC 드라이브 몇 개를 배포했습니다.

애플리케이션은 90 % 작은 쓰기 (<4k)였으며 SSD 드라이브에서 한 번 14k w / s로 일관되게 (24/7) 실행되었습니다. 그들은 RAID 1로 구성되었고 모든 것이 장미 빛이며 대기 시간이 짧았습니다!

그러나 대략 1 개월이 걸리고 첫 번째 드라이브는 말 그대로 3 시간 이내에 포장되었고 두 번째 드라이브도 사망했습니다. RAID 1은 좋은 계획이 아닙니다 :)

RAID 6의 다른 포스터에 더 많은 드라이브에 해당 쓰기를 퍼 뜨리지 않으면 다른 포스터에 동의합니다.

이제 몇 년 전이었으며 지금은 훨씬 안정적이며 유사한 I / O 프로필이 없을 수도 있습니다.

이 앱은 리엔지니어링되었지만 여러분에게 도움이 될 수도 있고 안될 수도있는 중지 간격으로, 큰 램 디스크를 생성하고, 램 디스크를 재 구축 / 백업하고 한 시간 정도의 데이터 손실을 가져 오는 스크립트를 생성했습니다. /회복 시간.

다시 말하지만 데이터 수명주기가 다를 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.