100 테라 바이트 용량 데이터베이스-리소스 및 시간 견적

100TB보고 데이터베이스 설정을위한 '봉투 뒷면 (back of the envelope)'계산을 진행 중입니다. 나는 여기 전문가들로부터 생각을 찾고 있습니다. 제안 된 환경 :

저장 용량 ~ 100TB
테이블 ~ 200, 크기는 1GB ~ 5TB입니다. 평균 크기는 100GB-200GB 사이 일 수 있습니다
ETL-작업에는 10 바이트에서 500 바이트 범위의 조인 키를 사용하여 천만 행의 테이블 간 조인이 필요할 수 있습니다. 이러한 조인은 2-5 분 안에 완료되어야합니다.
라이브 선택-처음에는 선택 속도에만 관심이 있습니다. 초당 500 개의 선택을 지원해야합니다. 초당 업데이트 수는 훨씬 적으며이 연습에서는 무시해도됩니다.
연중 무휴 가용성이 필요합니다. 2 개의 독립 DB 서버를 사용하여 데이터를 복제 한 상태로 일부 통화를 처리 할 수 있습니다.

질문 :

현재 Oracle을보고 있습니다. 대규모 데이터베이스를위한 다른 상용 (또는) 오픈 소스 솔루션에 대한 경험이 어떻습니까?
어떤 하드웨어 -OS가 가장 효과적이라고 보셨습니까? Dell에서 Linux를 계획 중입니다.
NetApp과 같은 네트워크 스토리지는 필수입니까? 상용 디스크를 사용할 때 어떤 문제가 예상됩니까?
하드웨어와 OS가 준비되면 설정, DB, 스토리지 등을 설정하는 데 얼마나 많은 시간을 할애 할 것인지
관찰 한 환경에서 어떤 팀 구성이 가장 효과가 있었습니까? 즉, 이러한 설정을 관리하고 운영하는 데 필요한 다양한 관리자 (OS Admin, Oracle DB Admin?)가 있습니다. 연중 무휴 가동 시간을 달성하기 위해 몇 개가 필요할 수 있습니다.
DB 라이센스에 대한 근사 / 범위, 네트워크 스토리지 비용.

나는 모든 환경 세부 사항을 가지고 있지 않다는 것을 알고 있습니다. 나는 정확한 세부 사항을 찾고 있지 않습니다. 근사치이면 충분합니다. 관리자가 일부 질문에 가장 잘 대답 할 수 있지만 관리자의 관점에 관심이 있습니다. 귀하의 의견에 감사드립니다.

oracle database-recommendation data-warehouse

— 캐시
소스

나는이 질문이 너무 광범위해서 대답하기 어렵다고 생각한다. 진행하기 전에 다른 사람들이 동의하는지 확인할 것입니다.

— Philᵀᴹ

@ 필자는 이것이 여러 질문으로 나뉘어 질지 확실하지 않으므로 다른 전문 지식을 가진 사용자가 다른 부분에 대답 할 수 있다고 동의합니다. 그러나 환경 설명은 모든 질문에 동일하므로 단일 질문을 계속했습니다. 나는 이것이 SO에 대한 나의 첫 번째 질문 일 것이라고 생각한다. (SO를 정기적으로 사용하지만) 나를 초보자로 생각 하고이 질문을 제기하는 더 좋은 방법이 있다면 제안하십시오.

— Kash

그것은 수백만 달러 프로젝트처럼 들립니다. 이러한 프로젝트를 포럼 조언을 기반으로 하시겠습니까?

— Remus Rusanu

@RemusRusanu 이것은 유일한 정보 출처가 아닙니다. 이것이 공식적인 평가 단계로 넘어 가면 많은 다른 활동들이있을 것입니다. SO 사용자가 제공하는 조언에 대해 높은 의견을 가지고 있습니다. 질문을 쓰는 동안, 나는 전혀 생각하지 않은 매우 유용한 세부 사항을 찾을 것이라고 확신했습니다.

— Kash

@RemusRusanu-그렇습니다. Netezza에서 마지막으로 본 가격은 TwinFin 시스템의 경우 $ 22,000 / TB였습니다. 해당 용량의 Exadata 박스가 무엇인지 잘 모르겠습니다. 또한 SLA는 매우 공격적이며 시스템에 사용자 기반이 큰 것처럼 보입니다. 쿼리로드를 처리하기 위해 더 많은 수의 데이터 마트 서버가 필요할 수 있습니다.

— ConcernedOfTunbridgeWells

답변:

첫인상

성능 요구 사항에 따라 100TB는 상당히 공격적인 데이터 볼륨입니다. Oracle을 원한다면 Exadata 시스템을 확인해야합니다. 또한 Netezza 또는 Teradata의 오퍼링을 살펴보십시오. 많은 양의 선택을 통해 OLAP 기반 프런트 엔드를 보거나 적어도 구체화 된 뷰 및 쿼리 재 작성을 매우 적극적으로 사용하려고 할 수 있습니다. 초당 500 개의 테이블 스캔을 얻지 못합니다.

엄격한 대기 시간 요구 사항이 적은 제품의 경우 사용자 커뮤니티에보고 용량을 제공하기 위해 더 많은 수의 데이터 마트를 고려할 수 있습니다. 이 경우, 많은 수의 서버에 대한 라이센스가 Oracle과 동일한 라이센스를 사용하는 것보다 저렴하므로 SQL Server 및 SSAS가 데이터 마트에 대한 옵션 일 수 있습니다.
(1)을 참조하십시오. 이 크기의 데이터 세트에서는 공유 디스크 아키텍처의 기존 하드웨어가 느려질 수 있습니다.
아니! 누구든지 NFS를 제안하면 좋은 발차기를 제공합니다. 직접 연결 스토리지 또는 여러 중급 컨트롤러가있는 다중 컨트롤러 SAN 목적에 따라 구축 된 '빅 데이터'플랫폼을 사용하지 않는다면 수십 개의 MD3000 시리즈 컨트롤러 또는 이와 유사한 것을 고려하십시오.
PB 범위 데이터웨어 하우스 플랫폼에 경험이있는 스토리지 전문가를 확보하십시오. 당신은 아마도 상당한 ETL 개발 작업을하고 있고 엄격한 SLA를 충족시켜야 할 경우 많은 테스트 작업을하고있을 것입니다.
데이터웨어 하우스에서 연중 무휴 24 시간은 야심 찬 일입니다. 운영보고 플랫폼입니까? 아마도 요구 사항을 약간 정교하게 할 수도 있습니다.
놀랍도록 비싸고 성능 요구 사항에 따라 다릅니다. 마지막으로 (2 년 전) Netezza는 TwinFin 시스템에 대해 TB 당 $ 20,000를 견적하는 데 사용했으며, 100TB에 2 백만 달러의 플랫폼과 중복 서버 및 백업 하드웨어 비용을 추가했습니다. Exadata는 약간 저렴하지만 가격을 책정하지는 않습니다.

Netezza, Exadata 및 Teradata 플랫폼을 비교하고 Ab Initio의 ETL 도구 비용을 살펴보십시오.

이는 상당히 공격적인 요구 사항입니다. 데이터웨어 하우스의 24x7은 일반적으로 수행되지 않으며 데이터 볼륨은 '빅 데이터'플랫폼의 영역에 들어가기에 충분합니다. 운영보고 요구 사항이있는 경우 그 내용을주의 깊게 살펴 봐야합니다. 지연 시간이 짧은 시장 데이터 피드와 같은 특별한 이유가없는 한 분석과 분리하여 보관하십시오. 동일한 플랫폼에서 운영 및 분석 요구 사항을 혼합하는 것은 좋지 않습니다.

귀하의 요구 사항을 평가하기 위해 전문가를 고용해야한다고 생각합니다. 내가 할 수있는 모든 것을 달성하려는 것에 대해 자세히 살펴 보지 않으면해야 할 일과하지 말아야 할 일에 대한 경험적 제안이 있습니다.

— 우려 TunbridgeWells
소스

이와 같은 대규모 데이터 볼륨을 처리 할 때 고려해야 할 몇 가지 다른 옵션은 다음과 같습니다.

@ConcernedOfTunbridgeWells가 게시 한 모든 것
EMC의 Greenplum
Microsoft의 병렬 데이터웨어 하우스

어디서나 하드웨어 비용을 삭감 할 계획이 없습니다. 이러한 종류의 사양을 갖춘 시스템은 비용이 많이 듭니다.

— mrdenny
소스