«data-warehouse» 태그된 질문

특히 집계보고에 최적화 된 데이터베이스 시스템입니다. 종종, 그러나 항상 스타 스키마를 사용하여 구현되는 것은 아닙니다.

5
데이터웨어 하우스에서 다 대다 관계를 구현하는 몇 가지 방법은 무엇입니까?
데이터웨어 하우스 모델링 (Star, Snowflake)의 주요 토폴로지는 일대 다 관계를 염두에두고 설계되었습니다. 이러한 모델링 체계에서 다 대다 관계에 직면하면 쿼리 가독성, 성능 및 구조가 심각하게 저하됩니다. 데이터웨어 하우스에서 차원 간 또는 팩트 테이블과 차원간에 다 대다 관계를 구현하는 방법에는 무엇이 있으며 필요한 세분성 및 쿼리 성능과 관련하여 어떤 타협이 발생합니까?


3
클러스터 된 열 저장소 인덱스 및 외래 키
인덱스를 사용하여 데이터웨어 하우스를 성능 조정 중입니다. SQL Server 2014를 처음 접했을 때 다음과 같이 설명합니다. "클러스터형 columnstore 인덱스는 대규모 데이터웨어 하우징 팩트 테이블을 저장하기위한 표준으로 간주하며 대부분의 데이터웨어 하우징 시나리오에서 사용될 것으로 예상됩니다. 클러스터형 columnstore 인덱스는 업데이트 가능하므로 워크로드는 많은 수의 삽입, 업데이트, 작업을 삭제하십시오. " http://msdn.microsoft.com/en-us/library/gg492088.aspx 그러나 설명서를 …

1
느리게 변경되는 차원에 대해 SQL Server 2016 시스템 버전 임시 테이블을 사용하는 쿼리 전략
시스템 버전 임시 테이블을 사용할 때 (SQL Server 2016의 새로운 기능)이 기능을 사용하여 대규모 관계형 데이터웨어 하우스에서 느리게 변경되는 차원을 처리 할 때 쿼리 제작 및 성능에 어떤 영향을 미칩니 까? 예를 들어 열이 10 만 행 이고 외래 키 열이 수십억 행인 팩트 테이블이 있다고 가정 Customer합니다 . 그리고 …

2
오픈 소스 비즈니스 인텔리전스 / DWH 솔루션
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 데이터베이스 관리자 스택 교환에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 이 질문이 아직 제기되지 않은 것이 궁금합니다. Google은 고품질 도구를 표시하지 않는 결과가 거의 없습니다. 데이터웨어 하우스, 특히 비즈니스 인텔리전스 도구를위한 오픈 …

3
차이점에 대해 두 개의 유사한 Postgres 데이터베이스 비교
때때로 공개적으로 사용 가능한 데이터 세트를 Postgres dB 형식으로 다운로드합니다. 이러한 데이터 세트는 리포지토리 호스트에 의해 시간이 지남에 따라 업데이트 / 수정 / 확장됩니다. OLD와 NEW Postgres 데이터베이스의 차이점을 보여줄 수있는 Postgres 명령 또는 도구 (이상적으로는 FOSS)가 있습니까? (실제 가정은 항목의 95 %가 변경되지 않고 테이블과 관계도 변경되지 않는다는 것입니다).

2
스타 스키마 데이터웨어 하우스의 동적 필드에 대한 EAV의 대안
API 요청 로그를 저장하기 위해 큰 데이터웨어 하우스에서 동적 필드와 값을 지원해야합니다. 사용자 사례는 모든 API 요청 쿼리 문자열을 저장해야하며 나중에 쿼리를 수행 할 수 있어야한다는 것입니다 (따라서 스토리지가 아니라, 그래서 나는 그들을 위해 얼룩을 사용할 수 없습니다) 예 : http://example.com/?action=test&foo=abc&bar=def... 모든 field => value매핑 을 저장해야 합니다. 즉 (action …

2
ETL : 200 개의 테이블에서 추출-SSIS 데이터 흐름 또는 사용자 정의 T-SQL?
필자의 분석에 따르면 데이터웨어 하우스의 전체 차원 모델은 200 개가 넘는 소스 테이블에서 추출해야합니다. 이러한 테이블 중 일부는 증분로드의 일부로 추출되고 다른 테이블은 전체로드입니다. 참고로, 동일한 스키마를 가진 약 225 개의 소스 데이터베이스가 있습니다. 내가 본 것에서 OLE DB 소스 및 OLE DB 대상을 사용하여 SSIS에서 간단한 데이터 흐름을 구축하려면 …

1
데이터웨어 하우징 시나리오에서 "자동 업데이트 통계"를 비활성화해야합니까?
SQL Server에 200GB 데이터웨어 하우스가 있습니다. 일부 쿼리의 실행 시간이 실제로 느려졌습니다. 예를 들어 12 시간의 간단한 delete쿼리의 경우 12 시간입니다 inner join. 실행 계획을 조사한 후 WITH FULLSCAN옵션을 사용하여 쿼리와 관련된 두 테이블의 통계를 업데이트했습니다 . 이제 쿼리가 1 초 이내에 실행되므로 통계가 최신 상태가 아닌 것으로 보입니다. auto …

2
데이터 마트 / 창고에서 시간대 처리
우리는 데이터 마트 /웨어 하우스의 빌딩 블록을 설계하기 시작했으며 모든 시간대를 지원할 수 있어야합니다 (고객은 전 세계에서 왔습니다). 온라인 (및 서적) 토론을 읽음으로써 일반적인 해결책은 팩트 테이블의 시간 소인뿐만 아니라 별도의 날짜 및 시간 차원을 갖는 것 같습니다. 그러나 대답하기 어려운 질문은 동적 시간대 요구 사항을 고려할 때 날짜 및 …

2
SQL Server 데이터 압축은 읽기 전용 데이터베이스에 범주 적으로 적합합니까?
내가 읽은 SQL Server 데이터 압축에 대한 일부 문헌은 쓰기 비용이 일반적으로 필요한 것의 약 4 배로 증가한다고 말합니다. 또한 이것이 데이터 압축의 주요 단점임을 암시하는 것으로 보이며, 읽기 전용 아카이브 데이터베이스의 경우 100 % 채워진 페이지의 데이터 압축을 사용하면 성능이 향상 될 것입니다 (예외가 거의 없음). 위의 진술이 사실입니까? …

2
대용량 트랜잭션 및 데이터웨어 하우징을위한 PostgreSQL
PostgreSQL에 익숙하지 않기 때문에 이전에는 대규모 배포를 한 적이 없습니다. 그러나 엔터프라이즈 솔루션에 대한 경험이 풍부하며 PostgreSQL을 사용하여 배운 내용 중 일부를 적용하고 싶습니다. 많은 수의 데이터와 트래픽을 처리 할 수있는 크기의 사이트가 있습니다. 인프라는 EC2 인스턴스 및 EBS 볼륨을 사용하여 AWS (Amazon)를 사용하여 구축됩니다. 설계에는 분석 및보고를 처리하기위한 주 …

1
모든 쿼리에 사용할 수있는 병렬 처리 수준 (DOP) 제한
Oracle Exadata (11gR2)에는 비교적 강력한 데이터베이스가 있습니다. cpu_count는 24입니다 parallel_server_instances는 2입니다 parallel_threads_per_cpu는 2입니다 Oracle Enterprise Manager (OEM)의 관찰을 통해 쿼리가 연속적으로 실행되어 성능이 끔찍했습니다. 이를 해결하기 위해 모든 테이블, 구체화 된 뷰 및 인덱스가 병렬 처리를 활용하도록 변경되었습니다. 예 : ALTER TABLE SOME_TABLE PARALLEL (DEGREE DEFAULT INSTANCES DEFAULT); 병렬화를 켜도록 …

2
여러 시간대의 데이터에 대해보고하기위한 데이터웨어 하우스 디자인
여러 시간대의 데이터에 대한보고를 지원할 데이터웨어 하우스 디자인을 최적화하려고합니다. 예를 들어, 한 시간 분량의 활동을 표시해야하는 한 달 분량의 활동 (수백만 행)에 대한 보고서가있을 수 있습니다. 물론 하루 중 해당 시간은 지정된 시간대의 "현지"시간이어야합니다. 우리는 UTC와 현지 시간을 지원했을 때 잘 작동했습니다. UTC 및 현지 시간에 대한 날짜 및 시간 …

2
100 테라 바이트 용량 데이터베이스-리소스 및 시간 견적
100TB보고 데이터베이스 설정을위한 '봉투 뒷면 (back of the envelope)'계산을 진행 중입니다. 나는 여기 전문가들로부터 생각을 찾고 있습니다. 제안 된 환경 : 저장 용량 ~ 100TB 테이블 ~ 200, 크기는 1GB ~ 5TB입니다. 평균 크기는 100GB-200GB 사이 일 수 있습니다 ETL-작업에는 10 바이트에서 500 바이트 범위의 조인 키를 사용하여 천만 행의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.