중앙값, 모드, 백분위 수 및 OLAP


9

나는 OLAP에 대해 머리를 감싸려고 노력하는 초보자이며 몇 가지 질문이 있습니다.

  • 질문 1 : OLAP 큐브는 중앙값, 모드, 백분위 수를 저장할 수 있습니까?
  • 질문 2 : 사용자 작성 MDX 쿼리가 행 수준 데이터 요약을 반환 할 수 있습니까? (예 : % 거래> $ 100). 아니면 큐브 디자이너가 큐브에 이것을 추가해야합니까?
  • 질문 3 : 이제 OLAP 제품이 행 수준 데이터에 액세스하기위한 메커니즘을 제공합니까? 어느?

IT 부서는 특정 MS Analsis Services ROLAP 큐브와 관련하여 어떤 종류의 문제에 대한 피드백을 찾고 있습니다. 우리는 그 뒤에 관계형 데이터베이스에 액세스 할 수 없으며 큐브에서 측정으로 현재 사용할 수없는 계산을 수행해야합니다.

내가이 권리를 가지고 있는지 보자.

  1. 큐브는 개수, 평균, 비율, 표준 편차에 대한 통계를 제공 할 수 있습니다.
  2. 큐브 디자이너가 제공 한 측정 값에 특정 통계가 제공되지 않은 경우 MDX 쿼리를 작성하여이를 얻을 수 있습니까? 또는 행 레벨 데이터에서 큐브를 사전 계산하기 위해 큐브를 변경해야합니까?
  3. 큐브는 중앙값, 모드 또는 백분위 수와 같은 통계를 제공 할 수 없습니다. 이러한 통계가 제대로 집계되지 않기 때문입니다.

Leland Wilkinson의 The Grammar of Graphics 와 Data Mining 및 OLAP에 관한 장을 읽고 있습니다.

이 [큐브 작업]은 개수, 평균, 비율 및 표준 편차와 같은 통계와 잘 작동합니다. 서브 클래스에 대한 간단한 집계는 합계, 제곱합 및 선형 함수로 결합되어 기본 요약 통계를 생성하는 기타 항을 조작하여 계산할 수 있습니다.

중앙값, 모드 및 백분위 수와 같은 통계에서는 이러한 통계의 집계가 집계의 통계가 아니므로 제대로 작동하지 않습니다. 중앙값의 중앙값은 예를 들어 골재의 중앙값이 아닙니다.

그는 다음을 추가합니다.

그러나 최근에는보다 정교한 ROLAP 모델이 등장했습니다. 여러 기술을 통해 통계 알고리즘이 관계형 모델을 통해 원시 데이터에 실시간으로 액세스 할 수 있습니다. 이 접근 방식은 데이터 큐브와 같은 구조에서 제공하는 엄격한 집계보다 더 유망합니다.

이 아키텍처의 가장 우아한 형태에서 응용 프로그램은 원격 연결을 요청하여 데이터 처리 방법에 대한 정보를 제공하고 반환 된 정보에 따라 적절한 조치를 취할 수 있습니다. 이 형식에서 구성 요소 아키텍처는 사이트, 운영 체제 또는 언어와 독립적 인 설계 및 실행과 같은 분산 컴퓨팅의 진정한 가능성을 달성 할 수 있습니다.

2005 년경에 작성되었습니다. 행 수준 데이터 액세스를 허용하기 위해이 방법을 사용하는 제품을 알고있는 사람이 있습니까?


1
응시자가 없습니까? 질문을 개선하여 답변을 이끌어내는 방법에 대한 제안이 있으십니까?
Tommy O'Dell

답변:


5

질문에 순서대로 답하십시오.

  1. 큐브는 중앙값, 모드 (또는 평균)를 저장하지 않지만이를 계산하는 쿼리를 작성하여 계산 된 측정 값으로 큐브에 포함 할 수 있습니다. 이러한 종류의 계산을 포함하는 기능은 OLAP 기술의 주요 고유 판매 지점 중 하나입니다.
  2. 개별 행을 식별 할 수있는 차원이있는 경우 (사실 테이블의 식별자에서 파생 된 축퇴 또는 '사실'차원 일 수 있음) 개별 행을 기반으로 쿼리를 수행 할 수 있습니다. 그러나 OLAP는 차원 및 집계와 관련하여 작동하므로 개별 행을 식별 할 수있는 차원이 있어야합니다 (집합이 하나의 값으로 구성됨).
  3. 모든 OLAP 도구는 (2)에 설명 된 작업을 수행 할 수 있으며 일반적으로 큐브가 드릴 스루 된 특정 슬라이스의 트랜잭션 데이터의 경계를 반환하는 '드릴 스루' 메커니즘을 지원합니다 .

큐브 스크립트에서 직접 사용할 수없는 계산을 수행하려는 경우, 최신 애도의 ProClarity와 같은 많은 OLAP 도구를 사용하면 사용자 지정 MDX 기반 계산과 관련된 쿼리를 공식화 할 수 있습니다. 큐브에 실제 계산에 필요한 정보가없는 경우 사용자 지정 MDX 계산은 필요한 모든 계산을 지원할 수 있어야합니다.

OLAP 쿼리는 전통적으로 통계 쿼리와 집계되어 있지만 세부적으로 드릴 다운 할 수있는 차원이있는 경우 모드를 유추하거나 계산할 수있는 중앙값, 백분위 수 또는 히스토그램 쿼리를 계산하는 쿼리를 구성 할 수 있습니다.

예를 들어 여기에는 순위를 기반으로 하는 파레토 분석 쿼리 의 예가 있습니다.

많은 큐브 제품은 데이터 자체를 유지하지 않고 기본 데이터베이스에서 쿼리하는 하이브리드 또는 관계형 OLAP 모드에서 작동 할 수 있습니다. 또한 Business Objects, Report Builder 또는 Discoverer와 같은 순수한 ROLAP 도구는 기본 데이터베이스에서 쿼리하여 행 단위로 작업 할 수 있습니다. 그러나 전용 OLAP 제품의 정교함이 부족한 경향이 있으며, 통계 분석 기능이 그다지 중요하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.