상자 그림을 생성 할 수 있도록 많은 수의 샘플을 설명하는 일련의 통계를 누적 할 수 있습니까?


22

통계 전문가가 아니라 실습 소프트웨어 개발자이며 대학 통계 강의가 아주 오래 전에 있었다는 것을 즉시 분명히해야합니다 .

즉, 상자 그림을 생성하는 데 사용할 수있는 일련의 설명 통계를 축적하는 방법이 있는지 알고 싶습니다. 개별 샘플을 저장하지 않아도됩니까?

내가하려고하는 일은 복잡한 다중 대기열 프로세스 내에서 대기열 서비스 시간을 그래픽으로 요약 한 것입니다. 과거에는 tnftools라는 패키지를 사용하여 큰 샘플을 축적 한 다음 응답 시간과 이상치에 대한 멋진 그래프로 후 처리했습니다 ... 그러나 현재 플랫폼에서는 tnftools를 사용할 수 없습니다.

이상적으로는 프로세스가 실행되는 동안 "즉석에서"일련의 설명 통계를 누적 한 다음 필요시 분석 할 데이터를 추출하고 싶습니다. 그러나 프로세스와 관련된 메모리 / IO가 시스템 성능에 용인 할 수없는 영향을 미치기 때문에 프로세스가 샘플을 축적 할 수는 없습니다.


Kaelin :> 중앙값과 사 분위수와 같은 요약 통계를 계산하는 '즉석'방법이 있는지 여부를 의미합니까? 이것이 당신이 원하는 것이라면 나는 당신에게 그것들을 자세히 설명하는 논문에 대한 링크를 줄 수 있습니다. 또한 이러한 방법의 효율적인 GNU 구현이 R에 존재할 수 있으므로 작업중인 플랫폼에 대한 자세한 내용을 제공 할 수도 있습니다.
user603

@ kwak : 예, 내가 찾고있는 것 같습니다. 그 링크를 대단히 감사하겠습니다. :-) Mac OS X에서 작업하고 있습니다… 데이터를 사후 처리하는 데 R을 사용할 수 있지만 일반적인 이유로 GPL 코드를 회사 제품에 연결할 수 없습니다.
Kaelin Colclasure

답변:


27

'즉석'상자 그림의 경우 '즉석'최소 / 최대 (사소한) 및 '즉석'사 분위수 (0.25,0.5 = 중간 값 및 0.75)가 필요합니다.

중앙값 계산을위한 온라인 (또는 '즉석에서') 알고리즘 문제에서 최근 많은 작업이 진행되고 있습니다.

최근 개발은 binmedian 입니다. 부수적으로, 또한 빠른 선택 (온라인이나 단일 패스가 아님) 보다 최악의 경우보다 더 복잡 합니다.

관련 용지와 C 및 FORTRAN 코드를 온라인 에서 찾을 수 있습니다 . 제작자와 라이센싱 세부 정보를 확인해야 할 수도 있습니다.

또한 사 분위수에 대한 단일 패스 알고리즘이 필요합니다.이 경우 사 분위수에 대한 위의 접근 방식과 다음 사 분위수의 재귀 적 특성을 사용할 수 있습니다.

0.75(엑스)0.5(엑스나는:엑스나는>0.5(엑스))

0.25(엑스)0.5(엑스나는:엑스나는<0.5(엑스))

즉, 25 (75) 퍼센트 사 분위수는 중앙값보다 작은 (더 큰) 관측치의 중앙값에 매우 가깝습니다.

추가:

Quantile을 계산하기위한 오래된 멀티 패스 방법이 많이 있습니다. 널리 사용되는 접근 방식은 스트림에서 무작위로 선택된 관측치의 결정적인 저장소를 유지 / 업데이트 하고이 저장소에서 Quantile을 재귀 적으로 계산하는 것입니다 ( 리뷰 참조 ). 이 (및 관련) 접근 방식은 위에서 제안한 방법으로 대체됩니다.


1
+1 오른쪽; 나는 여전히 히스토그램으로부터 근사치를 만드는 어두운 시대에있었습니다.

중앙값으로부터의 사 분위수에 대한 재귀 적 정의에는 순진하게 구현 된 경우 두 번의 패스가 필요하다는 것을 올바르게 이해하고 있습니까? 싱글 패스 알고리즘에 대해 알고 있습니까?
Quartz

@Quartz : 아니요, 단일 패스로 중앙값 계산을 실행하는 단일 패스가 두 개 있습니다.
user603

2

대신 중간을 찾는, 직접 추정 히스토그램을 유지하는 알고리즘이있다 " 는 P-광장 알고리즘 관측을 저장하지 않고 분위와 히스토그램의 동적에 대한 계산". 이것은 원하는 모든 Quantile에 대해 반복되는 binning보다 훨씬 더 효율적일 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.