푸 아송 분산 데이터에 대한 상자 그림 변형이 있습니까?


33

Poisson 분산 데이터 (또는 다른 분포)에 적합한 상자 그림 변형이 있는지 알고 싶습니다.

가우스 분포, 수염 = L = Q1-1.5 IQR 및 U = Q3 + 1.5 IQR에 배치 된 상자 그림에는 높은 특이 치 (U 이상의 점)만큼 낮은 특이 치 (L 이하)가있을 수 있습니다. ).

그러나 데이터가 포아송 분포이면 양의 왜도 때문에 Pr (X <L) <Pr (X> U)가 더 이상 유지되지 않습니다 . 수염을 포아송 분포에 '적합하게'배치하는 다른 방법이 있습니까?


2
먼저 기록해보십시오. 당신은 또한 당신의 boxplot이 '잘 적응'되기를 원하는 것을 말할 수 있습니다.
켤레 이전

2
이러한 수정을 수행하는 데에는 한 가지 문제점이 있습니다. 사람들은 표준 상자 그림 정의에 익숙하며 원하는대로 플롯을 볼 때이를 가정 할 것입니다. 따라서 이것은 이득보다 더 많은 혼란을 가져올 수 있습니다.

@mbq :> boxplots의 장점은 두 가지 기능을 하나의 도구로 결합한다는 것입니다. 데이터 시각화 기능 (상자) 및 이상치 탐지 기능 (위스커). 당신이 말하는 것은 전자에 대해서는 사실이지만, 나중에는 비뚤어 짐 조정을 사용할 수 있습니다.
user603

@conjugateprior 여기 포아송 샘플이 있습니다 : 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... 로그를 가져 오는 데 문제가 있습니까?
Glen_b-복지국 모니카

@Glen_b 그렇기 때문에 답이 아닌 설명입니다. 왜 두 부분으로 구성되어 있습니까?
Junjuprior

답변:


31

박스 플롯은 모든 경우에 수염의 끝을 초과 할 확률이 낮도록 설계되지 않았습니다. 대부분의 데이터 세트에 대한 단순한 그래픽 특성화를 위해 사용됩니다. 따라서 데이터의 분포가 치우친 경우에도 문제가되지 않습니다 (비대칭 적으로 분포되지 않은 분포에 대한 정보만큼 많은 정보가 표시되지는 않더라도).

상자 그림이 Poisson 분포에서와 같이 왜곡 될 때 다음 단계는 기본 변수 (단조, 증가하는 변환)를 다시 표현하고 상자 그림을 다시 그리는 것입니다. 푸 아송 분포의 분산이 평균에 비례하기 때문에 사용하기에 좋은 변형은 제곱근입니다.

각 상자 그림에는 주어진 강도 (각 강도에 대해 두 번의 시도로 1에서 10까지)의 포아송 분포에서 50 개의 iid 드로우가 표시됩니다. 왜도는 낮은 경향이 있습니다.

나란히 박스 플롯

제곱근 척도에서 동일한 데이터는 약간 더 대칭적인 박스 플롯을 갖는 경향이 있으며 (최저 강도 제외) 강도에 관계없이 대략 동일한 IQR을 갖습니다).

변환 된 데이터의 상자 그림

요약하면 boxplot 알고리즘을 변경하지 마십시오. 대신 데이터를 다시 표현하십시오.


우연히, 계산 될 관련 기회는 다음과 같습니다. 독립 정규 변량 가 동일한 분포 에서 n 독립 추첨 으로 추정 한 상한 (하한) 펜스 U ( L )를 초과 할 확률은 얼마입니까? XULn 이것은 상자 그림의 펜스가 기본 분포에서 계산되지 않고 데이터에서 추정된다는 사실을 설명합니다. 대부분의 경우 확률은 1 %보다 훨씬 큽니다! 예를 들어, 여기 (1 만 개의 Monte-Carlo 시행 기준)는 경우 대한 로그 (기본 10) 확률의 히스토그램입니다 .n=9

기회의 히스토그램

(정규 분포는 대칭이므로이 막대 그래프는 두 펜스 모두에 적용됩니다.) 1 % / 2의 로그는 약 -2.3입니다. 분명히 확률의 대부분은 이보다 큽니다. 시간의 약 16 %가 10 %를 초과합니다!

이 기회의 분포는 1의 낮은 포아송 분포의 경우에도 정상적인 경우 (작은 ) 와 비교할 수 있다는 것이 밝혀졌습니다 (세부 사항 으로이 답변을 어수선하게하지는 않습니다 ). 가장 큰 차이점은 일반적으로 낮은 특이 치를 찾을 가능성이 적고 높은 특이 치를 찾을 가능성이 높다는 것입니다.


1
+1, 나는 전에이 실을 보지 못했다. 필자는이 규칙에서 수평 규칙 이후에 논의 된 것과 동일한 요점을 다음과 같이 지적했다 . 통계 소프트웨어에 의해 특이 치로 플래그가 지정된 사례를 삭제할지 여부 .
gung-복원 Monica Monica

그렇습니다. @gung과 같은 점입니다. 거기에 좋은 답변을 올렸습니다.
whuber

26

수염의 길이가 왜곡 된 데이터를 고려하여 조정되는 표준 상자 그림의 일반화가 있습니다. 자세한 내용은 매우 명확하고 간결한 백서 (Vandervieren, E., Hubert, M. (2004) "비뚤어진 분포에 대한 조정 된 상자 그림"에 자세히 설명되어 있습니다 )를 참조하십시오 .

아르 자형robustbase :: adjbox ()천칭

필자는 개인적으로 데이터 변환에 대한 더 나은 대안을 찾았습니다 (임시 규칙을 기반으로하지만 백서를 참조하십시오).

우연히, 나는 여기 whuber의 예에 추가 할 것이 있다는 것을 알았습니다. 수염의 행동을 논의하기 위해 오염 된 데이터를 고려할 때 어떤 일이 발생하는지 고려해야합니다.

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

이 오염 모델에서 B1은 기본적으로 왼쪽 절반, 오른쪽 절반 이상인 데이터의 20 %에 대해 로그 정규 분포를 저장합니다 (adjbox의 분석 지점은 일반 상자 그림의 분석 지점과 동일합니다. 데이터의 25 %가 불량 일 수 있습니다).

그래프는 변환 된 데이터의 고전적인 상자 그림 (제곱근 변환 사용)을 나타냅니다.

데이터의 제곱근 변환에 대한 클래식 상자 그림

변환되지 않은 데이터의 조정 된 상자 그림.

변환되지 않은 데이터의 조정 된 상자 그림

이전 박스 옵션은 조정 된 상자 그림과 비교하여 실제 이상 값을 마스킹하고 양호한 데이터를 이상 값으로 표시합니다. 일반적으로 문제 지점을 특이 값으로 분류하여 데이터에서 비대칭 성 증거를 숨기는 데 도움이됩니다.

이 예에서는 데이터의 제곱근에 표준 상자 그림을 사용하는 방법에 따라 13 개의 특이 치 (모두 오른쪽)가 발견되지만 조정 된 상자 그림에서는 오른쪽에서 10 개, 왼쪽에있는 14 개의 특이 치가 발견됩니다.

편집 : 간단히 말해서 조정 된 상자 그림.

'고전적인'상자 그림에서 수염은 다음 위치에 배치됩니다.

1

1

이 경험 법칙은 임시적입니다. 정당화는 데이터의 오염되지 않은 부분이 대략 가우시안 인 경우이 규칙을 사용하여 양호한 데이터의 1 % 미만이 불량으로 분류된다는 것입니다.

OP가 지적한 바와 같이이 차단 규칙의 약점은 두 수염의 길이가 동일하다는 것인데, 이는 데이터의 오염되지 않은 부분이 대칭 분포를 갖는 경우에만 차단 규칙이 의미가 있음을 의미합니다.

일반적인 접근 방식은 차단 규칙을 유지하고 데이터를 조정하는 것입니다. 아이디어는 약간의 왜곡 수정 단조 변환 (제곱근 또는 로그 또는 일반적으로 상자 콕스 변환)을 사용하여 데이터를 변환하는 것입니다. 이것은 다소 지저분한 접근법입니다. 순환 논리에 의존합니다 (이 단계에서는 관찰 할 수없는 데이터의 오염되지 않은 부분의 왜곡을 수정하기 위해 변환을 선택해야 함) 시각적으로. 어쨌든 이것은 임시 규칙 이후의 내용을 보존하기 위해 데이터를 변경하는 이상한 절차로 남아 있습니다.

대안은 데이터를 건드리지 않고 수염 규칙을 변경하는 것입니다. 조정 된 상자 그림을 통해 각 수염의 길이는 데이터의 오염되지 않은 부분의 왜도를 측정하는 지수에 따라 달라질 수 있습니다.

1특급(,α)특급(,β)

α β

0

αβ

1특급(4)특급()0

1특급()특급(4)<0


1
나는 당신이 나의 예제를 "도움이되지 않는" 방법으로 찾는 것에 관심이있을 것입니다. 단지 그렇게 브랜딩하는 것은 건설적인 것이 아닙니다. 데이터 변환이 크게 개선되지 않았다는 점에서 예제가 다소 실망 스럽다는 것을 인정합니다. 그것은 포아송 분포의 잘못입니다. 그것들은이 모든 분석을 귀찮게 할만큼 비뚤어지지 않았습니다!
whuber

@ whuber :> 첫째, 음조를 줘서 미안합니다 : 그것은 편집되지 않은 첫 번째 초안에서 왔으며 수정되었습니다. 긴 인터 윈드 응답). 이제 비평가 자체의 경우 : 귀하의 예는 오염되지 않은 데이터의 경우 변환을 사용하여 솔루션의 동작을 보여줍니다. IMHO의 수염 규칙은 오염 모델을 염두에두고 평가해야합니다.
user603

@user 설명을 해주셔서 감사합니다. 흥미로운 비판은 신경 쓰지 않고 조정 된 상자 그림에 대한 언급에 감사합니다. (+1)
우버

나는 당신이 순수 분포를 검사하는지 (예를 들어 whubers 답변과 같이) 분포와 일부 이상치 (여기서 오염으로 논의 됨)의 데이터가 있는지에 차이가 있다는 user603에 동의합니다 . 내 관점에서 볼 때 실제 설정에서는 상자 그림을 사용하여 특이 치를 스캔합니다. 그런 다음 특이 치를 생략하는 상자 그림 분석은 요점을 놓칩니다. 따라서이 답변은 상자 그림을 사용하는 목적에 더 잘 맞는 것 같습니다.
Henrik

2
@Henrik 특이 치를 식별하는 것은 박스 플롯의 많은 목적 중 하나 일뿐입니다. Tukey의 접근 방식은 먼저 분포 중간을 대략 대칭으로 만드는 데이터의 적절한 표현을 찾아내는 것이 었습니다. 따라서 왜도를 조정할 필요가 없습니다. 그것은 이미 박스 플롯들 사이의 비교를 허용하는 측면에서 많은 것을 성취하며, 그것이 실제로 유용하게되는 곳입니다. 수염을 "조정"하면이 근본적인 문제가 완전히 사라집니다. 따라서 조정 사용에주의해야합니다. 분석이 제대로 수행되지 않았다는 신호가 필요합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.