수염의 길이가 왜곡 된 데이터를 고려하여 조정되는 표준 상자 그림의 일반화가 있습니다. 자세한 내용은 매우 명확하고 간결한 백서 (Vandervieren, E., Hubert, M. (2004) "비뚤어진 분포에 대한 조정 된 상자 그림"에 자세히 설명되어 있습니다 )를 참조하십시오 .
아르 자형robustbase :: adjbox ()천칭
필자는 개인적으로 데이터 변환에 대한 더 나은 대안을 찾았습니다 (임시 규칙을 기반으로하지만 백서를 참조하십시오).
우연히, 나는 여기 whuber의 예에 추가 할 것이 있다는 것을 알았습니다. 수염의 행동을 논의하기 위해 오염 된 데이터를 고려할 때 어떤 일이 발생하는지 고려해야합니다.
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
이 오염 모델에서 B1은 기본적으로 왼쪽 절반, 오른쪽 절반 이상인 데이터의 20 %에 대해 로그 정규 분포를 저장합니다 (adjbox의 분석 지점은 일반 상자 그림의 분석 지점과 동일합니다. 데이터의 25 %가 불량 일 수 있습니다).
그래프는 변환 된 데이터의 고전적인 상자 그림 (제곱근 변환 사용)을 나타냅니다.
변환되지 않은 데이터의 조정 된 상자 그림.
이전 박스 옵션은 조정 된 상자 그림과 비교하여 실제 이상 값을 마스킹하고 양호한 데이터를 이상 값으로 표시합니다. 일반적으로 문제 지점을 특이 값으로 분류하여 데이터에서 비대칭 성 증거를 숨기는 데 도움이됩니다.
이 예에서는 데이터의 제곱근에 표준 상자 그림을 사용하는 방법에 따라 13 개의 특이 치 (모두 오른쪽)가 발견되지만 조정 된 상자 그림에서는 오른쪽에서 10 개, 왼쪽에있는 14 개의 특이 치가 발견됩니다.
편집 : 간단히 말해서 조정 된 상자 그림.
'고전적인'상자 그림에서 수염은 다음 위치에 배치됩니다.
큐1큐삼
큐1큐삼
이 경험 법칙은 임시적입니다. 정당화는 데이터의 오염되지 않은 부분이 대략 가우시안 인 경우이 규칙을 사용하여 양호한 데이터의 1 % 미만이 불량으로 분류된다는 것입니다.
OP가 지적한 바와 같이이 차단 규칙의 약점은 두 수염의 길이가 동일하다는 것인데, 이는 데이터의 오염되지 않은 부분이 대칭 분포를 갖는 경우에만 차단 규칙이 의미가 있음을 의미합니다.
일반적인 접근 방식은 차단 규칙을 유지하고 데이터를 조정하는 것입니다. 아이디어는 약간의 왜곡 수정 단조 변환 (제곱근 또는 로그 또는 일반적으로 상자 콕스 변환)을 사용하여 데이터를 변환하는 것입니다. 이것은 다소 지저분한 접근법입니다. 순환 논리에 의존합니다 (이 단계에서는 관찰 할 수없는 데이터의 오염되지 않은 부분의 왜곡을 수정하기 위해 변환을 선택해야 함) 시각적으로. 어쨌든 이것은 임시 규칙 이후의 내용을 보존하기 위해 데이터를 변경하는 이상한 절차로 남아 있습니다.
대안은 데이터를 건드리지 않고 수염 규칙을 변경하는 것입니다. 조정 된 상자 그림을 통해 각 수염의 길이는 데이터의 오염되지 않은 부분의 왜도를 측정하는 지수에 따라 달라질 수 있습니다.
큐1특급( M, α )큐삼특급( M, β)
엠α β
엠≈ 0
엠엠αβ
큐1특급( - 4 M)큐삼특급( 3 M)엠≥ 0
큐1특급( − 3 M)큐삼특급( 4 M)엠< 0