멀티 모달 분배를위한 Box-Whisker Plot


13

다중 모달 분포 또는 단봉 분포에만 상자 및 수염 도표를 사용할 수 있습니까?


둘 이상의 모드를 갖는 분포에 대한 일반적인 용어는 ' 멀티 모달 '입니다. 이것이 의미하는 경우 일반적인 용어를 사용하도록 수정하십시오. 다른 의미가 있다면 용어를 정의하십시오.
Glen_b-복지 주 모니카

1
상자 그림이 복잡한 분포 모양에 항상 도움이되는 것은 아닙니다. Bimodal ... multimodal ( "다 봉형"보다 더 일반적인 용어 인 것 같습니다) 모양은 종종 숨겨집니다. 단일성으로부터의 이탈이 얼마나 강한 지에 달려 있습니다. 그렇지 않으면 벨이 울리지 않으며 오류 메시지가 표시되지 않습니다. 그러나 히스토그램이나 커널 밀도 추정조차도 복잡한 분포를 엉망으로 만들 수 있습니다. 일부는 샘플에서 기발한 모드를 과도하게 받아들이 기 쉽기 때문에 기능으로 간주합니다. 정보를 잃지 않는 유일한 종류의 플롯은 Quantile 플롯이라고 말하고 싶습니다.
Nick Cox

@Glen_b 내가 했어. 저의 책에서, 그들은 다봉의 왜곡에 대해 말하고 있습니다. 한 피크에 대한 단봉이 맞습니까?
user1091344

1
당신은 확실히 상자 그림을 사용할 있습니다-누가 당신을 막을 것입니까? 문제는 일반적인 박스 플롯이 모드 수를 표시하지 않는다는 것입니다 (복수 양식을 나타낼 수있는 박스 플로트의 수정이 있음). 박스 플롯은 분포 형태가 직접적인 관심이있는 것보다 관심이 그룹 간 위치 및 비교 (많은 그룹에 걸친)의 비교에 집중할 때 더 좋습니다. 멀티 모달리티가 표시해야하는 중요한 경우 (특히 그룹이 거의없는 경우) 다른 디스플레이 또는 여러 디스플레이를 사용하는 것이 좋습니다. (가능하면 답변으로 답변을 확대하겠습니다.)
Glen_b-복지 주 모니카

1
당신의 증거는 우리가이 책을 잘 생각하도록 기울이지 않습니다.
Nick Cox

답변:


20

문제는 일반적인 boxplot *이 일반적으로 모드 수를 표시 할 수 없다는 것입니다. 일부 (일반적으로 드문 경우) 상황에서 가장 적은 수의 모드가 1을 초과한다는 명확한 표시를 얻을 수 있지만,보다 일반적으로 주어진 상자 그림은 하나 이상의 더 많은 수의 모드와 일치합니다.

* 밀도의 변화를 나타 내기 위해 더 많은 것을 나타내는 일반적인 박스 플롯의 여러 가지 수정이 제안되었으며 캠은 여러 모드를 식별하는 데 사용되지만 이것이이 질문의 목적이라고 생각하지 않습니다.

예를 들어,이 그림 적어도 두 가지 모드 있음을 나타냅니다 (데이터는 정확히 두 가지를 갖도록 생성되었습니다)-

여기에 이미지 설명을 입력하십시오

반대로,이 배포판에는 두 가지 매우 명확한 모드가 있지만 상자 그림에서 전혀 알 수 없습니다.

여기에 이미지 설명을 입력하십시오

n=

사실, 그림 (1) 여기 쇼 같은 상자 플롯 4 개 개의 다른 데이터 세트 (내가 믿는 나중에 [1]에 발표 된 작업 용지입니다).

나는 그 데이터를 가지고 있지 않지만, 5 개의 숫자 요약과 관련된 위의 링크에 표시된 것처럼 유사한 데이터 세트를 만드는 것은 사소한 문제입니다. 다섯 숫자 요약은 우리를 제한합니다.

다음은 논문의 데이터와 유사한 데이터를 생성하는 R 코드입니다.

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

다음은 위의 데이터에 대한 논문의 디스플레이와 유사한 표시입니다 (여기에서 네 개의 상자 그림을 모두 표시하는 것을 제외하고).

여기에 이미지 설명을 입력하십시오

그러나 히스토그램에도 문제가있을 수 있습니다 . 실제로, 세 번째 "피크"히스토그램의 분포가 실제로 명백히 이봉이기 때문에 우리는 여기서 문제 중 하나를 본다. 히스토그램 빈 너비는 표시하기에 너무 넓습니다. 또한 Nick Cox가 의견에서 지적한 것처럼 커널 밀도 추정은 모드 수의 인상에 영향을 줄 수 있습니다 (때때로 모드 번짐 ... 또는 때로는 원래 분포에 존재하지 않는 작은 모드 제안). 많은 공통 디스플레이의 해석에주의해야합니다.

다중 양식을 더 잘 표시 할 수있는 상자 그림의 수정이 있습니다 (수많은 음모, 바이올린 음모 및 콩 음모). 어떤 상황에서는 유용 할 수 있지만 모드를 찾는 데 관심이있는 경우 일반적으로 다른 종류의 표시를 봅니다.

x4

[1] : Choonpradub, C., & McNeil, D. (2005),
"상자 그림을 개선 할 수 있습니까?"
송클라 나 카린 J. 과학 테크 놀. , 27 : 3, 649-657 쪽.
http://www.jourlib.org/paper/2081800
pdf


2
모드에 대한 두 가지 광범위한 의견. 1. 특정 양식의 양식에 대한 좋은 테스트는 동일한 크기의 샘플에서 반복적으로 반복되는지 여부입니다. 내 경험은 그런 의미에서 모드가 극도로 변하기 쉽다는 것입니다. 2. 모드를 고려할 때 항상 모드에 실질적인 해석이 있는지 물어볼 가치가 있습니다. 그러나 모든 논쟁은 틀릴 수 있습니다. 내가 정확하게 기억한다면, 대부분의 사람들은 남성과 여성의 혼합이 키 분포에 이정성을 부여 할 것이라고 생각할 것입니다. 그러나 고품질의 큰 샘플에서도이를 발견하기는 어렵습니다.
Nick Cox

1
@NickCox 감사합니다; 실제로, 나는 높이가 바이 모달이 아닐 것이라고 추측했을 것이다. (실제에 대한 대략적인 근사로) 우리는 비슷한 표준 편차를 가진 두 개의 정규 분포를 고려했는데, 그 평균 편차는 약 1sd만큼 다르고 약 남성은 여성만큼 많았습니다. 실제로 결합 된 (두 법선의 혼합) 분포는 단조롭습니다. 현실은 조금 더 복잡합니다. 물론 분포는 인종 그룹의 혼합이며, 성별과 인종 그룹 내에서도 왜곡되고, 다양한 차이가 있으며 평균은 1sd 이상 다릅니다. 그러나 결과 (유일성)는 우리를 놀라게하지 않습니다
Glen_b-복지 모니카

3
탐색 데이터 분석 (Reading, MA : Addison-Wesley, 1977) 에서 JW Tukey 가 Rayleigh의 데이터의 도트 플롯을 포함하여 아르곤을 발견하게되었고 상자 플롯이 쓸모없고 다른 플롯이 생기는 바이 모달 패턴으로 표시되었다 Tukey의 경우 디스플레이는 구조를보기 위해 필요합니다. 잘 알려진 Tukey는 상자 그림으로 명명되었으며 재 발명자라고 잘 알려져 있지 않습니다.
Nick Cox

7

R을 사용한 다중 양식 탐지에는 여러 가지 옵션이 있습니다. 아래 차트의 데이터는 세 가지 모드 (-3,0,1)로 생성되었습니다. 박스 플롯은 다른 것들에 의해 분명히 성능이 뛰어납니다 (바이올린 플롯은 기본 커널 밀도 설정이 다른 것처럼 보입니다) .0과 1 모드를 구별하는 것은 없습니다. 컴퓨터 시대에 더 이상 박스 플롯을 사용해야하는 이유는 거의 없습니다. 왜 정보를 버리는가?

여기에 이미지 설명을 입력하십시오

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.