상자 그림에서 분산 추론


12

상자 그림을 사용하여 변수의 분산을 추론하는 방법이 궁금합니다. 두 개의 변수가 상자 그림을 관찰하여 동일한 분산을 갖는지 추론 할 수 있습니까?


1
최근 비슷한 주제 에 대해이 기사를 우연히 발견했습니다 . 그것이 당신에게 통찰력을 줄 수 있기를 바랍니다.
Penguin_Knight

답변:


16

엄밀한 가정이 없다면 아닙니다. 당신이 대답을 그렇다고 가정한다면 (내가 당신에게 박수를 치르는 대신에), 나는이 (카운터) 예로 당신을 속일 수 있습니다 :set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

꽤 비슷해 보이죠? 그러나 !σ12=1,σ22=1.96

코드에서 명확하지 않은 경우 인구 2는 다음과 같습니다.

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

이 인구가 정확히 대칭이기 때문에이 모집단이 정상이라고 추론 할 수 없습니다. 인구의 QQ 플롯은 다음과 같습니다 2.

물론 나에게는 정상적이지 않습니다.

편집 – 귀하의 의견에 대한 답변 :

분산 은 숫자 통계입니다. 두 분포의 분산이 문자 그대로 동일하다면, 그것에 대해 말해야 할 모든 것입니다. 두 분포가 정확히 정규 이면 다시 정의 할 수 있는 수학적 정의가 있습니다. 두 분포가 정확히 정규 또는 분산이 아닌 경우 달리 말해서는 안됩니다. 그것들이 대략 같거나 정상 이라고 말하고 싶다면 , 여기에 지정하지 않은 목적에 맞는 방식으로 "충분히 충분"하게 정의해야합니다. 분포 차이에 대한 민감도는 일반적으로 귀하와 같은 질문에 동기를 부여하는 분석에 따라 크게 다릅니다. 예를 들어t동일한 표본 크기가 주어지면 후자의 위반에 대해 상당히 견고 하므로 모집단 2과 모집단 을 비교하는 테스트 1(정규 분포)를 권장하지 않습니다 .


3
좋은 예입니다. Nick은 R을 사용하고 있습니다. (모두가 R을 사용할 때까지 언급하는 것이 좋습니다.)
Nick Cox

그것이 과학 전체에 좋은 날이 될 것이라고 생각하는 것을 도울 수 없다 :)
Nick Stauner

나는 그것에 대한 긴 에세이를 가지고 있지만 어떻게 든 사용 가능한 공간에 맞지 않을 것입니다.
Nick Cox

좋은 대답입니다. "정상적이고 분산이 동일합니다"
Donbeo

응답하도록 수정되었습니다.
Nick Stauner 2016 년

10

이것은 잘 대답되었습니다. 이 추가 주석은 주석으로 가기에는 너무 길다 (업데이트 : 현재는 너무 길다).

엄밀히 말하면 분포의 변동성에 대한 상자 그림을 읽을 수있는 것은 사 분위 범위 (상자의 길이 또는 높이)와 범위 (화면의 극단 사이의 길이 또는 높이)입니다.

근사 적으로, 동일하게 보이는 상자 그림은 매우 유사한 분산을 가지지 만 조심하십시오. 매우 다른 상자 위치 또는 꼬리 (또는 둘 다)를 가진 상자 그림은 유사한 분산이있을 가능성은 거의 없지만 불가능하지는 않습니다. 그러나 상자 그림이 동일하게 보이더라도 상자 내 변동 또는 실제로 수염 내 변동에 대한 일반 또는 바닐라 상자 그림에 대한 정보를 얻지 못합니다 (상자와 자주 사 분위수의 1.5 IQR 내의 데이터 포인트 사이에 종종 표시되는 선) . NB 박스 플롯의 여러 변형이 존재한다; 저자는 종종 소프트웨어에서 사용하는 정확한 규칙을 문서화하는 데 어려움을 겪습니다.

상자 그림의 인기는 가격입니다. 상자 그림은 많은 그룹 또는 변수의 총 특징 (예 : 20 또는 30, 때로는 더 많음)을 표시하는 데 매우 유용 할 수 있습니다. 다른 플롯은 같은 공간에서 훨씬 더 상세하게 이해할 수 있기 때문에 2 ~ 3 그룹을 비교하는 데 일반적으로 사용되는 것처럼 과매도됩니다. 당연히, 이것은 보편적으로 인정되지는 않지만 널리 사용되며 박스 플롯의 다양한 개선 사항이 더 자세하게 표시됩니다.

분산에 대한 심각한 작업에는 원본 데이터에 대한 액세스가 필요합니다.

이것은 넓은 브러시이며 자세한 내용을 추가 할 수 있습니다. 예를 들어, 상자 내 중앙값의 위치는 때때로 더 많은 정보를 제공합니다.

최신 정보

박스 플롯에서 분산을 유추하는 특정 질문보다 일반적인 박스 플롯의 사용 (및 제한)에 더 많은 사람들이 관심을 갖고 있다고 생각합니다 (단순한 대답은 "간접적으로는 제외하고는, 그리고 때때로 "), @Christian Sauer의 안내에 따라 대안에 대한 의견을 더 추가 할 것입니다.

  • 현명하게 사용 된 히스토그램은 종종 여전히 경쟁력이 있습니다. Freedman, Pisani 및 Purves의 현대 고전 서문은이를 통해 사용됩니다.

  • 도트 또는 스트립 플롯 (차트) 및 기타 여러 이름으로 알려진 다양한 것을 이해하기 쉽습니다. 원하는 경우 비닝 후 동일한 포인트를 쌓을 수 있습니다. 심장의 내용에 중앙값과 사 분위수, 평균 및 신뢰 구간을 추가 할 수 있습니다.

  • Quantile 도표는 획득 한 맛이지만 여러 가지면에서 가장 다재다능한 것 같습니다. 나는 여기에 순서 값의 다시 ​​누적 확률 (플로팅 위치) 플롯을 포함하고 데이터가 고려되는 "브랜드 이름"분포 (정상, 지수, 감마 등)라면 직선적 인 양자화 플롯을 포함합니다. (CJ Geyer가 사용하는 "브랜드 이름"에 대한 언급은 @Scortchi에게 감사의 말을 전합니다.)

그러나 포괄적 인 목록은 불가능합니다. (예를 들어, 종종 숫자-기호 선호도가 만연 할 때처럼 줄기-잎 표현이 데이터에서 중요한 세부 사항을 정확하게 볼 수있는 것이 옳다는 점을 덧붙일 것입니다.) 핵심 원칙은 최상의 종류의 분포도는 흥미 롭거나 중요 할 수있는 데이터 (모달, 세분성, 특이 치 등)와 거친 구조 (수준, 확산, 왜곡 등)에 대한 미세 구조 에 대한 인식은 불가능 해 보입니다 .

상자 그림은 모든 종류의 구조를 표시하는 데 똑같이 좋지 않습니다. 그것들은 될 수없고 의도되지도 않았습니다. 탐색 데이터 분석 에서 JW Tukey는 MA : Addison-Wesley (1977)가 Rayleigh의 바이 모달 데이터의 예를 보여 주었고, 이는 박스 플롯이 주요 구조를 완전히 모호하게 한다는 것을 지적 할 가치가있다 . 위대한 통계 학자로서 그는 상자 그림이 항상 정답은 아니라는 것을 잘 알고있었습니다.

소개 텍스트에 널리 퍼져있는 기이 한 관행은 분산 분석을 논의하는 동시에 독자에게 평균과 사 분위가 아닌 평균과 사 분위수 (SD가 아닌)를 보여주는 상자 그림을 보도록 권유합니다. 당연히, 데이터를 보는 것이 보이지 않는 것보다 훨씬 낫지 만, 더 적절한 그래픽 표현은 아마도 적절한 수단 +/- 적절한 SE의 배수를 가진 원시 데이터의 일부 플롯 일 것입니다.


Nick, 적은 수의 변수에 대한 상자 그림에 대한 대안을 설명 할 수 있습니까?
Christian Sauer

@ChristianSauer 프롬프트에 감사드립니다 : 업데이트를 참조하십시오.
Nick Cox

아주 좋은 업데이트 감사합니다. 나는 특히 당신의 마지막 단락을 좋아합니다. 나는 분산 및 / 또는 회귀와 결합 된 상자 그림을 상당히 혼란스럽게 생각합니다. 사과와 오렌지를 비교하는 것과 같습니다.
Christian Sauer

2
다른 과학과 마찬가지로 통계는 다른 용어에서 복사 한 기괴한 용어, 표기법 및 분석 습관으로 가득합니다.
Nick Cox

1
나는 마스터 석사 논문에서 정규 분포에 대한 독립 변수를 확인했습니다 ... 이것은화물 컬트 통계의 가장 좋은 형태입니다 :(
Christian Sauer

6

순진한 접근 방식 :

0.67σ1.35σ

IQR=1.35σσ=0.74IQR

박스 플롯으로 분산을 비교하는 방법 : 박스가 클수록 분산이 커지지 만 탐색 적 이해가 가능하며 수염 및 특이 치도 고려해야합니다. 확인을 위해 가설 대비를 사용해야합니다.


분산을 비교하기 위해 여전히 두 분포가 모두 정상이라고 가정해야합니까? 상자가 중심에 대하여 대칭이라면 변수가 정상이라고 추론 할 수 있습니까?
Donbeo

1
@Nick_Stauner가 말하는 모든 것을 구독합니다. 내가 노출 한 것은 모집단이 보통이라고 가정하고 있는데, 이는 대칭 및 첨도 = 0이 아닌 다른 것들을 필요로합니다.이 가정은 자주 위반됩니다.
Rufo

2
첨도는 다양한 방법으로 정의됩니다. 또 다른 (간단한) 정의에서 일반 (가우시안)에는 첨도 3이 있습니다. 실제로 계산하는 경우 소프트웨어가 사용하는 정의를 확인해야합니다.
Nick Cox

1
정규 분포의 경우 실수가 아닌 경우 첨도 3, 초과 첨도 0 입니다. 인기있는 소프트웨어 패키지가 기본적으로 과도하지 않은 첨도를 생성하는지 궁금합니다. 그건 아마 많은 혼란을 생산하는 것 (다소 반대 연습에서 "과잉"의 생략에 의해 혼동 일반적으로 그 사람을 거부하지 말 것) ...
닉 Stauner

1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.