답변:
엄밀한 가정이 없다면 아닙니다. 당신이 대답을 그렇다고 가정한다면 (내가 당신에게 박수를 치르는 대신에), 나는이 (카운터) 예로 당신을 속일 수 있습니다 :set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
꽤 비슷해 보이죠? 그러나 !
코드에서 명확하지 않은 경우 인구 2
는 다음과 같습니다.
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
이 인구가 정확히 대칭이기 때문에이 모집단이 정상이라고 추론 할 수 없습니다. 인구의 QQ 플롯은 다음과 같습니다 2
.
물론 나에게는 정상적이지 않습니다.
편집 – 귀하의 의견에 대한 답변 :
분산 은 숫자 통계입니다. 두 분포의 분산이 문자 그대로 동일하다면, 그것에 대해 말해야 할 모든 것입니다. 두 분포가 정확히 정규 이면 다시 정의 할 수 있는 수학적 정의가 있습니다. 두 분포가 정확히 정규 또는 분산이 아닌 경우 달리 말해서는 안됩니다. 그것들이 대략 같거나 정상 이라고 말하고 싶다면 , 여기에 지정하지 않은 목적에 맞는 방식으로 "충분히 충분"하게 정의해야합니다. 분포 차이에 대한 민감도는 일반적으로 귀하와 같은 질문에 동기를 부여하는 분석에 따라 크게 다릅니다. 예를 들어동일한 표본 크기가 주어지면 후자의 위반에 대해 상당히 견고 하므로 모집단 2
과 모집단 을 비교하는 테스트 1
(정규 분포)를 권장하지 않습니다 .
이것은 잘 대답되었습니다. 이 추가 주석은 주석으로 가기에는 너무 길다 (업데이트 : 현재는 너무 길다).
엄밀히 말하면 분포의 변동성에 대한 상자 그림을 읽을 수있는 것은 사 분위 범위 (상자의 길이 또는 높이)와 범위 (화면의 극단 사이의 길이 또는 높이)입니다.
근사 적으로, 동일하게 보이는 상자 그림은 매우 유사한 분산을 가지지 만 조심하십시오. 매우 다른 상자 위치 또는 꼬리 (또는 둘 다)를 가진 상자 그림은 유사한 분산이있을 가능성은 거의 없지만 불가능하지는 않습니다. 그러나 상자 그림이 동일하게 보이더라도 상자 내 변동 또는 실제로 수염 내 변동에 대한 일반 또는 바닐라 상자 그림에 대한 정보를 얻지 못합니다 (상자와 자주 사 분위수의 1.5 IQR 내의 데이터 포인트 사이에 종종 표시되는 선) . NB 박스 플롯의 여러 변형이 존재한다; 저자는 종종 소프트웨어에서 사용하는 정확한 규칙을 문서화하는 데 어려움을 겪습니다.
상자 그림의 인기는 가격입니다. 상자 그림은 많은 그룹 또는 변수의 총 특징 (예 : 20 또는 30, 때로는 더 많음)을 표시하는 데 매우 유용 할 수 있습니다. 다른 플롯은 같은 공간에서 훨씬 더 상세하게 이해할 수 있기 때문에 2 ~ 3 그룹을 비교하는 데 일반적으로 사용되는 것처럼 과매도됩니다. 당연히, 이것은 보편적으로 인정되지는 않지만 널리 사용되며 박스 플롯의 다양한 개선 사항이 더 자세하게 표시됩니다.
분산에 대한 심각한 작업에는 원본 데이터에 대한 액세스가 필요합니다.
이것은 넓은 브러시이며 자세한 내용을 추가 할 수 있습니다. 예를 들어, 상자 내 중앙값의 위치는 때때로 더 많은 정보를 제공합니다.
최신 정보
박스 플롯에서 분산을 유추하는 특정 질문보다 일반적인 박스 플롯의 사용 (및 제한)에 더 많은 사람들이 관심을 갖고 있다고 생각합니다 (단순한 대답은 "간접적으로는 제외하고는, 그리고 때때로 "), @Christian Sauer의 안내에 따라 대안에 대한 의견을 더 추가 할 것입니다.
현명하게 사용 된 히스토그램은 종종 여전히 경쟁력이 있습니다. Freedman, Pisani 및 Purves의 현대 고전 서문은이를 통해 사용됩니다.
도트 또는 스트립 플롯 (차트) 및 기타 여러 이름으로 알려진 다양한 것을 이해하기 쉽습니다. 원하는 경우 비닝 후 동일한 포인트를 쌓을 수 있습니다. 심장의 내용에 중앙값과 사 분위수, 평균 및 신뢰 구간을 추가 할 수 있습니다.
Quantile 도표는 획득 한 맛이지만 여러 가지면에서 가장 다재다능한 것 같습니다. 나는 여기에 순서 값의 다시 누적 확률 (플로팅 위치) 플롯을 포함하고 데이터가 고려되는 "브랜드 이름"분포 (정상, 지수, 감마 등)라면 직선적 인 양자화 플롯을 포함합니다. (CJ Geyer가 사용하는 "브랜드 이름"에 대한 언급은 @Scortchi에게 감사의 말을 전합니다.)
그러나 포괄적 인 목록은 불가능합니다. (예를 들어, 종종 숫자-기호 선호도가 만연 할 때처럼 줄기-잎 표현이 데이터에서 중요한 세부 사항을 정확하게 볼 수있는 것이 옳다는 점을 덧붙일 것입니다.) 핵심 원칙은 최상의 종류의 분포도는 흥미 롭거나 중요 할 수있는 데이터 (모달, 세분성, 특이 치 등)와 거친 구조 (수준, 확산, 왜곡 등)에 대한 미세 구조 에 대한 인식은 불가능 해 보입니다 .
상자 그림은 모든 종류의 구조를 표시하는 데 똑같이 좋지 않습니다. 그것들은 될 수없고 의도되지도 않았습니다. 탐색 데이터 분석 에서 JW Tukey는 MA : Addison-Wesley (1977)가 Rayleigh의 바이 모달 데이터의 예를 보여 주었고, 이는 박스 플롯이 주요 구조를 완전히 모호하게 한다는 것을 지적 할 가치가있다 . 위대한 통계 학자로서 그는 상자 그림이 항상 정답은 아니라는 것을 잘 알고있었습니다.
소개 텍스트에 널리 퍼져있는 기이 한 관행은 분산 분석을 논의하는 동시에 독자에게 평균과 사 분위가 아닌 평균과 사 분위수 (SD가 아닌)를 보여주는 상자 그림을 보도록 권유합니다. 당연히, 데이터를 보는 것이 보이지 않는 것보다 훨씬 낫지 만, 더 적절한 그래픽 표현은 아마도 적절한 수단 +/- 적절한 SE의 배수를 가진 원시 데이터의 일부 플롯 일 것입니다.
순진한 접근 방식 :
박스 플롯으로 분산을 비교하는 방법 : 박스가 클수록 분산이 커지지 만 탐색 적 이해가 가능하며 수염 및 특이 치도 고려해야합니다. 확인을 위해 가설 대비를 사용해야합니다.