노치 박스 플롯이 진행되는 한, 귀하의 질문에 언급 된 McGill et al [1] 참고 문헌에는 꽤 완전한 세부 사항이 포함되어 있습니다 (여기서 내가 말하는 모든 것이 명시 적으로 언급되어 있지는 않지만 그럼에도 불구하고 이해하기에 충분히 상세합니다).
구간은 견고하지만 가우시안 기반 구간입니다.
이 논문은 노치에 대해 다음 간격을 인용합니다 (여기서 은 표본 중앙값이고 은 표본 사 분위 범위).RMR
M±1.7×1.25R/(1.35N−−√)
어디:
σ σ R / 1.35 σ1.35 는 IQR을 추정치로 바꾸는 점근 적 변환 계수입니다. 구체적으로 표준 표준의 0.75 Quantile과 0.25 Quantile의 차이입니다. 모집단 사 분위수는 약 1.35 떨어져 있으므로 약 의 값 은 (보다 정확하게는 약 1.349) 의 일관된 (무증상 편향) 추정값이어야합니다 .σσR/1.35σ
11.25 는 평균이 아닌 중앙값의 점근 적 표준 오차를 다루기 때문입니다. 구체적으로, 표본 중앙값의 점근 적 분산은 여기서 은 중앙값의 밀도 높이입니다. 정규 분포의 경우 은 이므로 샘플 중앙값의 점근 표준 오류는 . f0f0114nf20f0f0 112π√σ≈0.3989σ12 N√에프0= π/ 2−−−√σ/ N−−√≈ 1.253 σ/ N−−√
StasK가 여기 에서 언급했듯이 , 이 작을수록 이것이 더 모호 할 것입니다 (첫 번째 정규 분포 사용의 합리성에 대한 세 번째 이유를 대체합니다).엔
위의 두 가지를 결합하여 약 의 중앙값 표준 오차에 대한 점근 추정치를 . 맥길 (McGill) 등은 이것을 켄달 (Kendall)과 스튜어트 (Stuart)에게 인정한다.1.25 R / ( 1.35 N−−√)
따라서 남은 것은 1.7 배입니다.
하나의 표본을 고정 된 값 (가설 된 중앙값)과 비교하는 경우 5 % 테스트에 1.96을 사용합니다. 결과적으로 두 개의 매우 다른 표준 오차 (하나는 상대적으로 크고 하나는 매우 작음)를 사용하는 요인에 해당하는 경우 (널이 참인 경우 차이가 거의 전체의 변동으로 인해 거의 다를 수 있음) 표준 오류와 작은 오류는 대략 수정 된 것으로 간주 될 수 있습니다.
반면에 두 표준 오차가 같으면 1.96이 너무 클 수 있습니다. 두 노치 세트가 모두 들어가기 때문입니다. 두 노치 세트가 겹치지 않으면 각각 하나가 추가됩니다. 이것은 올바른 요소 .1.96 / 2–√≈ 1.386
사이 어딘가에 대략적인 타협 요인으로 1.7이 있습니다. 맥길 (McGill) 등은 이것을 "임시적으로 선택된"것으로 설명한다. 특정 분산 비율을 가정하는 것에 상당히 가깝습니다. 따라서 나의 추측 (그리고 그 이상은 아닙니다)은 경험적 선택 (아마도 일부 시뮬레이션을 기반으로 함)은 분산에 대한 라운드 값 비율 세트 사이 (예 : 1 : 1, 2 : 1,3 : 1, ...)은 "최상의 타협"있는 로부터 비율은 다음에 연결시켰다 두 인물 반올림 . 적어도 1.7에 가깝게 그럴듯한 방법입니다.r : 1 1.96 / √아르 자형r : 11.96 / 1 + 1 / r−−−−−−√
그것들을 모두 합치면 (1.35,1.25와 1.7) 약 1.57이됩니다. 일부 소스는 1.35 또는 1.25 (또는 둘 다)를 더 정확하게 계산하여 1.58을 얻지 만 1.386과 1.96 사이의 타협으로 1.7은 두 개의 중요한 수치 (정확한 야구장 타협 값)까지 정확하지 않으므로 추가 정밀도는 다음과 같습니다. 무의미합니다 (그들은 전체를 1.6으로 반올림하여 완료했을 수도 있습니다).
이 없다는 것을 참고 더 어디서나 여기에 다중 비교를위한 조정.
Tukey-Kramer HSD 의 차이에 대한 신뢰 한계에는 몇 가지 뚜렷한 유사점이 있습니다 .
와이¯나는 ∙− y¯j ∙± qα ; k ; 엔− k2–√σˆε1엔나는+ 1엔제이−−−−−−−√
그러나 참고
우리의 용어 그래서이 (차이에없는 두 개의 기여 선택지 간격 두 개의 개별적으로 기여하기보다는 와 우리가 함께 타협을 취급하지 않는, 그래서 우리가 (일정한 분산을 가정 - 우리가 점근 적 사례가 아닌 매우 다른 분산을 가질 수있는 경우) k. √c . 1엔나는+ 1엔제이−−−−−−√ k. √k . 1엔나는−−√ 1.961.96/√k . 1엔제이−−√1.961.96 / 2–√
그것은 중앙값이 아닌 수단을 기반으로합니다 (따라서 1.35는 아닙니다)
이를 기반으로 수단에서 가장 큰 차이에 다시 기초 (그래서 심지어있어 어떤 , 이것에 의해 분할 된 하나라도 1.96 부 ). 여러 상자 그림을 비교할 때와 달리, 중간 값의 가장 큰 차이에 따라 노치를 두는 것을 고려할 필요가 없습니다. 모두 순전히 쌍입니다.√큐2–√
따라서 구성 요소 형태의 몇 가지 아이디어는 다소 유사하지만 실제로는 실제로 수행하는 작업과 상당히 다릅니다.
[1] McGill, R., Tukey, JW and Larsen, WA (1978) 박스 도표의 변형. 미국 통계 학자 32, 12-16.