그래 넌 할수있어. 적어도 대략적인 의미에서.
몇 가지주의 사항과 제한 사항과 함께 아래에 (실제로 "상자 오버랩"과의 관계가 있음) 개요를 설명합니다. 그러나 먼저 배경과 맥락에 대한 몇 가지 예비 사항에 대해 논의 해 봅시다. (여기서 적절한 대답은 예제의 세부 사항에 중점을 두어야한다고 생각합니다. 아마도 일부 언급은 제외 할 것이지만, 명백한 차이가 무작위 변형으로 쉽게 설명 될 수 있는지 여부를 평가하기 위해 상자 그림을 사용하는 중심 문제에 있습니다. .)
데이터에 액세스 할 수 있으면 이런 종류의 시각적 비교를 위해 설계된 노치 상자 그림 을 그릴 수 있습니다 .
여기에 노치 된 상자 그림 계산에 대한 설명이 있습니다 . 노치 간격이 겹치지 않으면 비교되는 두 그룹이 5 % 수준에서 거의 다릅니다. 계산은 정규 계산을 기반으로하지만 상당히 강력하고 다양한 분포에서 합리적으로 잘 수행됩니다. (정식 테스트로 취급되는 경우 일반적으로 검정력은 그다지 높지 않지만 다소 "전형적인"두꺼운 꼬리의 경우에는 꽤 잘 맞아야합니다.
노치 된 상자 그림이 작동하는 방식을 고려하면 질문에 표시된 것과 같은 디스플레이 만있을 때 작동하는 빠른 경험 법칙을 식별 할 수 있습니다. 표본 크기가 10이고 중앙값이 상자 중앙 가까이에 놓이면 노치 상자 그림의 노치가 상자 너비에 가깝기 때문에 노치 끝과 상자의 위치는 거의 같습니다.
n = 10
n = 10
n = 9n = 10
n = 10엔 = 10 , 10n = 9 , 9n = 8 , 8
엔엔−−√n = 40
줄거리를 보면 :
문제의 플롯 모양에서 샘플 크기가 5 이상이어야 함을 알 수 있습니다. 이들이 5보다 작 으면, 개별 샘플 박스 플롯은 더 작은 샘플 크기 (예를 들어, 중앙값이 각 박스의 데드 센터 (dead center)이거나, 이상치 (outlier)가있을 때 수염의 길이가 0)와 같은 작은 단서를 가질 것이다.
또는 상자 (사 분위수 표시)가 서로 겹치지 않고 표본 크기가 10 이상인 경우 비교되는 두 그룹의 5 % 수준에서 서로 다른 중앙값을 가져야합니다 (단일 쌍 비교로 간주).
엔n = 5
[여기에는 비교 횟수가 고려되지 않으므로 여러 번 비교를 수행하는 경우 전체 유형 I 오류가 더 커집니다. 공식적인 테스트보다는 육안 검사를위한 것입니다. 그럼에도 불구하고 관련된 아이디어는 여러 비교에 대한 조정을 포함하여보다 공식적인 접근 방식에 적용 할 수 있습니다.]
당신이 할 수 있는지 여부를 해결 한 후 , 당신 이 해야할지 여부를 고려하는 것이 합리적 입니다. 아마 아닐거야; 잠재적 인 p-hacking의 문제는 실제이지만, 예를 들어, 연구 문제에 대한 새로운 데이터 수집을 추구하고 당신이 가진 모든 것이 논문의 상자 그림인지 여부를 알아 내기 위해 이것을 사용한다면 노이즈로 인한 변동으로 쉽게 설명 할 수있는 것보다 더 많은 것이 있는지 여부를 평가할 수있어 매우 유용합니다. 그러나 그 문제를 깊이있게 고려하면 실제로 다른 질문에 대답 할 수 있습니다.