질문 순서를 변경하겠습니다.
나는 교과서와 강의 노트가 자주 동의하지 않는 것을 발견했으며, 모범 사례로 안전하게 추천 할 수있는 선택, 특히 교과서 나 논문을 인용 할 수있는 시스템을 원합니다.
불행히도, 책 등에서이 문제에 대한 어떤 토론은 지혜를 얻었습니다. 때때로받는 지혜는 합리적이며 때로는 그렇지 않습니다 (적어도 큰 문제는 무시 될 때 작은 문제에 집중하는 경향이 있습니다). 우리는 조언을 위해 제공된 정당화를주의 깊게 검토해야합니다 (모든 정당화가 제공되는 경우).
t- 검정 또는 비모수 검정 선택에 대한 대부분의 안내서는 정규성 문제에 중점을 둡니다.
사실이지만,이 답변에서 다루는 몇 가지 이유로 인해 다소 잘못 안내됩니다.
"관련되지 않은 샘플"또는 "페어링되지 않은"t- 테스트를 수행하는 경우 Welch 보정을 사용할지 여부
이것은 (분산이 동일해야한다고 생각할 이유가없는 한 그것을 사용하는) 수많은 참조의 조언입니다. 이 답변에서 일부를 가리 킵니다.
일부 사람들은 분산의 동등성에 대해 가설 검정을 사용하지만 여기서는 검정력이 낮습니다. 일반적으로 나는 샘플 SD가 "합리적으로"가까운 지 아닌지 안다. (이는 다소 주관적이므로 더 원칙적인 방법이 있어야 함) 다시 n이 낮 으면 인구 SD가 다소 더 나을 수도 있습니다. 샘플과는 다릅니다.
모집단 분산이 같다고 믿을만한 이유가없는 한 작은 표본에 대해 항상 Welch 보정을 사용하는 것이 더 안전합니까? 그것이 조언입니다. 테스트의 속성은 가정 테스트를 기반으로 한 선택의 영향을받습니다.
이것에 대한 약간의 언급은 여기 와 여기 에서 볼 수 있지만 , 비슷한 말이 더 많이 있습니다.
등분 산 문제는 일반 문제와 비슷한 특성을 많이 가지고 있습니다. 사람들은 테스트를 원하고, 조언은 테스트 결과에 대한 테스트 조건 선택이 두 가지 후속 테스트 결과에 부정적인 영향을 줄 수 있다고 제안합니다. (데이터에 대한 추론, 동일한 변수 등과 관련된 다른 연구의 정보를 사용하여) 적절하게 정당화 할 수는 없습니다.
그러나 차이점이 있습니다. 하나는 – 적어도 귀무 가설 하에서 검정 통계량의 분포 측면에서 (따라서 그것의 수준 강성)-비표준은 큰 표본에서 덜 중요하지 않다는 것입니다. 등분 산 가정 하에서 동일하지 않은 분산의 효과는 실제로 큰 표본 크기로 사라지지 않습니다.
표본 크기가 "작은"경우 가장 적합한 시험을 선택하기 위해 어떤 원칙적인 방법을 권장 할 수 있습니까?
가설 검정의 경우 (일부 조건에서) 중요한 것은 주로 두 가지입니다.
실제 제 1 종 오류율은 무엇입니까?
전력 거동은 어떻습니까?
또한 두 절차를 비교할 때 첫 번째 절차를 변경하면 두 번째 절차가 변경되므로 두 번째 절차가 변경됩니다 (즉, 동일한 실제 유의 수준에서 수행되지 않는 경우 더 높은 가 더 높은 전력).α
이 작은 샘플 문제를 염두에두고 t와 비모수 테스트 사이를 결정할 때 잘 수행 할 수있는 점검표가 있습니까?
비정규 성과 비 균등 분산의 가능성을 고려하여 몇 가지 권장 사항을 제시 할 여러 상황을 고려할 것입니다. 모든 경우에 웰치 테스트를 암시하기 위해 t 테스트를 언급하십시오.
비정규 (또는 알려지지 않은), 거의 같은 분산을 가질 수 있음 :
분포가 두꺼운 꼬리 인 경우 Mann-Whitney를 사용하는 것이 일반적으로 더 나을 것이지만, 약간 무거운 경우 t- 검정은 괜찮습니다. 가벼운 꼬리를 사용하면 t- 검정이 선호 될 수 있습니다. 순열 테스트는 좋은 옵션입니다 (경향이있는 경우 t- 통계량을 사용하여 순열 테스트를 수행 할 수도 있음). 부트 스트랩 테스트도 적합합니다.
비정규 (또는 알 수 없음), 동일하지 않은 분산 (또는 분산 관계를 알 수 없음) :
분포가 헤비 테일 인 경우 일반적으로 Mann-Whitney를 사용하는 것이 좋습니다. 분산의 불평등이 평균의 불평등에만 관련되어있는 경우, 즉 H0이 참이면 스프레드의 차이도 없어야합니다. 특히 왜도 및 확산이 평균과 관련이있는 경우 GLM이 유용한 옵션입니다. 순열 테스트는 순위 기반 테스트와 비슷한 경고를 갖는 또 다른 옵션입니다. 부트 스트랩 테스트는 여기서 가능합니다.
Zimmerman and Zumbo (1993) 는 분산이 같지 않은 경우 Wilcoxon-Mann-Whitney보다 성능이 더 우수한 등급에 대한 Welch-t-test를 제안합니다.[1]
비정규 성이 예상되는 경우 (위의 경고와 함께) 순위 테스트는 합리적인 기본값입니다. 모양 또는 분산에 대한 외부 정보가있는 경우 GLM을 고려할 수 있습니다. 일이 너무 멀지 않을 것으로 예상하면 t- 검정이 적합 할 수 있습니다.
적절한 유의 수준을 얻는 데 문제가 있기 때문에 순열 테스트 나 순위 테스트가 적합하지 않을 수 있으며 가장 작은 크기에서는 t- 검정이 최선의 선택 일 수 있습니다 (약간 강화할 가능성이 있음). 그러나 작은 샘플에 더 높은 유형 I 오류율을 사용하는 것에 대한 좋은 주장이 있습니다 (그렇지 않으면 유형 I 오류율을 일정하게 유지하면서 유형 II 오류율이 팽창하도록합니다). 또한 Winter (2013) 도 참조하십시오 .[2]
대부분의 관측치가 최종 범주 중 하나에있는 리 커트 척도 항목과 같이 분포가 강하게 치우쳐 있고 매우 불연속 인 경우 조언을 약간 수정해야합니다. 그렇다면 Wilcoxon-Mann-Whitney가 반드시 t- 검정보다 더 나은 선택은 아닙니다.
시뮬레이션은 가능한 상황에 대한 정보가있을 때 선택을 더 안내하는 데 도움이됩니다.
나는 이것이 영원한 주제라는 것을 알고 있지만 대부분의 질문은 질문자의 특정 데이터 세트, 때로는 더 일반적인 힘에 대한 토론, 때로는 두 테스트가 일치하지 않을 경우 어떻게해야하는지에 관한 것이지만 올바른 테스트를 선택하는 절차를 원합니다. 첫번째 장소!
주요 문제는 작은 데이터 세트에서 정규성 가정을 확인하는 것이 얼마나 어려운지입니다.
이다 작은 데이터 세트에서 정상을 확인하고, 중요한 문제의 어느 정도에 어렵다, 그러나 나는 우리가 고려해야 할 중요한 또 다른 문제가 있다고 생각. 기본적인 문제는 테스트 중에서 선택하는 기초가 선택한 테스트의 속성에 부정적인 영향을 미치므로 정규성을 평가하려고한다는 것입니다.
정규성에 대한 공식적인 테스트는 전력이 낮으므로 위반이 감지되지 않을 수 있습니다. (개인적으로 나는이 목적을 위해 테스트하지 않을 것이고, 분명히 혼자가 아니지만, 클라이언트가 정규 테스트를 요구할 때이 작은 용도를 찾았습니다. 이것은 더 가중 된 인용을 환영하는 한 가지 점입니다.)
다음은 명백한 참고 문헌의 예입니다 (Fay and Proschan, 2010 ).[3]
t-와 WMW DR 사이의 선택은 정규성 테스트를 기반으로하지 않아야합니다.
그들은 분산의 평등을 테스트하지 않는 것에 대해서도 마찬가지로 분명합니다.
설상가상으로, Central Limit Theorem을 안전망으로 사용하는 것은 안전하지 않습니다. 작은 n의 경우 검정 통계량 및 t 분포의 편리한 점근 적 정규성에 의존 할 수 없습니다.
분자의 점근 적 정규성이 큰 표본에서도 t- 통계에 t- 분포가 있음을 의미하지는 않습니다. 그러나 점근 적 정규성 (예 : 분자에 대한 CLT 및 Slutsky의 정리에 따르면 조건이 모두 유지되는 경우 t- 통계가 정상적으로 보이기 시작해야한다고 제안하기 때문에)은 그다지 중요하지 않을 수 있습니다.
이에 대한 하나의 원칙적인 응답은 "안전 우선"입니다. 작은 샘플에서 정규성 가정을 확실하게 검증 할 방법이 없으므로 동등한 비모수 적 테스트를 실행하십시오.
그것은 실제로 내가 언급 한 언급 (또는 언급에 대한 언급)이 제공하는 조언입니다.
내가 보았지만 덜 편안하다고 느끼는 또 다른 접근법은 육안 검사를 수행하고, 아무것도 확인되지 않은 경우 ( "정규를 거부 할 이유가 없음",이 검사의 저전력을 무시 함) t- 검정을 진행하는 것입니다. 내 개인적인 성향은 정규성, 이론적 (예 : 변수는 여러 임의 성분의 합이며 CLT 적용)을 가정하거나 경험적 (예 : 더 큰 n을 가진 이전 연구는 변수가 정상임을 암시) 근거가 있는지 고려하는 것입니다.
특히 t- 검정이 정규 성과의 중간 편차에 대해 합리적으로 강력하다는 사실로 뒷받침 될 때 두 가지 모두 좋은 주장입니다. (그러나 "중간 편차"는 까다로운 문구라는 점을 명심해야합니다. 정상 성에서 벗어난 특정 종류의 편차는 시각적으로 매우 작은 경우에도 t- 검정의 검정력에 약간 영향을 줄 수 있습니다. 검정은 다른 것보다 약간의 편차에 덜 강합니다. 정규 성과의 작은 편차를 논의 할 때마다이 점을 명심해야합니다.)
그러나 "변수가 정상일 것"이라는 문구는주의하십시오. 정규성과 합리적으로 일치하는 것은 정규성과 동일하지 않습니다. 데이터를 볼 필요조차없이 실제 정규성을 거부 할 수 있습니다. 예를 들어, 데이터가 음수 일 수없는 경우 분포가 정상일 수 없습니다. 운 좋게도, 중요한 것은 이전 연구에서 얻을 수있는 것과 더 가깝거나 데이터가 어떻게 구성되는지에 대한 추론에 가깝습니다.
그렇다면 데이터가 육안 검사를 통과하면 t- 검정을 사용하고 그렇지 않으면 비모수에 충실합니다. 그러나 이론적 또는 경험적 근거는 일반적으로 대략적인 정규성을 가정 할 때만 정당화되며, 낮은 자유도에서는 t- 검정의 무효화를 피하기 위해 얼마나 가까운 정상인지 판단하기가 어렵습니다.
글쎄요, 그것은 우리가 (앞서 언급했듯이 시뮬레이션을 통해) 상당히 쉽게 영향을 평가할 수있는 것입니다. 내가 본 것에서, 왜도는 두꺼운 꼬리보다 더 중요한 것 같습니다 (그러나 다른 한편으로는 반대의 주장을 보았습니다.하지만 그것이 무엇을 기반으로하는지 모르겠습니다).
힘의 선택과 견고성의 절충으로 방법의 선택을 보는 사람들에게 비모수 적 방법의 점근 적 효율성에 대한 주장은 도움이되지 않습니다. 예를 들어, "Wilcoxon 테스트는 데이터가 실제로 정상인 경우 t- 검정의 검정력의 약 95 %를 가지며 데이터가 그렇지 않은 경우 훨씬 더 강력하므로 Wilcoxon을 사용하는 경우가 있습니다." 그러나 95 %가 큰 n에만 적용되는 경우 이는 더 작은 표본에 대한 잘못된 추론입니다.
그러나 소 표본 전력을 매우 쉽게 확인할 수 있습니다! 여기에서 와 같이 전력 곡선을 얻기 위해 시뮬레이션하기가 쉽습니다 .
(또한, Winter (2013) ).[2]
2- 표본 및 1- 표본 / 쌍-차이의 경우에 대해 다양한 상황에서 이러한 시뮬레이션을 수행 한 경우, 두 경우 모두에서 정규에서의 작은 표본 효율은 점근 효율보다 약간 낮은 것으로 보입니다. 서명 된 순위와 Wilcoxon-Mann-Whitney 테스트는 매우 작은 샘플 크기에서도 여전히 매우 높습니다.
적어도 동일한 실제 유의 수준에서 테스트를 수행하는 경우입니다. 아주 작은 샘플로 5 % 테스트를 수행 할 수 없으며 (예를 들어 무작위 테스트가 아닌 경우) 5.5 % 또는 3.2 % 테스트를 수행 할 준비가된다면 순위 테스트를 수행 할 수 있습니다. 그 유의 수준에서 t- 검정과 비교하여 실제로 아주 잘 견뎌냅니다.
표본이 작 으면 변환 된 데이터가 정규 분포에 속하는지 알기 어렵 기 때문에 변환이 데이터에 적합한 지 평가하기가 매우 어렵거나 불가능할 수 있습니다. 따라서 QQ 플롯에 매우 긍정적으로 치우친 데이터가 표시되면 로그를 작성한 후 더 합리적으로 보이는 것이 기록 된 데이터에 대해 t- 테스트를 사용하는 것이 안전합니까? 더 큰 샘플에서 이것은 매우 유혹적이지만, 작은 n을 사용하면 처음에는 로그 정규 분포를 기대할 근거가 없다면 아마 보류 될 것입니다.
다른 대안이 있습니다 : 다른 파라 메트릭 가정을 만드십시오. 예를 들어, 치우친 데이터가있는 경우, 예를 들어 어떤 상황에서는 감마 분포를 합리적으로 고려하거나 다른 비뚤어진 가족을 더 나은 근사치로 간주 할 수 있습니다. 중간 규모의 표본에서는 GLM을 사용하지만 매우 작은 표본 만 사용할 수 있습니다 작은 샘플 테스트를보아야 할 수도 있습니다. 많은 경우 시뮬레이션이 유용 할 수 있습니다.
대안 2 : t- 검증을 강화합니다 (그러나 결과 통계량의 분포를 크게 분리하지 않기 위해 강력한 절차의 선택에주의를 기울임)-이는 능력과 같은 매우 작은 표본의 비모수 적 절차에 비해 몇 가지 장점이 있습니다 I 형 오류율이 낮은 테스트를 고려합니다.
여기서 나는 t- 통계에서 위치의 M 추정기 (및 관련 척도 추정기)를 사용하여 정규성 편차로부터 부드럽게 견고하게하는 선을 따라 생각하고 있습니다. Welch와 비슷한 것 :
x∼−y∼S∼p
여기서 및 , 등은 각각 위치 및 규모의 강력한 추정치입니다.S∼2p=s∼2xnx+s∼2ynyx∼s∼x
통계의 불연속성 경향을 줄이는 것을 목표로합니다. 따라서 원본 데이터가 불연속 적이거나 트리밍 등으로 인해 트리밍이 악화 될 수 있으므로 트리밍 및 Winsorizing과 같은 것을 피할 것입니다. 부드러운 과 함께 M- 추정 유형 접근 방식 을 사용하면 불연속성에 영향을 미치지 않으면 서 유사한 효과를 얻을 수 있습니다. 우리는 이 실제로 매우 작은 상황 (각 샘플에서 약 3-5) 을 처리하려고 노력하고 있으므로 M 추정조차도 잠재적으로 문제가 있음 을 명심하십시오 .ψn
예를 들어, 정상에서 시뮬레이션을 사용하여 p- 값을 얻을 수 있습니다. (샘플 크기가 매우 작은 경우 오버 부트 스트랩을 제안합니다. 샘플 크기가 너무 작지 않으면 신중하게 구현 된 부트 스트랩이 상당히 잘 수행 될 수 있습니다 그러나 우리는 Wilcoxon-Mann-Whitney로 돌아갈 수도 있습니다). 합리적인 t- 근사치가 될 것이라고 상상할 수있는 스케일 조정 요소와 df 조정이 있습니다. 즉, 우리는 우리가 추구하는 특성이 법선에 매우 가까워 야하고 법선 근처에서 합리적으로 견고해야합니다. 현재 질문의 범위를 벗어나는 여러 가지 문제가 있지만, 매우 작은 샘플에서는 이점이 비용과 추가 노력보다 중요해야한다고 생각합니다.
[저는이 자료에 대한 문헌을 오랫동안 읽지 않았으므로 해당 점수에 대한 적절한 참고 자료가 없습니다.]
물론 분포가 다소 평범한 것이 아니라 다른 분포와 비슷하다고 기대한다면 다른 모수 적 검정을 적절히 강화할 수 있습니다.
비모수에 대한 가정을 확인하려면 어떻게합니까? 일부 소스는 Wilcoxon 테스트를 적용하기 전에 대칭 분포를 확인하여 정규성 검사와 유사한 문제를 유발할 것을 권장합니다.
과연. 서명 한 순위 테스트 *를 의미한다고 가정합니다. 쌍을 이룬 데이터에 사용하는 경우 두 분포가 위치 이동을 제외하고 동일한 모양이라고 가정 할 경우 차이가 대칭이므로 안전해야합니다. 실제로 우리는 그다지 필요하지 않습니다. 테스트가 작동하려면 널 아래에서 대칭이 필요합니다. 대안에서는 필요하지 않습니다 (예를 들어, 척도는 대안에서는 다르지만 널에서는 그렇지 않은 양수 반선에서 동일한 모양의 오른쪽으로 치우친 연속 분포를 가진 짝을 이룬 상황을 고려하십시오. 부호있는 순위 테스트는 기본적으로 예상대로 작동해야합니다. 그 경우). 대안이 위치 이동 인 경우 테스트 해석이 더 쉽습니다.
* (Wilcoxon의 이름은 1, 2 개의 샘플 순위 테스트 (서명 된 순위 및 순위 합계)와 연관되어 있습니다. U 테스트에서 Mann과 Whitney는 Wilcoxon이 연구 한 상황을 일반화하고 null 분포를 평가하기위한 중요한 새로운 아이디어를 도입했습니다. 보인다, 그러나 그래서 적어도 우리는 맨 & 휘트니 대 윌 콕슨을 고려한다면, 윌 콕슨 내 책에서 처음으로 간다 -. 윌 콕슨 - 맨 - 휘트니에 대한 저자의 두 세트 사이의 우선 순위는 분명히 윌 콕슨의 인 스티 글러의 법칙이 다시 한번 저를 구타하고, 윌 콕슨 아마도 그 우선 순위의 일부를 초기의 많은 기고자들과 공유해야하고 (Mann과 Whitney는 제외하고) 동등한 시험의 몇몇 발견 자와 신용을 공유해야합니다. [4] [5])
참고 문헌
[1] : Zimmerman DW 및 Zumbo BN, (1993),
비정규 인구에 대한 학생 t- 검정 및 Welch t'- 검정의 순위 변환 및 위력,
Canadian Journal Experimental Psychology, 47 : 523–39.
[2] : JCF 드 겨울 (2013),
"매우 작은 샘플 크기와 학생의 t-test를 이용하여,"
실용 평가, 연구 및 평가 , 18 : 10, 8 월, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3] : Michael P. Fay와 Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney 또는 t-test? 가설 검정 및 결정 규칙의 다중 해석에 대한 가정"
Stat Surv ; 4 : 1 ~ 39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4] : Berry, KJ, Mielke, PW 및 Johnston, JE (2012),
"2 표본 계급 검정 : 초기 개발",
확률 및 통계 기록 전자 저널 , Vol.8, 12 월
pdf
[5] : Kruskal, WH (1957),
"Wilcoxon 짝 지어지지 않은 2- 표본 검정에 대한 역사적 메모",
Journal of the American Statistical Association , 52 , 356–360.