작은 샘플에서 Wilcoxon과 같은 t- 테스트 또는 비모수 테스트 중에서 선택하는 방법


96

특정 가설은 스튜던트 t- 검정 (2 샘플 경우 불균형 변동에 대한 Welch의 보정을 사용하여)을 사용하거나 Wilcoxon 대응 부호 순위 검정 인 Wilcoxon-Mann-Whitney U 검정과 같은 비모수 검정을 사용하여 검정 할 수 있습니다. 또는 쌍 부호 테스트. 우리는 어떻게 할 수 원칙 시험은 표본의 크기는 "작은"특히 경우, 가장 적합한 인에 대한 결정을?

많은 입문 교과서와 강의 노트 는 t- 테스트 또는 비모수 적 테스트 중에서 결정하기 위해 정규성이 검사 ( 권장되지 않음 – 정규성 테스트 또는 QQ 플롯 등으로 ) 되는 "흐름도"접근 방식을 제공합니다 . 쌍을 이루지 않은 2- 표본 t- 검정 의 경우 Welch의 보정을 적용할지 여부를 결정하기 위해 분산의 동질성에 대한 추가 검사가있을 수 있습니다. 이 접근법의 한 가지 문제는 적용 할 테스트 결정이 관찰 된 데이터에 따라 달라지는 방식과 이것이 선택된 테스트의 성능 (파워, 유형 I 오류율)에 어떤 영향을 미치는지입니다.

또 다른 문제는 소규모 데이터 세트에서 정규성을 확인하는 것이 얼마나 어려운지입니다. 정식 테스트는 전력이 낮기 때문에 위반이 잘 감지되지 않지만 QQ 플롯에서 데이터를 확인하는 데 유사한 문제가 적용됩니다. 예를 들어 분포가 혼합되어 있지만 혼합물의 한 성분에서 관찰이 이루어지지 않은 경우에도 심각한 위반도 감지되지 않을 수 있습니다. 큰 과 달리 중앙 한계 정리의 안전망과 검정 통계량 및 t 분포 의 점근 적 정규성에 의지 할 수 없습니다 .n

이에 대한 하나의 원칙적인 응답은 "안전 우선"입니다. 작은 표본에서 정규성 가정을 확실하게 확인할 수있는 방법이 아닌 비모수 적 방법을 고수하십시오. 다른 하나는 이론적으로 (예 : 변수는 여러 랜덤 성분의 합이고 CLT가 적용됨) 또는 경험적으로 (예 : 더 큰 가진 이전의 연구 는 변수가 정상임을 제안 ) 정규성을 가정하고 그러한 근거가 존재하는 경우에만 t- 검정을 사용하는 근거를 고려하는 것입니다. . 그러나 이것은 일반적으로 대략적인 정규성을 정당화 하고 자유도가 낮 으면 t- 검정을 무효화하지 않는 것이 얼마나 가까운 정상인지 판단하기가 어렵습니다 .n

t- 검정 또는 비모수 검정 선택에 대한 대부분의 안내서는 정규성 문제에 중점을 둡니다. 그러나 작은 샘플도 몇 가지 부수적 인 문제를 발생시킵니다.

  • ,에 "무관 샘플"또는 "비공유"t 테스트를 수행하는 경우 웰치 보정 사용 여부 ? 일부 사람들은 분산의 동등성에 대해 가설 검정을 사용하지만 여기서는 검정력이 낮습니다. 다른 사람들은 SD가 "합리적으로"가까운 지 (다양한 기준으로) 여부를 확인합니다. 모집단 분산이 같다고 믿을만한 이유가없는 한 작은 표본에 대해 항상 Welch 보정을 사용하는 것이 더 안전합니까?

  • 검정력과 견고성 간의 절충으로 방법 선택을 보는 경우 비모수 적 방법의 점근 적 효율성에 대한 주장은 도움이되지 않습니다 . 경험상 " 윌 콕슨 테스트는 데이터가 실제로 정상인 경우 t- 검정의 검정력의 약 95 %를 가지며 , 데이터가 그렇지 않으면 종종 훨씬 강력하므로 Wilcoxon을 사용하는 경우가 있습니다." 95 %가 큰 에만 적용되는 경우 이는 더 작은 표본에 대한 잘못된 추론입니다.n

  • 표본이 작 으면 변환 된 데이터가 정규 분포에 속하는지 알기 어렵 기 때문에 변환이 데이터에 적합한 지 평가하기가 매우 어렵거나 불가능할 수 있습니다. 따라서 QQ 플롯에 매우 긍정적으로 치우친 데이터가 표시되면 로그를 작성한 후 더 합리적으로 보이는 것이 기록 된 데이터에 대해 t- 테스트를 사용하는 것이 안전합니까? 더 큰 샘플에서 이것은 매우 유혹적이지만, 작은 을 사용하면 처음에는 로그 정규 분포를 기대할 근거가 없다면 아마 보류 될 것입니다.n

  • 비모수에 대한 가정을 확인하는 것은 어떻습니까? 일부 출처 는 Wilcoxon 검정을 적용하기 전에 대칭 분포검증 할 것을 권장합니다 (확률 적 지배력이 아닌 위치에 대한 검정으로 처리). 우리가 처음에 비모수 적 테스트를 적용하는 이유가 "안전 우선"이라는 진언에 대한 맹목적인 순종이라면, 작은 샘플로부터의 왜도를 평가하는 것이 어려워서 페어 사인 테스트의 저전력으로 이어질 것입니다 .

이 작은 표본 문제를 염두에두고 t 와 비모수 적 테스트 사이를 결정할 때 잘 수행 할 수있는 좋은 절차가 있습니까?

몇 가지 훌륭한 답변이 있었지만 순열 테스트와 같은 다른 순위 테스트 대안을 고려한 응답도 환영받을 것입니다.


2
"테스트 선택 방법"이 무엇인지 설명해야합니다. 입문용 텍스트는 종종 플로우 차트를 사용합니다. 쌍을 이루지 않은 데이터의 경우 : "1. 두 방법으로 두 표본이 모두 정규 분포인지 확인합니다 (3으로 이동하지 않은 경우). 2. 불일치 분산을 확인하기 위해 어떤 방법을 사용합니다. Welch의 보정은 그렇지 않은 경우 보정없이 수행합니다. 3. 데이터를 정규로 변환 해보십시오 (작업이 2로 진행되면 4로 가십시오). 4. 대신 여러 가지 가정을 확인한 후 U 테스트를 수행하십시오. " 그러나 내 Q가 설명하기를 바랍니다.
실버 피쉬

2
현상금을 설정하기위한 흥미로운 질문 (+1)과 용감한 움직임. 흥미로운 답변을 기대합니다. 그건 그렇고, 종종 내 분야에 적용되는 것은 순열 테스트입니다 (t-test 또는 Mann-Whitney-Wilcoxon 대신). 나는 그것이 가치있는 경쟁자로 간주 될 수 있다고 생각합니다. 그 외에도에서, 당신은 무엇을 지정하지 않을 당신이 "작은 샘플 크기"에 의해 의미한다.
amoeba

1
@Alexis 많은 책에서 Wilcoxon 테스트는 적어도 결과가 위치에 대한 진술로 표시되는 경우 중앙값에 대한 대칭을 가정한다고 주장합니다. 순서). 또한 일부 자료에 따르면 Wilcoxon-Mann-Whitney U는 그룹 분포가 번역에 의해서만 다르다고 가정합니다 (히스토그램 또는 경험적 CDF에 대한 시각적 확인 제안). 시그. 중앙값이 같더라도 U 검정은 모양 분포가 다르기 때문일 수 있습니다. Frank Harrell의 답변 아래 주석에서 인용 된 논문도 참조하십시오.
Silverfish

3
@Silverfish "결과가 위치에 대한 진술로 표시되는 경우"이러한 테스트는 H 에 대한 증거에 대한 진술로 가장 중요하므로 중요한 경고입니다 . 추가 분포 가정을하면 추론의 범위가 좁아 지지만 (예 : 중앙값 차이에 대한 검정) 일반적으로 검정에 필요한 것은 아닙니다. 0:P(XA>XB)=0.5
Alexis

2
"Wilcoxon의 95 % 검정력"추론이 작은 표본에 대한 "결점"에 대해 조사해 볼 가치가 있습니다. 예를 들어, 5 %가 아닌 5.5 %로 테스트를 수행하는 것이 행복하다면, 달성 할 수있는 가장 근접한 의미 수준 인 경우 전력은 종종 상당히 잘 유지되는 경향이 있습니다. 물론 데이터를 수집하기 전에 "전력 계산"단계에서 상황을 파악하고 Wilcoxon의 특성이 고려하고있는 표본 크기에 어떤 영향을 미치는지 파악할 수 있습니다.
Glen_b

답변:


67

질문 순서를 변경하겠습니다.

나는 교과서와 강의 노트가 자주 동의하지 않는 것을 발견했으며, 모범 사례로 안전하게 추천 할 수있는 선택, 특히 교과서 나 논문을 인용 할 수있는 시스템을 원합니다.

불행히도, 책 등에서이 문제에 대한 어떤 토론은 지혜를 얻었습니다. 때때로받는 지혜는 합리적이며 때로는 그렇지 않습니다 (적어도 큰 문제는 무시 될 때 작은 문제에 집중하는 경향이 있습니다). 우리는 조언을 위해 제공된 정당화를주의 깊게 검토해야합니다 (모든 정당화가 제공되는 경우).

t- 검정 또는 비모수 검정 선택에 대한 대부분의 안내서는 정규성 문제에 중점을 둡니다.

사실이지만,이 답변에서 다루는 몇 가지 이유로 인해 다소 잘못 안내됩니다.

"관련되지 않은 샘플"또는 "페어링되지 않은"t- 테스트를 수행하는 경우 Welch 보정을 사용할지 여부

이것은 (분산이 동일해야한다고 생각할 이유가없는 한 그것을 사용하는) 수많은 참조의 조언입니다. 이 답변에서 일부를 가리 킵니다.

일부 사람들은 분산의 동등성에 대해 가설 검정을 사용하지만 여기서는 검정력이 낮습니다. 일반적으로 나는 샘플 SD가 "합리적으로"가까운 지 아닌지 안다. (이는 다소 주관적이므로 더 원칙적인 방법이 있어야 함) 다시 n이 낮 으면 인구 SD가 다소 더 나을 수도 있습니다. 샘플과는 다릅니다.

모집단 분산이 같다고 믿을만한 이유가없는 한 작은 표본에 대해 항상 Welch 보정을 사용하는 것이 더 안전합니까? 그것이 조언입니다. 테스트의 속성은 가정 테스트를 기반으로 한 선택의 영향을받습니다.

이것에 대한 약간의 언급은 여기여기 에서 볼 수 있지만 , 비슷한 말이 더 많이 있습니다.

등분 산 문제는 일반 문제와 비슷한 특성을 많이 가지고 있습니다. 사람들은 테스트를 원하고, 조언은 테스트 결과에 대한 테스트 조건 선택이 두 가지 후속 테스트 결과에 부정적인 영향을 줄 수 있다고 제안합니다. (데이터에 대한 추론, 동일한 변수 등과 관련된 다른 연구의 정보를 사용하여) 적절하게 정당화 할 수는 없습니다.

그러나 차이점이 있습니다. 하나는 – 적어도 귀무 가설 하에서 검정 통계량의 분포 측면에서 (따라서 그것의 수준 강성)-비표준은 큰 표본에서 덜 중요하지 않다는 것입니다. 등분 산 가정 하에서 동일하지 않은 분산의 효과는 실제로 큰 표본 크기로 사라지지 않습니다.

표본 크기가 "작은"경우 가장 적합한 시험을 선택하기 위해 어떤 원칙적인 방법을 권장 할 수 있습니까?

가설 검정의 경우 (일부 조건에서) 중요한 것은 주로 두 가지입니다.

  • 실제 제 1 종 오류율은 무엇입니까?

  • 전력 거동은 어떻습니까?

또한 두 절차를 비교할 때 첫 번째 절차를 변경하면 두 번째 절차가 변경되므로 두 번째 절차가 변경됩니다 (즉, 동일한 실제 유의 수준에서 수행되지 않는 경우 더 높은 가 더 높은 전력).α

이 작은 샘플 문제를 염두에두고 t와 비모수 테스트 사이를 결정할 때 잘 수행 할 수있는 점검표가 있습니까?

비정규 성과 비 균등 분산의 가능성을 고려하여 몇 가지 권장 사항을 제시 할 여러 상황을 고려할 것입니다. 모든 경우에 웰치 테스트를 암시하기 위해 t 테스트를 언급하십시오.

  • n 중대형

비정규 (또는 알려지지 않은), 거의 같은 분산을 가질 수 있음 :

분포가 두꺼운 꼬리 인 경우 Mann-Whitney를 사용하는 것이 일반적으로 더 나을 것이지만, 약간 무거운 경우 t- 검정은 괜찮습니다. 가벼운 꼬리를 사용하면 t- 검정이 선호 될 수 있습니다. 순열 테스트는 좋은 옵션입니다 (경향이있는 경우 t- 통계량을 사용하여 순열 테스트를 수행 할 수도 있음). 부트 스트랩 테스트도 적합합니다.

비정규 (또는 알 수 없음), 동일하지 않은 분산 (또는 분산 관계를 알 수 없음) :

분포가 헤비 테일 인 경우 일반적으로 Mann-Whitney를 사용하는 것이 좋습니다. 분산의 불평등이 평균의 불평등에만 관련되어있는 경우, 즉 H0이 참이면 스프레드의 차이도 없어야합니다. 특히 왜도 및 확산이 평균과 관련이있는 경우 GLM이 유용한 옵션입니다. 순열 테스트는 순위 기반 테스트와 비슷한 경고를 갖는 또 다른 옵션입니다. 부트 스트랩 테스트는 여기서 가능합니다.

Zimmerman and Zumbo (1993) 는 분산이 같지 않은 경우 Wilcoxon-Mann-Whitney보다 성능이 더 우수한 등급에 대한 Welch-t-test를 제안합니다.[1]

  • n 약간 작음

비정규 성이 예상되는 경우 (위의 경고와 함께) 순위 테스트는 합리적인 기본값입니다. 모양 또는 분산에 대한 외부 정보가있는 경우 GLM을 고려할 수 있습니다. 일이 너무 멀지 않을 것으로 예상하면 t- 검정이 적합 할 수 있습니다.

  • n 매우 작다

적절한 유의 수준을 얻는 데 문제가 있기 때문에 순열 테스트 나 순위 테스트가 적합하지 않을 수 있으며 가장 작은 크기에서는 t- 검정이 최선의 선택 일 수 있습니다 (약간 강화할 가능성이 있음). 그러나 작은 샘플에 더 높은 유형 I 오류율을 사용하는 것에 대한 좋은 주장이 있습니다 (그렇지 않으면 유형 I 오류율을 일정하게 유지하면서 유형 II 오류율이 팽창하도록합니다). 또한 Winter (2013) 도 참조하십시오 .[2]

대부분의 관측치가 최종 범주 중 하나에있는 리 커트 척도 항목과 같이 분포가 강하게 치우쳐 있고 매우 불연속 인 경우 조언을 약간 수정해야합니다. 그렇다면 Wilcoxon-Mann-Whitney가 반드시 t- 검정보다 더 나은 선택은 아닙니다.

시뮬레이션은 가능한 상황에 대한 정보가있을 때 선택을 더 안내하는 데 도움이됩니다.

나는 이것이 영원한 주제라는 것을 알고 있지만 대부분의 질문은 질문자의 특정 데이터 세트, 때로는 더 일반적인 힘에 대한 토론, 때로는 두 테스트가 일치하지 않을 경우 어떻게해야하는지에 관한 것이지만 올바른 테스트를 선택하는 절차를 원합니다. 첫번째 장소!

주요 문제는 작은 데이터 세트에서 정규성 가정을 확인하는 것이 얼마나 어려운지입니다.

이다 작은 데이터 세트에서 정상을 확인하고, 중요한 문제의 어느 정도에 어렵다, 그러나 나는 우리가 고려해야 할 중요한 또 다른 문제가 있다고 생각. 기본적인 문제는 테스트 중에서 선택하는 기초가 선택한 테스트의 속성에 부정적인 영향을 미치므로 정규성을 평가하려고한다는 것입니다.

정규성에 대한 공식적인 테스트는 전력이 낮으므로 위반이 감지되지 않을 수 있습니다. (개인적으로 나는이 목적을 위해 테스트하지 않을 것이고, 분명히 혼자가 아니지만, 클라이언트가 정규 테스트를 요구할 때이 작은 용도를 찾았습니다. 이것은 더 가중 된 인용을 환영하는 한 가지 점입니다.)

다음은 명백한 참고 문헌의 예입니다 (Fay and Proschan, 2010 ).[3]

t-와 WMW DR 사이의 선택은 정규성 테스트를 기반으로하지 않아야합니다.

그들은 분산의 평등을 테스트하지 않는 것에 대해서도 마찬가지로 분명합니다.

설상가상으로, Central Limit Theorem을 안전망으로 사용하는 것은 안전하지 않습니다. 작은 n의 경우 검정 통계량 및 t 분포의 편리한 점근 적 정규성에 의존 할 수 없습니다.

분자의 점근 적 정규성이 큰 표본에서도 t- 통계에 t- 분포가 있음을 의미하지는 않습니다. 그러나 점근 적 정규성 (예 : 분자에 대한 CLT 및 Slutsky의 정리에 따르면 조건이 모두 유지되는 경우 t- 통계가 정상적으로 보이기 시작해야한다고 제안하기 때문에)은 그다지 중요하지 않을 수 있습니다.

이에 대한 하나의 원칙적인 응답은 "안전 우선"입니다. 작은 샘플에서 정규성 가정을 확실하게 검증 할 방법이 없으므로 동등한 비모수 적 테스트를 실행하십시오.

그것은 실제로 내가 언급 한 언급 (또는 언급에 대한 언급)이 제공하는 조언입니다.

내가 보았지만 덜 편안하다고 느끼는 또 다른 접근법은 육안 검사를 수행하고, 아무것도 확인되지 않은 경우 ( "정규를 거부 할 이유가 없음",이 검사의 저전력을 무시 함) t- 검정을 진행하는 것입니다. 내 개인적인 성향은 정규성, 이론적 (예 : 변수는 여러 임의 성분의 합이며 CLT 적용)을 가정하거나 경험적 (예 : 더 큰 n을 가진 이전 연구는 변수가 정상임을 암시) 근거가 있는지 고려하는 것입니다.

특히 t- 검정이 정규 성과의 중간 편차에 대해 합리적으로 강력하다는 사실로 뒷받침 될 때 두 가지 모두 좋은 주장입니다. (그러나 "중간 편차"는 까다로운 문구라는 점을 명심해야합니다. 정상 성에서 벗어난 특정 종류의 편차는 시각적으로 매우 작은 경우에도 t- 검정의 검정력에 약간 영향을 줄 수 있습니다. 검정은 다른 것보다 약간의 편차에 덜 강합니다. 정규 성과의 작은 편차를 논의 할 때마다이 점을 명심해야합니다.)

그러나 "변수가 정상일 것"이라는 문구는주의하십시오. 정규성과 합리적으로 일치하는 것은 정규성과 동일하지 않습니다. 데이터를 볼 필요조차없이 실제 정규성을 거부 할 수 있습니다. 예를 들어, 데이터가 음수 일 수없는 경우 분포가 정상일 수 없습니다. 운 좋게도, 중요한 것은 이전 연구에서 얻을 수있는 것과 더 가깝거나 데이터가 어떻게 구성되는지에 대한 추론에 가깝습니다.

그렇다면 데이터가 육안 검사를 통과하면 t- 검정을 사용하고 그렇지 않으면 비모수에 충실합니다. 그러나 이론적 또는 경험적 근거는 일반적으로 대략적인 정규성을 가정 할 때만 정당화되며, 낮은 자유도에서는 t- 검정의 무효화를 피하기 위해 얼마나 가까운 정상인지 판단하기가 어렵습니다.

글쎄요, 그것은 우리가 (앞서 언급했듯이 시뮬레이션을 통해) 상당히 쉽게 영향을 평가할 수있는 것입니다. 내가 본 것에서, 왜도는 두꺼운 꼬리보다 더 중요한 것 같습니다 (그러나 다른 한편으로는 반대의 주장을 보았습니다.하지만 그것이 무엇을 기반으로하는지 모르겠습니다).

힘의 선택과 견고성의 절충으로 방법의 선택을 보는 사람들에게 비모수 적 방법의 점근 적 효율성에 대한 주장은 도움이되지 않습니다. 예를 들어, "Wilcoxon 테스트는 데이터가 실제로 정상인 경우 t- 검정의 검정력의 약 95 %를 가지며 데이터가 그렇지 않은 경우 훨씬 더 강력하므로 Wilcoxon을 사용하는 경우가 있습니다." 그러나 95 %가 큰 n에만 적용되는 경우 이는 더 작은 표본에 대한 잘못된 추론입니다.

그러나 소 표본 전력을 매우 쉽게 확인할 수 있습니다! 여기에서 와 같이 전력 곡선을 얻기 위해 시뮬레이션하기가 쉽습니다 .
(또한, Winter (2013) ).[2]

2- 표본 및 1- 표본 / 쌍-차이의 경우에 대해 다양한 상황에서 이러한 시뮬레이션을 수행 한 경우, 두 경우 모두에서 정규에서의 작은 표본 효율은 점근 효율보다 약간 낮은 것으로 보입니다. 서명 된 순위와 Wilcoxon-Mann-Whitney 테스트는 매우 작은 샘플 크기에서도 여전히 매우 높습니다.

적어도 동일한 실제 유의 수준에서 테스트를 수행하는 경우입니다. 아주 작은 샘플로 5 % 테스트를 수행 할 수 없으며 (예를 들어 무작위 테스트가 아닌 경우) 5.5 % 또는 3.2 % 테스트를 수행 할 준비가된다면 순위 테스트를 수행 할 수 있습니다. 그 유의 수준에서 t- 검정과 비교하여 실제로 아주 잘 견뎌냅니다.

표본이 작 으면 변환 된 데이터가 정규 분포에 속하는지 알기 어렵 기 때문에 변환이 데이터에 적합한 지 평가하기가 매우 어렵거나 불가능할 수 있습니다. 따라서 QQ 플롯에 매우 긍정적으로 치우친 데이터가 표시되면 로그를 작성한 후 더 합리적으로 보이는 것이 기록 된 데이터에 대해 t- 테스트를 사용하는 것이 안전합니까? 더 큰 샘플에서 이것은 매우 유혹적이지만, 작은 n을 사용하면 처음에는 로그 정규 분포를 기대할 근거가 없다면 아마 보류 될 것입니다.

다른 대안이 있습니다 : 다른 파라 메트릭 가정을 만드십시오. 예를 들어, 치우친 데이터가있는 경우, 예를 들어 어떤 상황에서는 감마 분포를 합리적으로 고려하거나 다른 비뚤어진 가족을 더 나은 근사치로 간주 할 수 있습니다. 중간 규모의 표본에서는 GLM을 사용하지만 매우 작은 표본 만 사용할 수 있습니다 작은 샘플 테스트를보아야 할 수도 있습니다. 많은 경우 시뮬레이션이 유용 할 수 있습니다.

대안 2 : t- 검증을 강화합니다 (그러나 결과 통계량의 분포를 크게 분리하지 않기 위해 강력한 절차의 선택에주의를 기울임)-이는 능력과 같은 매우 작은 표본의 비모수 적 절차에 비해 몇 가지 장점이 있습니다 I 형 오류율이 낮은 테스트를 고려합니다.

여기서 나는 t- 통계에서 위치의 M 추정기 (및 관련 척도 추정기)를 사용하여 정규성 편차로부터 부드럽게 견고하게하는 선을 따라 생각하고 있습니다. Welch와 비슷한 것 :

xySp

여기서 및 , 등은 각각 위치 및 규모의 강력한 추정치입니다.Sp2=sx2nx+sy2nyxsx

통계의 불연속성 경향을 줄이는 것을 목표로합니다. 따라서 원본 데이터가 불연속 적이거나 트리밍 등으로 인해 트리밍이 악화 될 수 있으므로 트리밍 및 Winsorizing과 같은 것을 피할 것입니다. 부드러운 과 함께 M- 추정 유형 접근 방식 을 사용하면 불연속성에 영향을 미치지 않으면 서 유사한 효과를 얻을 수 있습니다. 우리는 이 실제로 매우 작은 상황 (각 샘플에서 약 3-5) 을 처리하려고 노력하고 있으므로 M 추정조차도 잠재적으로 문제가 있음 을 명심하십시오 .ψn

예를 들어, 정상에서 시뮬레이션을 사용하여 p- 값을 얻을 수 있습니다. (샘플 크기가 매우 작은 경우 오버 부트 스트랩을 제안합니다. 샘플 크기가 너무 작지 않으면 신중하게 구현 된 부트 스트랩이 상당히 잘 수행 될 수 있습니다 그러나 우리는 Wilcoxon-Mann-Whitney로 돌아갈 수도 있습니다). 합리적인 t- 근사치가 될 것이라고 상상할 수있는 스케일 조정 요소와 df 조정이 있습니다. 즉, 우리는 우리가 추구하는 특성이 법선에 매우 가까워 야하고 법선 근처에서 합리적으로 견고해야합니다. 현재 질문의 범위를 벗어나는 여러 가지 문제가 있지만, 매우 작은 샘플에서는 이점이 비용과 추가 노력보다 중요해야한다고 생각합니다.

[저는이 자료에 대한 문헌을 오랫동안 읽지 않았으므로 해당 점수에 대한 적절한 참고 자료가 없습니다.]

물론 분포가 다소 평범한 것이 아니라 다른 분포와 비슷하다고 기대한다면 다른 모수 적 검정을 적절히 강화할 수 있습니다.

비모수에 대한 가정을 확인하려면 어떻게합니까? 일부 소스는 Wilcoxon 테스트를 적용하기 전에 대칭 분포를 확인하여 정규성 검사와 유사한 문제를 유발할 것을 권장합니다.

과연. 서명 한 순위 테스트 *를 의미한다고 가정합니다. 쌍을 이룬 데이터에 사용하는 경우 두 분포가 위치 이동을 제외하고 동일한 모양이라고 가정 할 경우 차이가 대칭이므로 안전해야합니다. 실제로 우리는 그다지 필요하지 않습니다. 테스트가 작동하려면 널 아래에서 대칭이 필요합니다. 대안에서는 필요하지 않습니다 (예를 들어, 척도는 대안에서는 다르지만 널에서는 그렇지 않은 양수 반선에서 동일한 모양의 오른쪽으로 치우친 연속 분포를 가진 짝을 이룬 상황을 고려하십시오. 부호있는 순위 테스트는 기본적으로 예상대로 작동해야합니다. 그 경우). 대안이 위치 이동 인 경우 테스트 해석이 더 쉽습니다.

* (Wilcoxon의 이름은 1, 2 개의 샘플 순위 테스트 (서명 된 순위 및 순위 합계)와 연관되어 있습니다. U 테스트에서 Mann과 Whitney는 Wilcoxon이 연구 한 상황을 일반화하고 null 분포를 평가하기위한 중요한 새로운 아이디어를 도입했습니다. 보인다, 그러나 그래서 적어도 우리는 맨 & 휘트니 대 윌 콕슨을 고려한다면, 윌 콕슨 내 책에서 처음으로 간다 -. 윌 콕슨 - 맨 - 휘트니에 대한 저자의 두 세트 사이의 우선 순위는 분명히 윌 콕슨의 인 스티 글러의 법칙이 다시 한번 저를 구타하고, 윌 콕슨 아마도 그 우선 순위의 일부를 초기의 많은 기고자들과 공유해야하고 (Mann과 Whitney는 제외하고) 동등한 시험의 몇몇 발견 자와 신용을 공유해야합니다. [4] [5])

참고 문헌

[1] : Zimmerman DW 및 Zumbo BN, (1993),
비정규 인구에 대한 학생 t- 검정 및 Welch t'- 검정의 순위 변환 및 위력,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2] : JCF 드 겨울 (2013),
"매우 작은 샘플 크기와 학생의 t-test를 이용하여,"
실용 평가, 연구 및 평가 , 18 : 10, 8 월, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3] : Michael P. Fay와 Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney 또는 t-test? 가설 검정 및 결정 규칙의 다중 해석에 대한 가정"
Stat Surv ; 4 : 1 ~ 39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4] : Berry, KJ, Mielke, PW 및 Johnston, JE (2012),
"2 표본 계급 검정 : 초기 개발",
확률 및 통계 기록 전자 저널 , Vol.8, 12 월
pdf

[5] : Kruskal, WH (1957),
"Wilcoxon 짝 지어지지 않은 2- 표본 검정에 대한 역사적 메모",
Journal of the American Statistical Association , 52 , 356–360.


설명하고 싶은 몇 가지 사항. 예를 들어 "분포가 헤비 테일 인 경우 ..."(또는 기울어 짐 등)라고 언급하는 몇 가지 사항이 있습니다. 아마도 "분포가 헤비 테일이라고 가정하는 것이 합리적이라면"(이론에서) / 이전 연구 / 무엇이든) "샘플이 두꺼운 꼬리"인 경우가 아니라면 다단계 테스트를 다시 수행하여 피하려고하는 것입니까? (이 주제의 중심 이슈는 샘플을 너무 많이 읽지 않고 분포에 대한 믿음이나 가정을 정당화하는 방법 인 것 같습니다.)
Silverfish

예, "인구는 꼬리가 두꺼운 것으로 알려져 있거나, 꼬리가 두꺼운 것으로 예상 될 수 있음"으로 이해해야합니다. 그것은 확실히 이론 (또는 아주의 상태에 도달하지 않은 상황에 대해 때로는 일반적인 추론과 같은 것들을 포함 이론 ), 전문 지식, 선행 연구를. 꼬리가 두꺼운 테스트는 제안하지 않습니다. 그것이 단순히 알려지지 않은 상황에서, 당신이 가진 특정 상황에 그럴듯 할 수있는 다양한 분포 하에서 나쁜 것들이 얼마나 나쁜지 조사해 볼 가치가 있습니다.
Glen_b

이 우수한 답변이 t- 검정을 "견고하게"할 수있는 옵션에 대해 좀 더 자세히 설명 할 가능성이 있습니까?
Silverfish

Silverfish-강화에 대한 세부 사항을 요청하는 귀하의 질문을 충분히 해결했는지 확실하지 않습니다. 이제 조금 더 추가하겠습니다.
Glen_b

추가해 주셔서 감사합니다.이 답변의 품질에 많은 도움이되었다고 생각했습니다. 이제이 질문은 약간 해결되었고 좋은 답변을 얻었습니다. 원래 질문에 좋은 사본 편집을 제공하고 오해의 소지가있는 것을 제거하고 싶습니다 (과거를 읽지 않은 독자의 이익을 위해) 질문!). 답변을 적절히 수정하여 따옴표가 재구성 된 질문과 일치하도록 하시겠습니까?
Silverfish

22

필자의 관점에서, 원칙적 접근법은 (1) 정규성에 대한 테스트 및 그래픽 평가가 감도가 불충분하고 그래프 해석이 종종 객관적이지 않다는 점, (2) 다단계 절차가 불확실한 작동 특성, (3) 많은 비모수 적 테스트가 우수한 작동 특성을 가짐을 인식 모수 검정이 최적의 검정력을 갖는 상황에서 (4) 의 적절한 변환은 일반적으로 항등 함수가 아니며 비모수k t PYk-표본 검정은 선택한 변환에 영향을 미치지 않습니다 (Wilcoxon 부호있는 순위 검정과 같은 1 표본 검정에는 해당되지 않음). (2)와 관련하여, FDA와 같은 감독 기관이 결과의 가능한 조작에 대해 정당하게 우려하는 약물 개발과 같은 분야에서 다단계 절차가 특히 문제가된다. 예를 들어, 파렴치한 연구원은 결과 값 이 낮 으면 정규성 검정을보고하는 것을 잊어 버릴 수 있습니다 .tP

이 모든 것을 종합하면 몇 가지 제안 된 지침은 다음과 같습니다.

  1. 데이터를 검사하기 전에 가우스 분포를 가정해야 할 이유가없고 공변량 조정이 필요하지 않은 경우 비모수 검정을 사용하십시오.
  2. 공변량 조정이 필요한 경우 선호하는 순위 테스트의 반모 수 회귀 일반화를 사용하십시오. Wilcoxon 검정의 경우 이것은 비례 승산 모델이고 정규 점수 검정의 경우 프로 빗 서수 회귀입니다.

이 권장 사항은 상당히 일반적이지만, 작은 샘플 크기에 따라 마일리지가 다를 수 있습니다. 그러나 더 큰 표본의 경우 (2 표본의 경우 동일한 분산이 유지되는 경우)에 비해 Wilcoxon 2- 표본 검정 및 부호있는 순위 검정의 상대 효율 은 이고 가우스 분포가 유지되지 않는 경우 순위 테스트의 상대 효율은 종종 1.0보다 훨씬 큽니다. 나에게, 순위 테스트를 사용할 때의 정보 손실은 가능한 이득, 견고성 및 변환을 지정할 필요가없는 것에 비해 매우 작습니다 .3t Y3πY

비모수 적 테스트는 최적의 가정이 충족되지 않더라도 잘 수행 될 수 있습니다. 를 들어 -sample 문제, 순위 테스트는 특정 그룹의 유통에 대한 어떠한 가정도하지 않습니다; 검정이 최적이어야하는 경우 그룹 의 분포 가 서로 어떻게 연결되어 있는지 가정합니다 . A에 대한 링크 누적 확률 서수 모델 분포는 비례 위험에있는 것으로 가정된다. 로짓 링크 누적 확률 모델 (비례 확률 모델)의 경우, 분포는 비례 확률 가정에 의해 연결되는 것으로 가정됩니다. 즉, 누적 분포 함수의로 짓은 평행합니다. 분포 중 하나의 모양은 관련이 없습니다. 자세한 내용은k 로그 로그kkloglog유인물 15 장에있는 http://biostat.mc.vanderbilt.edu/CourseBios330 .

자주 고려되는 잦은 통계적 방법에는 두 가지 유형의 가정이 있습니다. 첫 번째는 방법이 유형 I 오류를 유지하는 데 필요한 가정입니다. 두 번째는 II 형 오류 보존 (최적 성, 감도)과 관련이 있습니다. 나는 두 번째에 필요한 가정을 드러내는 가장 좋은 방법은 위에서 설명한 것처럼 비모수 적 테스트를 반모 수적 모델에 포함시키는 것입니다. 이 둘 사이의 실제 연결은 semiparametric 모델에서 발생하는 Rao 효율적인 점수 테스트에서 나온 것입니다. 두 표본 사례에 대한 비례 승산 모델의 점수 검정 분자는 정확히 순위 합계 통계입니다.


1
덕분에 나는이 답변의 철학에 매우 동정적입니다. 예를 들어 많은 출처는 테스트를 결정하기 전에 최소한 안구 검사 데이터가 정상인지 확인해야한다고 제안합니다. 그러나 이런 종류의 다단계 절차는 미묘하지만 명확하게 테스트 작동 방식에 영향을줍니다.
Silverfish

1
(1) 가우시안 분포 를 우선 순위 (예 : 이전 연구) 로 가정 할만한 충분한 이유가 있다고 가정 하여 t- 검정을 선호 한다고 가정합니다 . 작은 경우 정규성을 평가하려는 시도가 없습니다. 위반을 감지 할 방법이 없습니다. 그러나 정도 인 경우, 예를 들어 심한 비뚤어 짐이있는 경우 QQ 플롯이 잘 나타날 수 있습니다. 다단계 절차를 피한다는 철학은 정상 가정을 정당화하고 데이터의 명백한 분포를 확인하지 않고 진행해야한다는 의미입니까? 마찬가지로 k 샘플 사례에서 기본적으로 불균형을 확인하려고하지 않고 분산을 가정해야합니까? n = 15nn=15
Silverfish

3
(+1) Mann-Whitney-Wilcoxon vs. 순열 테스트에 대해 어떤 점이 궁금합니다 (그룹 레이블이 회 섞여 값이 다음 과 같이 직접 계산 될 때 Monte Carlo 순열 테스트를 참조합니다. 그룹 차이가 큰 셔플 수)? p10000p
amoeba

4
순열 테스트는 유형 I 오류를 제어하는 ​​방법이지만 유형 II 오류는 다루지 않습니다. 차선의 통계 (예를 들어, 데이터가 로그-가우시안 분포에서 온 경우 일반 평균 및 분산)를 기반으로하는 순열 검정은 검정력 측면에서 어려움을 겪습니다.
Frank Harrell

3
그렇습니다. 유인물 15 장은 다음 달에 발행 될 책의 두 번째 판에서 새로운 장으로 확장되었습니다.
Frank Harrell

13

Rand Wilcox는 그의 출판물과 서적에서 매우 중요한 점을 지적했으며, 그 중 많은 부분이 Frank Harrell과 Glen_b에 의해 이전 게시물에 실 렸습니다.

  1. 평균은 우리가 추론하고자하는 수량 일 필요는 없습니다. 전형적인 관찰 을 더 잘 나타내는 다른 양이있을 수 있습니다 .
  2. t- 검정의 경우 정규성에서 약간 벗어나도 전력이 낮을 수 있습니다.
  3. t- 검정의 경우 관측 된 확률 범위는 명목과 실질적으로 다를 수 있습니다.

몇 가지 주요 제안 사항은 다음과 같습니다.

  1. 강력한 대안은 t- 검정을 사용하여 잘린 평균 또는 M 추정량을 비교하는 것입니다. Wilcox는 20 % 정리 된 수단을 제안합니다.
  2. 경험적 우도 방법은 이론적으로 더 유리 하지만 ( Owen, 2001 ) 반드시 중간에서 작은 n에 대해서는 그렇지 않다.
  3. 유형 I 오류를 제어해야하지만 CI를 얻을 수없는 경우 순열 테스트는 훌륭합니다.
  4. 많은 상황에서 Wilcox는 잘린 평균을 비교하기 위해 부트 스트랩 -t를 제안합니다. R에서는 WRS 패키지 의 yuenbt , yhbt 함수에서 구현 됩니다.
  5. 트리밍 양이> / = 20 % 인 경우 백분위 부트 스트랩이 백분위 수 t보다 우수 할 수 있습니다. R에서 이것은 전술 한 WRS 패키지 의 함수 pb2gen 에서 구현된다 .

좋은 참고 자료는 Wilcox ( 2010 )와 Wilcox ( 2012 )입니다.


8

브래들리는 자신의 Distribution-Free Statistical Tests (1968, pp. 17–24) 에서 "고전적"과 "배포가없는"테스트 사이에 13 개의 대조를 가져온다. Bradley 는 "비모수 적 (non-parametric)"과 "배포가없는 (distribution-free)"을 구별하지만 질문의 목적 상이 차이는 관련이 없습니다. 그 열세 개에는 테스트의 파생물뿐만 아니라 응용 분야와 관련된 요소가 포함됩니다. 여기에는 다음이 포함됩니다.

  • 유의성 수준의 선택 : 고전 시험은 지속적으로 유의성 수준이 있습니다. 분포없는 검정은 일반적으로 유의 수준에 대한 개별 관찰을 가지므로 고전적인 검정은 상기 수준을 설정하는 데 더 많은 유연성을 제공합니다.
  • 기각 영역의 논리적 유효성 : 분포가없는 테스트 기각 영역은 직관적으로 이해하기 어렵고 (반드시 매끄 럽거나 연속적이지 않음) 귀무 가설을 기각 한 것으로 간주해야하는시기와 관련하여 혼동을 일으킬 수 있습니다.
  • 테스트 할 수있는 통계 유형 : Bradley를 직접 인용하려면 : " 관측 크기에 따라 산술 연산으로 정의 된 통계는 고전적인 기법으로 테스트 할 수 있지만 순서 관계 (순위) 또는 범주 주파수 등으로 정의 된 통계는 다음과 같이 테스트 할 수 있습니다. 분포가없는 방법. 수단과 차이는 후자의 이전의 예와 중앙값과 분위 범위이다. "특히 비 - 정규 분포를 처리 할 때, 다른 통계를 테스트 할 수있는 능력은 분배 무료 시험 중량 대출 유용한진다 .
  • 고차 상호 작용의 테스트 가능성 : 배포없는 테스트보다 기존 테스트에서 훨씬 더 쉽습니다.
  • 표본 크기의 영향 :이것은 제 생각에는 다소 중요합니다. 표본 크기가 작을 때 (Bradley는 약 n = 10이라고 말함), 고전적인 시험의 기초가되는 모수 가정이 위반되었는지 여부를 결정하기가 매우 어려울 수 있습니다. 분포없는 테스트에는 이러한 가정을 위반하지 않습니다. 더욱이 가정을 위반하지 않더라도 분포없는 테스트는 종종 적용하기 쉽고 테스트의 효율성이 높습니다. 따라서 작은 표본 크기 (10 미만, 최대 30 가능)의 경우 Bradley는 거의 일상적인 무 배포 테스트 적용을 선호합니다. 큰 표본 크기의 경우 중앙 한계 정리는 표본 평균 및 표본 분산이 정규화되는 경향이 있고 매개 변수 검정이 효율성 측면에서 우수 할 수 있다는 점에서 매개 변수 위반을 압도하는 경향이 있습니다.
  • 적용 범위 : 분포가 없기 때문에 이러한 분포는 특정 분포를 가정 한 기존의 시험보다 훨씬 더 많은 집단에 적용 할 수 있습니다.
  • 연속 분포 가정 위반의 탐지 가능성 : 분포없는 테스트 (예 : 묶인 점수의 존재)에서 쉽게 볼 수 있으며 모수 테스트에서는 더 어렵습니다.
  • 연속 분포 가정 위반의 영향 : 가정이 위반되면 검정이 정확하지 않게됩니다. 브래들리는 분포가없는 테스트에 대해 부정확 한 범위를 어떻게 평가할 수 있는지 설명하는 데 시간을 소비하지만 고전적인 테스트에는 유사한 루틴이 없습니다.

1
인용 감사합니다! Bradley의 연구는 상당히 오래된 것처럼 보이므로 다양한 시나리오에서 효율성과 유형 I / II 오류율을 비교하기위한 현대 시뮬레이션 연구에 대한 연구가 많지 않다고 생각하십니까? 또한 Brunner-Munzel 검정에 대해 제안한 것에 관심이 있습니다. 두 그룹의 분산이 같지 않은 경우 U 검정 대신 사용해야합니까?
Silverfish

1
Bradley는 효율성에 대해 논의하지만, 대부분은 점근 적 상대적 효율성과 관련이 있습니다. 그는 때때로 한정된 표본 크기 효율성에 대한 진술을위한 자료를 제공하지만, 1968 년부터 진행된 이래로 훨씬 더 나은 분석이 이루어 졌다고 확신합니다. 말하자면, Brunner와 Munzel은 2000 년에 자신의 기사를 썼는데 , 이는 왜 Bradley에 언급이 없는지 설명합니다.
Avraham

그렇습니다 그것은 실제로 그것을 설명 할 것입니다! :) Bradley보다 최신 설문 조사가 있는지 알고 있습니까?
Silverfish

간단한 검색을 통해 비모수 통계에 대한 최근 텍스트가 많이 있음을 알 수 있습니다. 예를 들면 : 비모수 통계적 방법 (Hollander et al, 2013), 비모수 적 가설 검정 : R의 응용 프로그램을 사용한 순위 및 치환 방법 (Bonnini et al, 2014), 비모수 통계적 추론, 5 판 (Gibbons and Chakraborti, 2010). 다양한 검색에서 나타나는 다른 많은 것들이 있습니다. 내가 없어서 추천 할 수 없습니다. 죄송합니다.
Avraham

5

이 흥미로운 질문에 대답하기 시작했습니다.

페어링되지 않은 데이터의 경우 :

Morten W. Fagerland, Leiv Sandvik (페이 월 뒤)에 의해 불균일 한 분산을 갖는 비대칭 분포에 대한 5 개의 2- 표본 위치 테스트 수행 5 가지 테스트 (t-test, Welch U, Yuen-Welch, Wilcoxon-Mann)로 일련의 실험을 수행합니다. -Whitney and Brunner-Munzel) : 샘플 크기, 샘플 비율, 정규성 등의 다양한 조합 논문은 결국 Welch U를 제안합니다.

그러나 논문의 부록 A에는 각 샘플 크기 조합에 대한 결과가 나와 있습니다. 그리고 작은 샘플 크기에 (m은 = 10 N = 10 또는 25) 결과 (예상대로) 더 혼란 -에 결과 (안 저자) 웰치 U의 추정, 브루너 - Munzel은 동일하게 수행하는 것, 그리고 m = 10 및 n = 10의 경우에도 t- 검정이 양호하다.

이것이 내가 지금까지 알고있는 것입니다.

"빠른"솔루션을 위해, 나는 연구 결과에 대한 통계의 영향에 대한 의사의 인식 증가 를 인용 하는 데 사용했다 : Patrick D Bridge와 Shlomo S Sawilowsky의 작은 샘플 적용 연구에서 t- 검정과 Wilcoxon Rank-Sum 검정의 비교 력 표본 크기에 상관없이 Wilcoxon으로 바로 이동하지만 emptor를주의 하십시오. 예를 들어 두 개의 비정규 분포를 비교할 때 항상 비모수 검정을 선택해야합니까? Eva Skovlund와 Grete U. Fensta .

페어링 된 데이터에 대한 유사한 결과를 아직 찾지 못했습니다


인용문에 감사합니다! 설명을 위해 "Welch U"를 지칭하며, "Welch t"또는 "Welch-Aspin t"라고도하는 동일한 테스트 또는 (문제에 부적합한 것으로 생각되는 경우) "Welch 보정으로 테스트하지 않음" ?
Silverfish

논문에서 알 수 있듯이 Welch U는 일반적인 Welch-Aspin이 아니며 자유도에 Welch–Satterthwaite 방정식을 사용하지 않고 큐브와 표본의 제곱의 차이가있는 공식을 사용합니다. 크기.
Jacques Wainer

이름에도 불구하고 여전히 t- 테스트입니까? 다른 곳에서 "Welch U"를 검색하면 실망스러운 Welch-Aspin을 참조하는 것으로 보입니다.
Silverfish


1

감마 모집단의 평균 차이 시뮬레이션

T- 테스트와 Mann Whitney 테스트 비교

결과 요약

  • 두 모집단의 분산이 동일한 경우 Mann Whitney 검정은 t 검정보다 실제 검정력은 크지 만 유형 1 오차는 더 큽니다.
  • H0
  • 두 모집단의 분산이 다른 경우 Mann Whitney 검정은 평균이 같더라도 큰 유형 1 오류를 유발합니다. Mann Whitney는 평균이 아닌 분포의 차이를 검정하기 때문에 예상됩니다.
  • t 검정은 분산의 차이에 강하지 만 동일한 평균

실험 1) 다른 평균, 동일한 분산

k (모양) 및 스케일 사용하여 매개 변수화 된 2 개의 감마 분포를 고려하십시오.θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

출처 :

인구 분포

여기에 이미지 설명을 입력하십시오

시뮬레이션 결과

여기에 이미지 설명을 입력하십시오

토론

  • N=10
  • 모든 표본 크기에서 Mann Whitney 검정은 t- 검정보다 많은 검정력을 가지며 경우에 따라 2 배
  • 모든 표본 크기에 대해 Mann Whitney 검정의 유형 I 오류는 2 배에서 3 배까지입니다.
  • t- 검정은 작은 표본 크기에 대해 전력이 낮습니다.

토론 : 두 모집단의 분산이 실제로 동일 할 때, Mann Whitney 검정은 작은 표본 크기에 대한 검정력 측면에서 t 검정보다 성능이 우수하지만 유형 1 오류율이 높습니다.


실험 2 : 다른 분산, 같은 평균

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

토의 시뮬레이션 결과는 t- 검정이 다른 분산에 대해 매우 강력하고 모든 표본 크기에서 제 1 종 오류가 5 %에 ​​가깝다는 것을 보여줍니다. 예상대로 Mann Whitney 검정은 평균의 차이가 아니라 분포 의 차이를 검정하기 때문에 성능이 좋지 않습니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.