다중 비교에서 p- 값을 언제 수정해야합니까?


11

관련 질문에 대한 답변이없는 것 같습니다. > 2 분류기 (기계 학습)의 성능을 평가합니다. 우리의 Null 가설은 성능이 다르지 않다는 것입니다. 이 가설을 평가하기 위해 모수 (ANOVA) 및 비모수 (Friedman) 검정을 수행합니다. 중요한 경우 사후 퀘스트에서 어떤 분류 기준이 다른지 알아 내고 싶습니다.

내 질문은 두 가지입니다.

1) 다중 비교 테스트 후 p- 값의 수정이 전혀 필요합니까? "Alphafehler Kumulierung"의 독일 Wikipedia 사이트는 여러 가설이 동일한 데이터에서 테스트 된 경우에만 문제가 발생한다고 말합니다. 분류기 (1,2), (1,3), (2,3)을 비교할 때 데이터는 부분적으로 만 겹칩니다. 여전히 p- 값을 수정해야합니까?

2) p- 값 보정은 종종 t- 검정과 쌍으로 테스트 한 후에 사용됩니다. Nemenyi (비모수) 또는 Tukey의 HSD 테스트와 같은 특수 사후 테스트를 수행 할 때도 필요합니까? 이 답변은 Tukey의 HSD에 대해 "아니오"라고 말합니다 . Tukey HSD 테스트는 다중 비교를 위해 수정합니까? . 규칙이 있습니까? 아니면 모든 잠재적 사후 테스트를 위해 이것을 찾아야합니까?

감사!


ANOVA와 Friedman 테스트를 모두 수행하는 이유는 무엇 입니까?
Alexis

매개 변수 가정이 충족되지 않으면 검토 자에게 매개 변수 및 비모수 적 대안을 제공해야하는 자동화 된 테스트 프레임 워크에 관한 것입니다.
Chris

1
언급 한 옴니버스 테스트 정보 : (A) 데이터 그룹이 독립적 인 경우 ANOVA (모수) 또는 Kruskal-Wallis (비모수) 테스트를 사용해야합니다. (B) 당신의 그룹이 의존적 (예를 들어, 반복 측정)이라면 반복 측정 ANOVA (모수) 또는 Friedman (비모수) 테스트를 사용해야합니다. (Classical) ANOVA 및 Friedman 테스트가 대안으로 올바르지 않습니다.
GegznaV

답변:


10

질문 1에 대한 답변
유형 I 오류가 발생할 확률에 관심이있는 경우 다중 비교를 조정해야합니다. 은유 / 생각 실험의 간단한 조합이 도움이 될 수 있습니다.

복권 당첨을 원한다고 상상해보십시오. 이 복권은 이상하게도 0.05의 승리 확률을 제공합니다 (예 : 20 명 중 1 명). M 은이 복권의 티켓 비용으로, 단일 복권 통화에 대한 예상 수익은 M / 20입니다. 이제 낯선 사람조차도 알 수없는 이유로이 비용 M 이 당신이 원하는만큼의 복권을 가질 수 있다고 생각합니다 (또는 적어도 두 개 이상). "더 많이 플레이할수록 더 많이 이길 것"이라고 생각하면 많은 티켓을 얻을 수 있습니다. 복권 통화에 대한 귀하의 예상 수익은 더 이상 M / 20이 아니라 약간 큰 것입니다. 이제 "추첨 당첨"을 "타입 I 오류 만들기"로 바꿉니다

오류에 신경 쓰지 않고 사람들이 반복적으로 신경 쓰지 않고 젤리 빈대한 특정 만화에 주의를 기울이는 경우 계속해서 여러 비교를 조정하지 마십시오.

"가족"의 개념은 다소 모호하기 때문에 "같은 데이터"문제는 가족 단위의 오류 수정 방법 (예 : Bonferroni, Holm-Sidák 등)에서 발생합니다. 그러나 허위 발견 률 방법 (예 : Benjamini 및 Hochberg, Benjamini 및 Yeuketeli 등)은 서로 다른 추론 그룹에서 그 결과가 강력하다는 특성을 가지고 있습니다.


질문 2에 대한 답
대부분의 페어 와이즈 테스트는 수정이 필요하지만, 테스트라는 것에 스타일과 징계가 다릅니다. 예를 들어, 일부 사람들은 "Bonferroni t 테스트"( Bonferroni t 테스트)를 참조합니다 (Bonferroni는 t 테스트 나 여러 비교를위한 Bonferroni 조정을 개발하지 않았기 때문에 깔끔한 트릭 입니다). 나는 개인적으로 (1) 통계 테스트 그룹을 수행하고 내가 추론을 효과적으로 이해하기 위해 다중 비교를 조정하고 (2) 누군가가 함께 할 때 이러한 불만족을 발견합니다. 의 탄탄한 정의에 기초한 새로운 쌍별 테스트 를 통해 여러 비교를 조정할 수 있음을 알고 있습니다.α


2
종합적이고 유머러스 한 답변 (및 xkcd 참조)은 +1입니다. 특히, "Bonferroni-test"와 "Bonferroni-correction"사이에 차이가 있는지 여부에 대해서는 아직 미언의 질문을 다루었습니다. 그럼에도 불구하고 내 문제 설명 측면에서 다중 비교 문제를 설명 하시겠습니까? 나는 한 분류자가 만화에 / 청 / 녹색 / ... 젤리 빈이없는 치료 그룹과 같다는 것을 이해합니다.
Chris

@Chris 당신은 환영합니다 ... 나는 당신이 무엇을 요구하는지 잘 모르겠습니다. 여러 비교가 필요합니다. 예, 을 반환하는 페어 단위 테스트에서 FWER 또는 FDR 조정을 수행 할 수 있습니다 (일반적으로 수정하거나 거부 수준을 전체적으로 또는 순차적으로 수정). pp
Alexis

괜찮아요, 정말 고마워요! 복권 예제를 유스 케이스에 적용하는 데 시간이 더 걸릴 수 있지만 아이디어가 있습니다.
Chris

@Chris는 복권이 단지 은유라는 것을 이해합니다. FWER 또는 FDR 방법을 적용하는 데 도움이 필요하면 Wikipedia 항목을 확인하거나 여기에서 관련 질문을 검색하거나 새로운 질문을하십시오. :)
Alexis
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.