관련 질문에 대한 답변이없는 것 같습니다. > 2 분류기 (기계 학습)의 성능을 평가합니다. 우리의 Null 가설은 성능이 다르지 않다는 것입니다. 이 가설을 평가하기 위해 모수 (ANOVA) 및 비모수 (Friedman) 검정을 수행합니다. 중요한 경우 사후 퀘스트에서 어떤 분류 기준이 다른지 알아 내고 싶습니다.
내 질문은 두 가지입니다.
1) 다중 비교 테스트 후 p- 값의 수정이 전혀 필요합니까? "Alphafehler Kumulierung"의 독일 Wikipedia 사이트는 여러 가설이 동일한 데이터에서 테스트 된 경우에만 문제가 발생한다고 말합니다. 분류기 (1,2), (1,3), (2,3)을 비교할 때 데이터는 부분적으로 만 겹칩니다. 여전히 p- 값을 수정해야합니까?
2) p- 값 보정은 종종 t- 검정과 쌍으로 테스트 한 후에 사용됩니다. Nemenyi (비모수) 또는 Tukey의 HSD 테스트와 같은 특수 사후 테스트를 수행 할 때도 필요합니까? 이 답변은 Tukey의 HSD에 대해 "아니오"라고 말합니다 . Tukey HSD 테스트는 다중 비교를 위해 수정합니까? . 규칙이 있습니까? 아니면 모든 잠재적 사후 테스트를 위해 이것을 찾아야합니까?
감사!