Friedman 테스트 후 Nemenyi 사후 테스트를 올바르게 적용하는 방법


11

여러 데이터 세트에서 여러 알고리즘의 성능을 비교하고 있습니다. 이러한 성능 측정이 정규 분포를 보장하지는 않기 때문에 Demšar (2006)를 기반으로 Nemenyi 사후 테스트를 통해 Friedman Test를 선택했습니다 .

그런 다음 후속 Shaffer post-hoc 테스트로 Quade 테스트와 같은 다른 방법을 제안하는 것 외에도 Nemenyi 테스트를 다르게 적용하는 다른 논문을 발견했습니다.

Nemenyi 사후 테스트를 올바르게 적용하려면 어떻게합니까?

1. Studentized range 통계를 사용합니까?

Demšar의 논문에서 평균 순위 차이가 임계 거리 CD보다 크면 귀무 가설 (두 알고리즘의 성능 차이는 없음)을 거부한다고합니다.

CD=qαk(k+1)6N

"임계 값 qα는 학생 범위 통계를 나눈 값을 기준으로합니다 "2.

약간의 파기 후에 나는 당신에게 그 "임계 값"이 특정 알파에 대해, 예를 들어 의 테이블에서α=0.05 , 무한한 자유도 (각 테이블의 맨 아래)에 대해 조회 될 수 있음을 발견했습니다 .

또는 정규 분포를 사용합니까?

내가해야 할 일을 알고 있다고 생각했을 때, 나는 정규 분포 만 사용했기 때문에 나를 혼란스럽게하는 또 다른 논문을 발견했습니다. Demšar는 12 페이지에서 비슷한 내용을 언급하고 있습니다.

이러한 방법을 사용하여 i 번째 및 j 번째 를 비교하기위한 테스트 통계는 z 값은 정규 분포표에서 해당 확률을 찾은 다음 적절한 와 비교하는 데 사용됩니다 . 테스트는 다중 비교를 보상하기 위해 값을 조정하는 방식이 다릅니다 .

z=(RiRj)k(k+1)6N
αα

이 단락에서 그는 모든 알고리즘을 제어 알고리즘과 비교하는 것에 대해 이야기했지만 "다중 비교를 보상하기 위해 조정하는 방식이 다릅니다"라는 말은 이것이 Nemenyi 테스트에도 적용되어야 함을 시사합니다.

따라서 나에게 논리적으로 보이는 것은 일반적으로 분포 된 검정 통계량 에 따라 p- 값 을 계산하고 로 나눠서 수정하는 것 입니다.zk(k1)/2

그러나, 귀무 가설을 기각하는 순위 차이가 완전히 다릅니다. 그리고 지금 나는 붙어 있고 어떤 방법을 적용 해야할지 모르겠습니다. 나는 더 간단하고 논리적이기 때문에 정규 분포를 사용하는 것에 강하게 기대하고 있습니다. 또한 테이블에서 값을 찾을 필요가 없으며 특정 유의성 값에 바인딩되어 있지 않습니다.

그런 다음 다시 학생 범위 통계를 사용한 적이 없으며 이해하지 못합니다.

답변:


5

나는 또한이 질문을보기 시작했다.

앞에서 언급했듯이 정규 분포를 사용하여 각 테스트에 대한 p- 값을 계산할 때 이러한 p- 값은 여러 테스트를 고려하지 않습니다. 이를 수정하고 가족 별 오류율을 제어하려면 몇 가지 조정이 필요합니다. Bonferonni, 즉 유의 수준을 나누거나 원시 p- 값에 검정 횟수를 곱하는 것은 하나의 가능한 수정입니다. 많은 경우에 덜 보수적 인 다른 여러 테스트 p- 값 수정이 많이 있습니다.

이러한 p- 값 수정은 가설 검정의 특정 구조를 고려하지 않습니다.

Kruskal-Wallis 또는 Friedman 테스트에서와 같이 순위 변환 된 데이터 대신 원본 데이터의 쌍별 비교에 더 익숙합니다. Tukey HSD 검정 인 경우, 다중 비교에 대한 검정 통계량은 독립적 인 표본을 가정하여 모든 쌍별 비교에 대한 분포 인 학생 화 된 범위 분포에 따라 분포됩니다. 그것은 수 적분에 의해 계산 될 수 있지만 일반적으로 테이블에서 사용되는 다변량 정규 분포의 확률을 기반으로합니다.

이론을 알지 못하기 때문에 Tukey HSD 쌍별 비교와 비슷한 방식으로 순위 테스트의 경우 학생 범위 분포를 적용 할 수 있다고 생각합니다.

따라서 (2) 정규 분포와 다중 테스트 p- 값 수정 및 (1) 학생 범위 분포를 사용하는 것은 테스트 통계의 근사 분포를 얻는 두 가지 방법입니다. 그러나 학생 화 된 범위 분포의 사용에 대한 가정이 충족되면 모든 쌍별 비교의 특정 문제에 맞게 설계되었으므로 더 나은 근사치를 제공해야합니다.


1

내가 아는 한, 2 개의 알고리즘 만 비교할 때 Demšar는 Friedman + posthoc보다는 Wilcoxon signed rank test를 제안합니다. 슬프게도, demšar가 k-1로 나누는 것이 무엇을 의미하는지 해독 할 때 당신과 마찬가지로 혼란 스럽습니다.


1
(k-1)으로 나누는 것은 여러 알고리즘을 제어 방법과 비교할 때입니다. 그러나 이것은 각각 대 NxN입니다. 나누는 부분은 이해할 수 있지만 Studentized range distribution과의 관계는 이해하기 어렵습니다.
Sentry

@ 센트리 : 여기서는 곱하기가 아니라 조정 계수를 곱해야합니다. 위의 답변을 참조하십시오.
Chris

0

또한 정규 t 분포 또는 스튜던트 t- 분포에서 p- 값을 계산할지에 대한 질문을 우연히 발견했습니다. 불행히도, 나는 다른 논문들이 다른 방법을 전달하기 때문에 여전히 대답 할 수 없습니다.

그럼에도 불구하고 조정 된 p- 값을 계산하려면 수정되지 않은 p- 값에 조정 계수를 곱해야합니다 (예 : 하나의 제어 방법과 비교하는 경우 p * (k-1) 또는 p * ((k * (k-1) )) / 2) nxn 비교.

조정 계수로 나눠야하는 것은 조정되지 않은 p와 비교할 경우 알파 값입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.