프리드먼 테스트 vs 윌 콕슨 테스트


11

감독되는 기계 학습 분류 알고리즘의 성능을 평가하려고합니다. 관찰은 99 명의 피험자 집단으로부터 도출 된 명목 클래스 (당분간 2 개, 그러나이를 멀티 클래스 문제로 일반화하고 싶습니다)로 분류됩니다.

내가 대답 할 수있는 질문 중 하나는 알고리즘이 입력 클래스 간의 분류 정확도에 큰 차이가있는 경우입니다. 이진 분류 사례의 경우 (기본 분포가 비정규이기 때문에) 페어링 된 Wilcoxon 테스트를 사용하여 과목 간의 클래스 간의 평균 정확도를 비교하고 있습니다 . 이 절차를 멀티 클래스 문제로 일반화하기 위해 Friedman 테스트 를 사용했습니다 .

그러나, 이진 IV의 경우에 이들 두 절차에 의해 수득 된 p 값은 윌 콕슨 (Wilcoxon) 시험이 산출 p < .001되는 반면 p = .25프리드먼 (Friedman) 시험의 경우에는 크게 변한다 . 이것은 내가 Friedman 테스트의 구조에 대한 근본적인 오해가 있다고 믿게한다.

그것은되어 모든 주제에서 정확도의 반복 측정의 결과를 비교하기 위해이 경우에는 프리드먼 테스트를 사용하는 것이 적절하지?

그 결과를 얻는 내 R 코드 ( subject주체 식별자, acc정확성 DV 및 expected관찰 클래스 IV) :

> head(subject.accuracy, n=10)
   subject expected        acc
1       10     none 0.97826087
2       10     high 0.55319149
3      101     none 1.00000000
4      101     high 0.68085106
5      103     none 0.97826087
6      103     high 1.00000000
7      104     none 1.00000000
8      104     high 0.08510638
9      105     none 0.95121951
10     105     high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
  expected  mean.acc     se.acc
1     none 0.9750619 0.00317064
2     high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)

    Wilcoxon signed rank test with continuity correction

data:  acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0

> friedman.test(acc ~ expected | subject, subject.accuracy)

    Friedman rank sum test

data:  acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254

wilcox.test페어링 변수를 알려주지 않기 때문에 두 조건에서 정확도를 비교하는 부호있는 순위 테스트 를 수행 한다고 확신 하지 않습니다. 최소한 이것은 입력 데이터의 행 순서에 의존하기 때문에 테스트를 실행하는 안전하지 않은 방법입니다.
Aniko

답변:


11

Friedman 테스트는 Wilcoxon 테스트의 확장이 아니므로 관련 샘플이 2 개인 경우 Wilcoxon 부호가있는 순위 테스트 와 동일하지 않습니다 . 후자 는 사례 내에서 차이의 크기 를 설명 하고 (그리고 사례 별로 순위를 매기는 반면) Friedman 사례 내 에서만 순위를 매기 며 (사례를 가로 지르지 않음) 덜 민감합니다.

Friedman은 실제로 거의 부호 테스트 의 확장입니다 . 2 개의 샘플에서 p- 값은 매우 가깝고 Friedman은 약간 더 보수적입니다 (이 두 테스트는 약간 다른 방식으로 관계를 처리합니다). 이 작은 차이는 샘플 크기가 커짐에 따라 빠르게 사라집니다. 따라서 두 개의 관련 샘플에 대해이 두 테스트는 실제로 다른 대안입니다.

프리드먼은 서명과 같은 의미에서 - - 윌 콕슨에 해당 시험은 잘 알려져 있지 않다 QUADE의 여기 예를 들어 언급 한 테스트 : http://www.itl.nist.gov/div898/software/dataplot/refman1/ auxillar / friedman.htm .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.