감독되는 기계 학습 분류 알고리즘의 성능을 평가하려고합니다. 관찰은 99 명의 피험자 집단으로부터 도출 된 명목 클래스 (당분간 2 개, 그러나이를 멀티 클래스 문제로 일반화하고 싶습니다)로 분류됩니다.
내가 대답 할 수있는 질문 중 하나는 알고리즘이 입력 클래스 간의 분류 정확도에 큰 차이가있는 경우입니다. 이진 분류 사례의 경우 (기본 분포가 비정규이기 때문에) 페어링 된 Wilcoxon 테스트를 사용하여 과목 간의 클래스 간의 평균 정확도를 비교하고 있습니다 . 이 절차를 멀티 클래스 문제로 일반화하기 위해 Friedman 테스트 를 사용했습니다 .
그러나, 이진 IV의 경우에 이들 두 절차에 의해 수득 된 p 값은 윌 콕슨 (Wilcoxon) 시험이 산출 p < .001
되는 반면 p = .25
프리드먼 (Friedman) 시험의 경우에는 크게 변한다 . 이것은 내가 Friedman 테스트의 구조에 대한 근본적인 오해가 있다고 믿게한다.
그것은되어 모든 주제에서 정확도의 반복 측정의 결과를 비교하기 위해이 경우에는 프리드먼 테스트를 사용하는 것이 적절하지?
그 결과를 얻는 내 R 코드 ( subject
주체 식별자, acc
정확성 DV 및 expected
관찰 클래스 IV) :
> head(subject.accuracy, n=10)
subject expected acc
1 10 none 0.97826087
2 10 high 0.55319149
3 101 none 1.00000000
4 101 high 0.68085106
5 103 none 0.97826087
6 103 high 1.00000000
7 104 none 1.00000000
8 104 high 0.08510638
9 105 none 0.95121951
10 105 high 1.00000000
> ddply(subject.accuracy, .(expected), summarise, mean.acc = mean(acc), se.acc = sd(acc)/sqrt(length(acc)))
expected mean.acc se.acc
1 none 0.9750619 0.00317064
2 high 0.7571259 0.03491149
> wilcox.test(acc ~ expected, subject.accuracy, paired=T)
Wilcoxon signed rank test with continuity correction
data: acc by expected
V = 3125.5, p-value = 0.0003101
alternative hypothesis: true location shift is not equal to 0
> friedman.test(acc ~ expected | subject, subject.accuracy)
Friedman rank sum test
data: acc and expected and subject
Friedman chi-squared = 1.3011, df = 1, p-value = 0.254
wilcox.test
페어링 변수를 알려주지 않기 때문에 두 조건에서 정확도를 비교하는 부호있는 순위 테스트 를 수행 한다고 확신 하지 않습니다. 최소한 이것은 입력 데이터의 행 순서에 의존하기 때문에 테스트를 실행하는 안전하지 않은 방법입니다.