일반적인 교차 검증 및 부트 아웃 스트랩 방법이 적용되는 일반적인 방식의 한 가지 중요한 차이점은 대부분의 사람들이 교차 검증을 한 번만 적용하는 것입니다 (즉, 각 사례는 정확히 한 번만 테스트 됨). 반복 / 반복. 이러한 상황에서 모델 간 불안정성으로 인해 교차 유효성 검사에 차이가 생길 수 있습니다. 그러나, 예를 들어 반복 / 반복 된 폴드 교차 검증 을 사용함으로써이를 피할 수있다 . 그것이 완료되면, 적어도 내가 작업 한 분광 데이터 세트에 대해 두 리샘플링 체계의 총 오차는 실제로 동일한 것으로 보입니다.k
모델 불안정성 유형 분산을 줄일 가능성이없고, 비관적 편견이 큰 분류기 및 문제가 있기 때문에 일대일 교차 검증은 권장하지 않습니다.
.632 부트 스트랩은 혼합 된 리샘플링 오류가 너무 낙관적으로 바이어스되지 않는 한 합리적인 작업을 수행합니다. (예를 들어 내가 다루는 데이터, 많은 변이를 가진 매우 넓은 행렬의 경우 모델이 심각하게 과적 합되기 쉽기 때문에 잘 작동하지 않습니다). 이것은 또한 다양한 복잡성의 모델을 비교하기 위해 .632 부트 스트랩을 사용하지 않는 것을 의미 합니다. .632+ 부트 스트랩을 사용하면 경험이 없습니다. 과적 합이 발생하고 올바르게 감지되면 원래의 부트 아웃 스트랩 추정치와 동일하므로 데이터에 대한 일반 OBO 또는 반복 / 반복 교차 유효성 검사를 고수합니다.
문학:
- Kohavi, R : 정확도 평가 및 모델 선택 인공 지능 논문집 제 14 회 국제 공동 회의, 20에 대한 교차 검증 및 부트 스트랩의 연구 - 25 년 8 월 1995, 몬트리올, 퀘벡, 캐나다, 1995, 1137 - 1145
(고전 )
Dougherty와 Braga-Neto에는 다음 과 같은 주제에 관한 많은 간행물이 있습니다.
측정 항목 선택 :
나의 궁극적 인 목표는 한 머신 러닝 방법이 특정 데이터 셋에 대해 다른 머신 러닝 방법보다 우수하다는 확신을 가지고 말할 수있는 것입니다.
페어링 된 테스트를 사용하여이를 평가하십시오. 비율을 비교하려면 McNemar의 검정을 살펴보십시오.
이에 대한 답은 측정 항목 선택에 영향을받습니다. 회귀 형 오차 척도는 임계 값으로 결정을 내리는 "경화"단계가 없기 때문에 종종 분류 대응보다 분산이 적습니다. 기본적으로 비율이다 정확성과 같은 메트릭이 필요합니다 거대한 또 다른 이상 한 분류의 우수성을 확립하는 테스트 케이스의 수를.
Fleiss : "요율 및 비율에 대한 통계적 방법"은 비율의 짝 을 이루지 않은 비교를 위한 예 (및 표)를 제공합니다 . "거대한 표본 크기"의 의미에 대한 인상을주기 위해이 다른 질문에 대한 답변 에서 이미지를 살펴보십시오 . McNemar와 같은 짝 지어진 테스트는 더 적은 테스트 사례가 필요하지만 IIRC는 여전히 짝이없는 테스트에 필요한 샘플 크기의 절반 (?)에 가장 좋습니다.
분류기의 성능 (강화)을 특성화하려면 일반적으로 ROC (감도 대 특이성) 등과 같은 두 가지 값 의 작업 곡선이 필요합니다 .
애플리케이션에 일반적으로 감도가 특이성보다 중요하거나 이러한 측정의 특정 범위를 충족해야한다는 제한이 있기 때문에 전체 정확도 또는 AUC를 거의 사용하지 않습니다. "단일 숫자"합계 특성으로 가려면보고있는 모델의 작업 점이 실제로 적절한 범위에 있는지 확인하십시오.
참조 레이블에 따라 여러 클래스의 성능을 요약하는 정확성 및 기타 성능 측정을 위해서는 응용 프로그램에서 발생할 수있는 클래스의 상대적 빈도를 고려해야합니다. 훈련 또는 시험 데이터.
Provost, F. et al. : 기계 학습에 관한 제 15 차 국제 회의 진행시 유도 알고리즘 비교를위한 정확도 추정에 대한 사례
편집 : 여러 분류기 비교
나는이 문제에 대해 잠시 생각했지만 해결책에 아직 도달하지 못했습니다 (해결책을 가진 사람을 만나지 않았습니다).
내가 지금까지 얻은 것입니다 :
현재로서는 "최적화가 모든 악의 근원"이라고 결심하고 대신 매우 다른 접근법을 택했습니다
. 문제에 대한 전문가의 지식으로 가능한 한 많이 결정합니다. 실제로 모델의 범위를 좁힐 수 있으므로 모델 비교를 피할 수 있습니다. 모델을 비교해야 할 때 성능 예측의 불확실성을 사람들에게 상기시켜주고 특히 다중 모델 비교가 여전히 AFAIK라는 미해결 문제라는 것을 사람들에게 상기 시키려고 노력합니다.
편집 2 : 짝 테스트
n12(n2−n)테스트 중은 모든 모델이 정확히 동일한 테스트 사례로 테스트됨에 따라 케이스를 "손쉬운"사례와 "어려운"사례로 나눌 수 있으며 모든 모델이 올바른 (또는 잘못된) 예측. 모델을 구별하는 데 도움이되지 않습니다. 반면에, 일부 모델에서는 정확하게 예측할 수 있지만 다른 모델에서는 그렇지 않은 "관심있는"사례가 있습니다. 이 "흥미로운"사례 만 우월성을 판단하기 위해 고려 될 필요가 있으며, "쉬운"사례 나 "어려운"사례가 도움이되지 않습니다. (이것은 내가 McNemar의 테스트 뒤에 아이디어를 이해하는 방법입니다).
nn