다른 대리 모델의 예측에서 불안정성의 영향
그러나 이항 분석의 가정 중 하나는 각 시도에서 동일한 성공 확률이며, 교차 검증에서 '올바르게'또는 '잘못'으로 분류 된 방법이 다음과 같이 간주 될 수 있는지 확실하지 않습니다. 같은 성공 확률.
일반적으로 그 동등성은 다른 대리 모델의 결과를 모으기 위해 필요한 가정입니다.
실제로,이 가정이 위반 될 수 있다는 직관은 종종 사실입니다. 그러나 이것이 사실인지 측정 할 수 있습니다. 그것이 반복 교차 검증에 도움이되는 부분입니다. 서로 다른 대리 모델에 의한 동일한 사례에 대한 예측의 안정성을 통해 모델이 동일한 지 (안정한 예측) 여부를 판단 할 수 있습니다.
반복 (일명 반복) 폴드 교차 검증 의 체계는 다음과 같습니다 .케이
수업은 빨간색과 파란색입니다. 오른쪽의 원은 예측을 상징합니다. 각 반복에서 각 샘플은 정확히 한 번 예측됩니다. 일반적으로 대 평균은 대리 모델 의 성능 이 같다고 가정 할 때 성능 추정치로 사용됩니다 . 서로 다른 대리 모델 (예 : 열)에 의해 이루어진 예측에서 각 샘플을 보면이 샘플에 대한 예측이 얼마나 안정적인지 알 수 있습니다.나는 ⋅ k
각 반복에 대한 성능을 계산할 수도 있습니다 (도면에서 3 행 블록). 이 둘 사이의 차이는 서로 게이트 모델이 동일하다는 가정 (모든 경우에 구축 된 "그랜드 모델"과 동일)이 충족되지 않음을 의미합니다. 그러나 이것은 또한 당신이 얼마나 불안정한지를 알려줍니다. 이항 비율의 경우, 실제 성과가 동일한 한 (즉, 항상 동일한 사례가 잘못 예측되는지 또는 동일한 수이지만 다른 사례가 잘못 예측되는지 여부에 관계없이) 생각합니다. 대리 모델의 성능에 대한 특정 분포를 현명하게 가정 할 수 있는지 여부는 알 수 없습니다. 그러나 나는 당신이 그 불안정성을 전혀보고하지 않는다면 어쨌든 현재 일반적인 분류 오류보고보다 이점이라고 생각합니다.케이 대리 모델은 각 반복에 대해 이미 풀링되었으며 불안정성 분산은 반복 간 관측 된 분산의 약 배입니다.케이
일반적으로 120 개 미만의 독립 사례를 다루어야하므로 내 모델에 매우 강력한 정규화를 적용했습니다. 일반적으로 불안정성 분산이 유한 테스트 표본 크기 분산보다 임을 알 수 있습니다. (그리고 나는 인간이 패턴을 감지하는쪽으로 편향되어 너무 복잡한 모델을 만들어 지나치게 적합하기 때문에 모델링에 합리적이라고 생각합니다).
나는 일반적으로 유한 테스트 샘플 크기에 대한 평균 관측 성능에 대한 반복 (및 , 및 ) 및 이항 신뢰 구간에 대한 관측 된 불안정성 변동의 백분위 수를보고 합니다.≪
엔케이나는
그림은 그림의 최신 버전입니다. 이 논문에서 5 : Beleites, C. & Salzer, R .: 작은 샘플 크기 상황에서 화학량 모델의 안정성 평가 및 개선, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI : 10.1007 / s00216-007-1818-6
우리가 논문을 쓸 때 여기에 설명 된 다른 분산 원을 아직 완전히 인식하지 못했음을 명심하십시오. 그러므로 나는 논쟁이각 환자 내에서 다른 조직 유형이 주어진 조직 유형을 가진 새로운 환자만큼이나 많은 전체 정보에 기여한다는 적용 결론에도 불구하고 효과적인 표본 크기 추정을 위해서는 정확하지 않습니다. 그런 식으로 지적하는 증거). 그러나 나는 이것에 대해 아직 완전히 확신하지 못하고 (더 나은 방법으로 확인할 수있는 방법도 없음)이 문제는 귀하의 질문과 관련이 없습니다.
이항 신뢰 구간에 어떤 성능을 사용해야합니까?
지금까지 평균 관측 성능을 사용했습니다. 최악의 관측 성능을 사용할 수도 있습니다. 관측 성능이 0.5에 가까울수록 분산이 커지고 신뢰 구간이 커집니다. 따라서, 0.5에 가장 가까운 관측 된 성능의 신뢰 구간은 보수적 인 "안전 마진"을 제공합니다.
이항 신뢰 구간을 계산하는 일부 방법은 관측 된 성공 횟수가 정수가 아닌 경우에도 작동합니다. Ross, TD : Binomial 비례 및 푸 아송 비율 추정에 대한 정확한 신뢰 구간, Comput Biol Med, 33, 509-531 (2003)에 설명 된 "베이지안 후 확률의 적분"을 사용합니다
. DOI : 10.1016 / S0010-4825 (03) 00019-2
(나는 Matlab을 모르지만 R binom::binom.bayes
에서는 두 모양 매개 변수를 1로 설정하여 사용할 수 있습니다 ).
이러한 생각은 이 훈련 데이터 세트를 기반으로 한 예측 모델에 적용되어 알려지지 않은 새로운 사례에 대해 산출됩니다. 동일한 사례 집단에서 추출한 다른 훈련 데이터 세트로 생성해야하는 경우, 크기 의 새로운 훈련 샘플에 대해 훈련 된 모델의 양이 얼마인지 추정해야합니다 . ( "물리적으로"새로운 훈련 데이터 세트를 얻는 것 이외의 방법은 전혀 모른다)엔
참조 : Bengio, Y. 및 Grandvalet, Y .: K- 폴드 교차 검증의 편차에 대한 편견없는 추정치, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(이것들에 대해 더 많이 생각하는 것은 내 연구 할 일 목록에 있습니다 ...하지만 실험 과학에서 왔을 때 이론적 및 시뮬레이션 결론을 실험 데이터로 보완하고 싶습니다. 참조 테스트를위한 독립 사례 세트)
업데이트 : 생물 분포를 가정하는 것이 정당합니까?
k-fold CV는 다음 동전 던지기 실험과 같습니다. 하나의 동전을 여러 번 던지는 대신 동일한 기계에서 생산 된 동전은 적은 횟수로 던져집니다. 이 그림에서 @Tal은 동전이 같지 않다고 지적합니다. 분명히 사실입니다. 나는 무엇을해야하고 무엇을 할 수 있는지는 대리 모델에 대한 등가 가정에 달려 있다고 생각합니다.케이
실제로 대리 모델 (코인)간에 성능 차이가있는 경우 대리 모델이 동등하다는 "전통적인"가정은 유지되지 않습니다. 이 경우 분포는 이항식이 아닌 것입니다 (위에서 말했듯이 어떤 분포를 사용 해야할지 모르겠습니다. 각 대리 모델 / 각 동전에 대한 이항의 합이어야합니다). 그러나 이는 대리 모델 결과의 풀링이 허용되지 않음을 의미합니다. 따라서 테스트에 대한 이항 법 은 좋은 근사화 ( 추가 변동 원인이 있음을 말함으로써 근사치 를 개선 하려고 시도 하지 않음 : 불안정성) 또는 평균 성능을 더 정당화하지 않고 포인트 추정으로 사용할 수 없습니다.엔
반면에 대리모의 (진정한) 성능이 동일하다면, 즉 "모델이 같다"는 의미입니다 (한 가지 증상은 예측이 안정적 임). 이 경우 모든 대리 모델의 결과를 모을 수 있고 모든 테스트에 대한 이항 분포 를 사용하는 것이 좋습니다.이 경우 우리는 대리 모델 의 실제 가 거의 같아야한다고 생각합니다. 따라서 한 번의 동전을 번 던지는 것과 동등한 것으로 테스트를 설명하십시오 .엔피엔