예측 모델을 평가하기 위해 반복 교차 검증을 사용해야합니까?


16

나는 우연히 이 2012 기사 질문에 교차 검증의 분산을 줄이기위한 인기있는 기술이되었다 반복 교차 검증의 유틸리티를 호출 Gitte Vanwinckelen 및 헨드릭 Blockeel에 의해.

저자들은 반복 된 교차 검증이 모델 예측의 분산을 감소시키는 반면, 동일한 샘플 데이터 세트가 재 샘플링되고 있기 때문에 재 샘플링 된 교차 검증 추정치의 평균이 실제 예측 정확도의 편향된 추정치로 수렴되므로 유용하지 않다는 것을 입증했습니다.

이러한 제한에도 불구하고 반복 교차 검증을 사용해야합니까?


6
내 경험상 교차 유효성 검사 (반복 또는 반복되지 않음)는 예측 정확도를 매우 잘 평가하지 않습니다. 그러나 그것은 이다 다른 모델의 예측 성능을 비교하기위한 매우 유용합니다. 모델을 선택하는 좋은 방법이지만 단일 모델의 성능을 추정하는 좋은 방법은 아닙니다.
Flounderer

@Flounderer 좋은 지적입니다. 이 기사에 대한 나의 해석은 반복 교차 검증 대 반복되지 않은 교차 ​​검증에 기초하여 모델을 의미있게 비교할 수 없다는 것입니다. 데이터에서 부당한 양의 정보를 짜내려고합니다. 아니면 맞습니까?
RobertF

답변:


11

종이가 만들고있는 것처럼 보이는 주장은 나에게 이상하게 보인다.

논문에 따르면 CV의 목표 는 모델이 관측 된 데이터 세트 S 에 대해 훈련 된 경우 새로운 데이터에 대한 모델의 예상 예측 성능 인 를 추정하는 것입니다 . 우리가 수행되면 k는 -fold CV를 우리가 추정 얻었다 이 수있다. 때문에 랜덤 분할의 Sk 개의 주름이 랜덤 변수 ~ F ( ) 와 평균 μ K 및 분산 σ 2 k는 . 대조적으로, n 회 반복 CV는 동일한 평균을 갖는 추정치를 산출합니다.α2SkA^SkA^f(A)μkσk2n 이지만 더 작은 분산μk .σk2/n

분명히 입니다. 이 편견은 우리가 받아 들여야 할 것입니다.α2μk

그러나 예상되는 오류 작은 용 클 것이다 N , 및 가장 큰 것을 N = 1 이상에 대한 적절한 가정들 하에서, F ( ) 예 경우 ˙ ~ N ( μ K , σ (2) K / N ) . 다시 말해, 반복 된 CV는보다 정확한 μ k 추정치를 얻을 수 있습니다.E[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μk더 정확한 α 2 추정치를 제공하기 때문에 좋은 것입니다α2 입니다.

따라서 반복되는 CV는 반복되지 않은 CV보다 훨씬 정확합니다.

저자는 그것에 대해 논쟁하지 않습니다! 대신에 그들은 시뮬레이션에 근거하여

[CV를 반복하여] 분산을 줄이는 것은 많은 경우에 그다지 유용하지 않으며 본질적으로 계산 자원의 낭비입니다.

이것은 시뮬레이션에서 가 매우 낮다는 것을 의미합니다 . 실제로 사용 된 가장 작은 샘플 크기는 200 였으며 이는 아마도 작은 σ 2 k 를 산출하기에 충분히 클 것 입니다. (반복되지 않은 CV와 30 회 반복 된 CV에서 얻은 추정값의 차이는 항상 작습니다.) 표본 크기가 작을수록 반복 간 차이가 더 커질 수 있습니다.σk2200σk2

주의 사항 : 신뢰 구간!

저자가하는 또 다른 요점은

[반복 된 교차 검증에서] 신뢰 구간보고가 잘못된 것입니다.

CV 반복에 대한 평균에 대한 신뢰 구간을 나타내는 것으로 보입니다. 나는 이것이 의미가 없다고 전적으로 동의합니다! CV를 여러 번 반복할수록이 CI는 더 작아 지지만, 의 추정치 주위의 CI에 관심이있는 사람은 없습니다 ! 우리는 α 2 의 추정치 주변의 CI에 관심을 갖습니다 .μkα2

저자는 또한 반복되지 않는 CV에 대한 CI를보고하며 이러한 CI가 어떻게 구성되었는지는 명확하지 않습니다. 나는 이것이 폴드에 걸친 수단의 CI라고 생각합니다 . 이 CI들도 거의 의미가 없다고 주장합니다!k

adultNB 알고리즘 을 사용한 데이터 세트 의 정확도 와 샘플 크기가 200 인 예제 중 하나를 살펴보십시오 . 반복되지 않은 CV, CI (72.26, 83.74), 79.0 % (77.21, 80.79), 10 회 반복 CV에서는 78.0 %, 30 회 반복 CV에서는 79.1 % (78.07, 80.13)입니다. 첫 번째 CI를 포함하여 이러한 모든 CI는 쓸모가 없습니다. 의 가장 좋은 추정치 는 79.1 %입니다. 이는 200 개 중 158 개의 성공에 해당합니다. 이로 인해 95 % 이항 신뢰 구간 (72.8, 84.5)이 생성됩니다 (보고 된 첫 번째 것보다 더 넓음). 내가보고 싶다면 약간의 CI를, 이것은 내가보고 할 것입니다.μk

더 일반적인 경고 : CV의 분산.

CV를 반복해서 썼습니다

교차 검증의 분산을 줄이는 데 널리 사용되는 기술이되었습니다.

CV의 "분산"이 무엇을 의미하는지는 분명해야합니다. 반복 CV는 추정값의 분산을 줄 입니다. LOOCV (Leave-One-Out CV)의 경우 k = N 인 경우이 분산은 0과 같습니다. 그럼에도 불구하고 LOOCV는 실제로 가능한 모든 k- 폴드 CV 의 가장 높은 분산을 가지고 있다고 종종 말합니다 . 예를 들어 여기를보십시오 :μkk=Nk 차이와 편견을 교차 검증에 왜 휴가 - 하나의 아웃 CV 높은 분산을해야합니까?

왜 그런 겁니까? 이는 LOOCV가 S 와 동일한 크기의 새 데이터 세트에 구축 될 때 새 데이터에 대한 모델의 예상 예측 성능 인 추정치로 가장 큰 분산을 갖기 때문 입니다. 이것은 완전히 다른 문제입니다.α1S


1
@cbeleites 가이 스레드를 주목하고 여기에 의견을 남기거나 자신의 대답을 남기기를 바랍니다. 나는 그녀가 반복적 인 CV를 많이 사용하고 있거나 알고 있었으며 모델 안정성의 일부 측정으로 반복에 대한 변동성을 계산한다고 주장합니다. 그러나 나는 그녀가 반복에 대해 CI를 계산할 것이라고 생각하지 않습니다.
amoeba는 Reinstate Monica

1
μkα2μkα2μk

1
@RobertF : 모델 성능 추정에 대해 이야기했습니다. 내 논문은 반복 된 CV가 반복되지 않은 CV보다 더 정확하고, 의심 할 여지가 없다고 생각한다 (V & R은 정밀도의 차이가 실제로 그렇게 중요하지 않은 경향이 있다고 주장한다). CV를 실행하고 한 모델의 경우 70 %, 다른 모델의 경우 71 %를 얻으므로 두 모델을 비교하는 것이 훨씬 까다 롭습니다. "유의 한"차이입니까? 글쎄, 그것은 명확한 대답이없는 까다로운 문제입니다. 그리고 반복 / 반복되지 않는 문제와는 독립적입니다.
amoeba는 Reinstate Monica가


1
σk
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.