Leave-One-Out 교차 검증의 높은 분산


15

"Leave-one-out"교차 유효성 검사는 훈련 과정이 겹치므로 편차가 크다는 것을 계속해서 읽었습니다. 그러나 나는 그것이 왜 그런지 이해하지 못합니다 : 훈련 세트가 거의 동일하기 때문에 교차 검증의 성능이 정확하게 안정적이어야합니까 (낮은 분산)? 아니면 "분산"개념을 잘못 이해하고 있습니까?

또한 LOO가 편향되지 않는 방법을 완전히 이해하지 못하지만 분산이 높습니다. LOO 추정치가 기대치의 실제 추정치 값과 같으면 어떻게 분산을 높일 수 있습니까?

참고 : 나는 여기에 비슷한 질문이 있다는 것을 알고 있습니다. 왜 오류 높은 평균 추정치에 대해 LOOCV (Leave-One-Out Cross-Validation) 분산이 있습니까? 그러나 답변을 한 사람은 나중에 자신의 대답이 틀렸다는 것을 깨달았다는 의견에서 나중에 말합니다.


2
나는 그 사람입니다 :-) 그러나 먼저, 이미 혼란을 제거하기 위해 이미 답변을 업데이트했으며, 둘째, 전체 스레드가 다른 스레드의 복제본으로 닫혀 있습니다 : stats.stackexchange.com/ 질문 / 61783 . 거기 봤어? 귀하의 Q도 저것의 복제품 인 것 같습니다. 주어진 답변에 만족하지 않으면 질문을 더 구체적으로 작성하십시오. 지금 당장 투표를하도록하겠습니다. 그러나 Q를 편집
해주십시오


3
매개 변수의 실제 값을 . 추정기 그 수율 0.49 , 0.51 , 0.49 , 0.51 ... 공평하고 비교적 낮은 편차를 가지고 있지만, 수율 것을 추정기 0.1 , 0.9 , 0.1 , 0.9 ... 또한 공평하지만 훨씬 높은 분산을 갖는다. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
amoeba는 Reinstate Monica가

5
첫 번째 단락과 관련하여 : 전체 데이터 세트의 다른 실현 에 대한 차이에 대해 생각해야합니다 . 주어진 데이터 세트에 대해 LOOCV는 실제로 훈련 세트가 너무 많이 교차하기 때문에 각 분할에 대해 매우 유사한 모델을 생성하지만 이러한 모델은 모두 실제 모델 에서 멀리 떨어져있을 수 있습니다 . 여러 데이터 세트에서 서로 다른 방향으로 멀리 떨어져 있으므로 분산이 높습니다. 그것이 질적으로 그것을 이해하는 방법입니다.
amoeba는 Reinstate Monica가

2
@amoeba, 그 의견을 공식 답변으로 바꾸지 않겠습니까?
gung-복원 Monica Monica

답변:


10

이 질문은 아마도 교차 검증에서 편차와 편차 의 복제로 종결 될 것입니다 . 왜 일대일 이력서가 분산이 더 높은가? 하지만 문제가 발생하기 전에 의견을 답변으로 바꾸겠다고 생각합니다.

또한 LOO가 편향되지 않는 방법을 완전히 이해하지 못하지만 분산이 높습니다.

간단한 예를 생각해보십시오. 매개 변수의 실제 값을 . 추정기 그 수율 0.49 , 0.51 , 0.49 , 0.51 ... 공평하고 비교적 낮은 편차를 가지고 있지만, 수율 것을 추정기 0.1 , 0.9 , 0.1 , 0.9 ... 또한 공평하지만 훨씬 높은 분산을 갖는다.0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

훈련 세트가 거의 동일하기 때문에 교차 검증의 성능이 매우 안정적 (낮은 분산)이 아니어야합니까?

전체 데이터 세트의 다른 실현에 대한 차이에 대해 생각해야합니다. 주어진 데이터 세트에 대해, 훈련 세트가 너무 정확하게 교차하기 때문에 (one-out-out-cross-valid-valid-one-out-cross-validation) 실제로 각 분할에 대해 매우 유사한 모델을 생성하지만 이러한 모델은 모두 실제 모델에서 멀리 떨어져있을 수 있습니다. 여러 데이터 세트에서 서로 다른 방향으로 멀리 떨어져 있으므로 분산이 높습니다.

적어도 그것이 내가 이해하는 방법입니다. 자세한 내용은 링크 된 스레드를 참조하고 자세한 내용은 참조 논문을 참조하십시오.


2
내가 알기로는 훈련 세트가 매우 커서 전체 데이터 세트와 거의 동일하기 때문에 낮은 바이어스가 주어집니다 (테스트를 위해 하나의 데이터 샘플 만 제외됨). 따라서 하나의 특정 데이터 집합에 대해 매우 좋은 추정치를 기대할 수 있습니다. 그러나 폴드의 이러한 높은 상관 관계로 인해 (교차 검증은 반복에서 동일한 데이터에 대해 거의 수행됨) 추정도이 특정 데이터 세트에 대해 매우 구체적이므로 동일한 기본 분포에서 다른 데이터 세트에 대한 성능간에 차이가 큽니다. . 옳은?
Pegah

2
나는 그것이 대부분 맞다고 생각하지만, 조심스럽게 말해야합니다 for one particular dataset we can expect a very good estimation. 일부 데이터 세트 특정 매개 변수의 추정이 좋을 것이라는 의미로 해석 할 수 있다고 생각합니다. 그러나 일반적으로 교차 검증은 모집단 모수 를 추정해야합니다 . 특정 유형의 모형이 모집단의 종속 변수에 대해 얼마나 잘 예측할 수 있는지; LOOCV는 귀하가 작성한 내용 (추정치가 )으로 인해이를 잘 평가할 수 없습니다very specific for this particular dataset .
amoeba는

1
나는 그 모든 것이 나의 현재 이해라는 경고를 추가해야하지만, 일반적으로 나는이 주제가 상당히 까다 롭고 교차 유효성 검사에 대한 내 경험이 제한적이라는 것을 알았습니다. 나는 전문가가 아닙니다.
amoeba는 Reinstate Monica가

1
까다로운 이유를 물어봐도 될까요? 이것이 CV와 관련하여주의를 기울여야 할 부분이나 내 지식을 심화시킬 부분에 대해 가르쳐 줄 수 있기 때문에 궁금합니다.
Pegah

2
에서 허용 대답을주지 스레드 이 대답, 즉,에 LOOCV의 높은 분산을 언급 아마 당신이 더 이상 필요, 따라서 높은 분산 ? 나는 이러한 질문들에 대해 한동안 생각했고 LOOCV가 실패한 연결 스레드에서 주석에서 Paul의 요점을 보았지만 LOOCV의 연속성 ( "연속"?) 회귀 문제에서 높은 분산의 이론적 이유를 생각 해낼 수 없었다. 표본에 각 점의 중복이 포함 된 경우
Richard Hardy

1

이 높은 분산은 훈련 세트의 공간과 관련이 있습니다. LOOCV가 높은 분산을 갖는 이유는 다음과 같습니다. LOOCV에서이 관측 값을 제외한 모든 관측 된 데이터 세트를 사용하여 각 관측 값, 즉 관측 값 i에 대한 예측 오류가 발생합니다. 따라서 i의 예측 값은 현재 데이터 세트에 따라 크게 달라집니다. 이제 우리는 또 다른 독립적 인 데이터 셋을 관찰하고이 새로운 데이터 셋에 모델을 맞 춥니 다. 이 새로운 모델을 사용하여 관측 값 i에 대한 예측값을 얻는 경우 예측값은 LOOCV에 의해 평가 된 값과 매우 다를 수 있습니다 (평균은 정확하지만 (편향되지 않음)).

이것은 LOOCV에서 높은 오차 예측의 배후에 대한 직관입니다.

그러나 LOOCV를 사용하여 다른 하이퍼 파라미터가있는 모델의 결과를 비교하는 경우 예측 오차의 실제 값이 관심이없는 경우 LOOCV를 사용하여 예측 오차를 안전하게 추정 할 수 있다고 생각합니다. 관찰 된 훈련 세트가있는 다른 모델을 비교하면 실제 실제 오차는 신경 쓰지 않아도됩니다.

즉, 작은 표본이있는 경우 LOOCV를 사용하고, 그렇지 않으면 k에 대해 더 작은 값으로 k- 폴드 CV를 사용하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.