Leave-one-Out 대 K- 폴드 교차 검증의 편차 및 편차


83

서로 다른 교차 검증 방법이 모델 분산 및 바이어스 측면에서 어떻게 비교됩니까?

내 질문은 부분적으로이 스레드에 의해 좌우된다 폴드의 최적의 수 -fold 교차 검증 : 항상 남겨-하나를 아웃 CV 최선의 선택? K K. 이에 대한 답은 Leave-one-Out 교차 검증으로 학습 된 모델은 일반적인 -fold 교차 검증으로 학습 된 모델 보다 분산높으므로 Leave-one-out CV를 더 나쁜 선택으로 만듭니다.K

그러나 직관에 따르면 휴가 중 CV에서는 폴드 CV 보다 모델 간 차이가 상대적으로 적어야합니다. 우리는 접기를 통해 하나의 데이터 포인트 만 이동하므로 접기 사이의 훈련 세트는 실질적으로 겹칩니다.K

또는 경우, 다른 방향으로가는 에 낮은 -fold CV, 훈련 세트 주름에서 아주 다른 것, 그 결과 모델 (따라서 더 높은 차이) 다를 가능성이 더 높습니다. KKK

위의 주장이 옳다면, 일회성 CV로 학습 한 모델이 왜 분산이 더 클까요?


2
안녕 아멜리오 자비에르에 의해 제이크 서부 몰락 지대의에 의해이 오래된 질문에 새로운 해답에 제공 시뮬레이션 있습니다 stats.stackexchange.com/questions/280665는 모두가 차이가 있음을 보여 감소 와 . 이것은 현재 승인 된 답변과 가장 많이 찬성 된 답변 (이전에 승인 된 답변)과 직접 모순됩니다. 분산이 따라 증가하고 LOOCV에 대해 가장 높다는 주장을 뒷받침하는 시뮬레이션을 본 적이 없습니다 . KKK
amoeba

2
감사합니다 @ amoeba 두 답변 모두 진행 상황을보고 있습니다. 나는 수용 된 답변이 가장 유용하고 올바른 답변을 가리 키도록 최선을 다할 것입니다.
Amelio Vazquez-Reina

1
참조 @amoeba researchgate.net/profile/Francisco_Martinez-Murcia/publication/... K와 편차의 증가를 나타낸다 whhich
하난 Shteingart

그가 그래프를 어디에서 가져 오는지를 보는 것은 흥미로울 것입니다. 첫 번째 논문에서는 서론 섹션의 설명에 맞게 작성된 것처럼 보입니다. 아마도 그 실제 시뮬레이션은 있지만 그 설명은 생략하고, 확실히 낮은 그의 실제 실험 결과로부터 ... 아니다
자이 BOURRET Sicotte

답변:


51

Leave-One-Out CV로 학습 한 모델의 분산이 더 높은 이유는 무엇입니까?

[TL : DR] 최근 게시물 및 토론 요약 (2018 년 7 월)

이 주제는이 사이트와 과학 문헌에서 상충되는 견해, 직관 및 결론으로 ​​널리 논의되었습니다. 2013 년에이 질문이 처음 제기되었을 때, LOOCV는 크기 의 샘플에서 모델을 생성하는 훈련 알고리즘 의 예상 일반화 오류 의 편차가 더 커진다는 주요한 견해가있었습니다 .n(K1)/K

이보기는, 그러나, 것으로 보인다 잘못된 일반화 특별한 경우와 나는 정답이라고 주장 : "그것은 의존한다 ..."

이브 그랜드 발레 ( Ives Grandvalet)2004 년 논문 저자는 다음과 같이 직관적 인 주장을 요약 할 것입니다.

  1. 교차 검증이 독립적 인 추정치의 평균을 구한 경우 : 한 번의 CV를 남겨두면 하나의 데이터 포인트 만 접는 방향으로 만 이동하기 때문에 모델 간 차이가 상대적으로 낮아야합니다.
  2. 훈련 세트가 서로 밀접하게 관련되어있는 경우에는 해당되지 않습니다 . K와의 상관 관계가 증가 할 수 있으며이 증가는 두 번째 시나리오에서 전체 분산의 증가를 담당합니다. 직관적으로,이 상황에서 Leave-one-Out CV는 존재하는 불안정성에 대해 눈을 멀게 할 수 있지만 훈련 데이터의 단일 지점을 변경하여 트리거되지 않을 수 있으며, 이는 훈련 세트의 실현에 매우 가변적입니다.

이 사이트의 저와 다른 사람들의 실험 시뮬레이션 과 아래 링크 된 논문의 연구원들의 실험 시뮬레이션 은 이 주제에 대한 보편적 인 진실이 없음을 보여줍니다. 대부분의 실험은 와 함께 단조롭게 감소하거나 일정하게 분산 되지만, 일부 특수한 경우에는 와 함께 분산이 증가 합니다.KK

이 답변의 나머지 부분에서는 장난감 예제와 비공식 문헌 검토에 대한 시뮬레이션을 제안합니다.

[업데이트] 당신은 찾을 수 있습니다 여기에 이상치의 존재 불안정한 모델에 대한 대안 시뮬레이션을.

감소 / 상수 분산을 보여주는 장난감 예제의 시뮬레이션

시끄러운 사인 곡선에 4 차 다항식을 피팅하는 다음 장난감 예제를 고려하십시오. 우리는이 모델이 학습 곡선에 표시된 것처럼 과적 합으로 인해 작은 데이터 세트에 적합하지 않을 것으로 예상합니다.

여기에 이미지 설명을 입력하십시오

ESLII 243 페이지의 그림을 재현하기 위해 여기에 1-MSE를 플롯합니다.

 방법론

이 시뮬레이션에 대한 코드는 여기에서 찾을 수 있습니다 . 접근 방식은 다음과 같습니다.

  1. 배포에서 10,000 포인트 생성 의 진정한 분산 어디 알려져있다ϵsin(x)+ϵϵ
  2. 번 반복합니다 (예 : 100 또는 200 회). 각 반복 에서 원래 분포에서 포인트를 리샘플링하여 데이터 세트를 변경하십시오.NiN
  3. 각 데이터 세트 : i
    • 한 값을 K-배 교차 유효성 검사를 수행K
    • K- 폴드에서 평균 평균 제곱 오차 (MSE) 저장
  4. 루프 오버 가 완료되면 동일한 값에 대해 데이터 세트 에서 MSE의 평균 및 표준 편차를 계산하십시오.내가 KiiK
  5. 범위 에있는 모든 에 대해 위의 단계를 반복하여 One Out CV (LOOCV)를 남기십시오.{ 5 , . . . , N }K{5,...,N}

데이터 세트 에서 MSE의 편차 및 편차에 대한 영향Ki

왼쪽 : 데이터 포인트 200 개에 대한 Kfolds, 오른쪽 : 데이터 포인트 40 개에 대한 Kfolds

여기에 이미지 설명을 입력하십시오

MSE의 표준 편차 (데이터 세트 i 간) vs Kfolds

여기에 이미지 설명을 입력하십시오

이 시뮬레이션에서 다음과 같이 보입니다.

  • 소수의 경우 의 증가, 데이터 포인트의 까지 정도로 크게 또는 바이어스 및 편차를 모두 향상시킨다. 가 클수록 바이어스 또는 분산에 영향을 미치지 않습니다.K K = 10 KN=40KK=10K
  • 직감은 너무 작은 효과적인 학습 크기의 경우 다항식 모델이 특히 불안정하다는 것입니다. 특히K5
  • 클수록 가 증가 바이어스와 분산 모두에 특별한 영향이 없습니다.KN=200K

비공식 문헌 검토

다음 3 개의 논문은 교차 검증의 편향과 분산을 조사합니다.

코 하비 1995

이 논문은 종종 LOOC의 분산이 높다는 주장의 원천으로 언급됩니다. 섹션 1에서 :

예를 들어 Leave-oneout은 거의 편견이 없지만 분산이 높기 때문에 추정치가 신뢰할 수 없습니다 (Efron 1983).

이 진술은 1983 년에 Kohavi가 아닌 Efron에서 온 것 같기 때문에 혼동의 원인이됩니다. Kohavi의 이론적 논증과 실험 결과 이 진술 반한다 :

결과 2 (CV의 차이)

데이터 세트와 유도자가 주어졌습니다. 유도제는 다양한 값을 K 배의 CV의 주름에 대한 테스트 인스턴스 삭제에 의해 야기 된 교란에서 안정하면 , 그 추정치의 분산은 동일 할 것이다k

실험 그의 실험에서 Kohavi는 UC Irvine 저장소의 여러 데이터 세트에서 C4.5 의사 결정 트리와 Naive Bayes 분류기의 두 가지 알고리즘을 비교합니다. 그의 결과는 다음과 같습니다. LHS는 정확도 vs 폴드 (즉, 바이어스)이고 RHS는 표준 편차 vs 폴드입니다.

여기에 이미지 설명을 입력하십시오

실제로 세 가지 데이터 세트의 의사 결정 트리 만 K를 높이기 위해 더 높은 분산을가집니다. 다른 결과는 감소 또는 일정한 분산을 보여줍니다.

마지막으로 결론을 더 강력하게 표현할 수 있지만 LOO가 더 높은 분산을 갖는 데에는 반대의 주장이 없습니다. 섹션 6부터. 요약

"중간 k 값 (10-20)을 사용한 k- 폴드 교차 검증은 분산을 감소시킵니다 ... k 감소 (2-5)와 샘플이 작아짐에 따라 훈련 세트 자체의 불안정성으로 인해 분산이 발생합니다.

장과 양

저자는이 주제에 대해 강력하게 검토하고 7.1 절에서 명확하게 언급합니다.

실제로, 최소 제곱 선형 회귀 분석 인 Burman (1989)은 k- 폴드 CV 중에서 예측 오차를 추정 할 때 LOO (즉, n- 폴드 CV)가 가장 작은 점근 적 편향과 분산을 가짐을 보여줍니다. ...

... 그런 다음 이론적 계산 ( Lu , 2007)에 따르면 LOO는 가능한 모든 n_v 삭제가 고려 된 모든 delete-n CV 중에서 동시에 가장 작은 바이어스와 분산이 있음을 보여줍니다.

실험 결과 마찬가지로 Zhang의 실험은 아래에서 True 모델에 대해 아래 그림과 그림 3 및 그림 5에 대해 잘못된 모델로 표시된 것처럼 K에 따른 편차가 감소하는 방향을 가리 킵니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

따라 분산이 증가하는 유일한 실험 은 올가미 및 SCAD 모델에 대한 것입니다. 이에 대한 설명은 31 페이지에서 설명합니다.K

그러나 모델 선택이 포함 된 경우 모델 공간이 크거나 작은 페널티 계수 및 / 또는 데이터 중심의 페널티 계수 사용으로 인해 모델 선택 불확실성이 높아짐에 따라 LOO의 성능이 변동성이 악화됩니다.


11
+11! 마지막으로 명시 적 시뮬레이션으로 답하십시오! 그리고 그것은 현재 받아 들여지고 가장 찬성 한 답변의 결론에 직접적으로 반대합니다. 결론 : 실제로 "모델 안정성이 핵심 요소"인 경우 분산이 증가하는 시뮬레이션을 설정할 수 있어야합니다 . 나는 두 가지 시뮬레이션을 보았다 : 여기 당신과 이 하나 둘 분산이 감소 또는으로 일정하게 유지 중 어느 것을 보여 . 분산이 증가한 시뮬레이션을 볼 때까지 나는 그 어느 때보다도 회의론을 유지합니다. KKK
amoeba

4
@amoeba LOOCV가 실패하는 경우가 있습니다. n 개의 데이터 포인트와 n의 보간 다항식을 고려하십시오. 이제 각각의 기존 포인트에 복제 권한을 추가하여 데이터 포인트 수를 두 배로 늘립니다. LOOCV는 오류가 0이라고 말합니다. 유용한 정보를 얻으려면 접기를 낮추어야합니다.
Paul

2
이 토론에 관심있는 사람들을 위해 – chat.stackexchange.com/rooms/80281/…
Xavier Bourret Sicotte

1
예를 들어 인 가 반복을 허용 한다는 사실을 고려 했습니까 ? 이것은 LOOCV의 옵션이 아니므로 고려해야합니다. k = 10kfoldk=10
D1X

1
@amoeba : re Kohavi / LOO 및 분산. 일부 분류 모델에 대한 LOO는 (놀랍게도) 불안정 할 수 있음 을 발견했습니다 . 이것은 특히 작은 샘플 크기로 발음되며, wrt에 잘 대표되지 않는 클래스에 속하는 테스트 케이스와 관련이 있다고 생각합니다. 전체 샘플 : 이진 분류 계층화 된 leave-2-out에는이 문제가없는 것 같습니다 (그러나 광범위하게 테스트하지는 않았습니다). 이 불안정성은 관측 된 분산에 추가되며 LOO는 k의 다른 선택에서 제외됩니다. IIRC, 이것은 Kohavi의 발견과 일치합니다.
cbeleites

45

에서는 -fold 교차 검증 우리로 분할 세트 동일한 크기의 비 - 중첩 서브 세트의 . 각 접기 에 대해 모델은 에서 다음 에서 평가됩니다 . 예를 들어 예측 오차의 교차 검증 추정기는 각 폴드에서 획득 된 예측 오차의 평균으로 정의된다.k S S i S S i S ikkSSiSSiSi

모델이 평가되는 테스트 세트 사이에는 겹침이 없지만 모든 대한 트레이닝 세트 사이에는 겹칩니다 . 오버랩은 교차 교차 검증에서 가장 큽니다. 이는 학습 된 모델이 상관 관계가 있으며, 즉 종속적이며 상관 변수의 합의 분산이 공분산의 양에 따라 증가한다는 것을 의미합니다 ( wikipedia 참조 ).k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

따라서 Leave-one-out 교차 유효성 검사는 가 작은 CV와 비교하여 큰 차이가 있습니다.k

그러나 2 중 교차 검증에는 훈련 세트가 겹치는 문제가 없지만, 훈련 세트는 원래 샘플 크기의 절반에 불과하기 때문에 차이가 큰 경우가 많습니다. 좋은 타협은 10 배 교차 검증입니다.

이 주제를 다루는 몇 가지 흥미로운 논문 (더 많은 것 중에서) :


5
+1 (오래 전에)이지만 지금 답을 다시 읽으면 다음과 같은 혼란이 있습니다. 2 배 CV는 "훈련 세트의 크기가 절반에 불과하기 때문에 종종 차이가 크다"고 말합니다. 훈련을 두 배 더 작게하는 것이 문제라는 것을 이해하지만 왜 "큰 차이"를 제공합니까? 대신 "큰 편향"이 아니어야합니까? 그런 다음 접기 수를 선택하는 전체 문제는 편향-분산 트레이드 오프가되며, 이것이 종종 제시되는 방식입니다.
아메바

1
@Sebastian이 문맥에서 "분산" 은 마지막 두 문장에서 알 수 있듯이 "누적 된"모델 성능 (모든 폴드에 대한 합)의 분산을 나타내며 폴드 자체 의 분산은 아닙니다 . k
amoeba

3
일부 문헌을 조사하고있었습니다. 흥미롭게도 통계 학습 소개에서 James, Witten, Hastie & Tibshirani는 LOOCV는 "단일 관측치 (x1, y1)를 기반으로하기 때문에 매우 가변적"이라고 말합니다. 통계 학습의 요소 Hastie & Tibshirani & Friedman은 LOOCV는 "N 개의 훈련 세트가 서로 유사하기 때문에 높은 분산을 가질 수있다"고 말합니다.

2
이것은 올바르지 않습니다. 분산은 = 이어야합니다 . 열거자는 더 크지 만 분모도 커집니다. Σ Σ c o v ( x i , x j ) / n 2var[Σxi/n]ΣΣcov(xi,xj)/n2
, 북쪽의 denizen

3
아니, 그것은 실제로 "전체 지점"이 아닙니다. 사람들은 k- 폴드 CV를 사용하여 항상 단일 글로벌 추정치를 얻습니다. 다른 방법으로 여러 배의 추정치를 사용하려고 시도 할 수 있지만,이를 조합하는 것이 모델링 기법의 홀드 아웃 성능을 추정하는 가장 일반적인 방법 중 하나입니다. 이것이 바로 ESL의 Eq 7.48입니다.
Paul

27

[...] 직관에 따르면, one-out-out CV에서는 fold CV 보다 모델 간 편차가 상대적으로 낮아야합니다 . 왜냐하면 우리는 접기에 걸쳐 하나의 데이터 포인트 만 이동하기 때문입니다. 실질적으로 겹칩니다.K

각 일대일 접기에 대한 모델의 예측에 대해 생각하고 있다면 직감이 합리적이라고 생각합니다. 그것들은 상관 / 매우 유사한 데이터 (전체 데이터 세트에서 하나의 데이터 포인트를 뺀 것)를 기반으로하므로 유사한 예측, 즉 낮은 변동성을 만듭니다.

그러나 혼동의 원인은 사람들이 LOOCV에 대해 높은 변동성을 초래할 때 홀드 아웃 세트에서 교차 검증 루프 동안 만들어진 많은 모델에 의해 만들어진 예측에 대해서는 이야기하지 않는다는 것입니다. 대신, 새로운 훈련 세트에서 모델 / 파라미터를 정확히 훈련하면 모델이 최종 선택 모델 (LOOCV를 통해 선택한 모델)에 얼마나 많은 변동이 있는지에 대해 이야기하고 있습니다. 이 경우 변동성이 높습니다.

가변성이 높은 이유는 무엇입니까? 이것을 조금 단순화합시다. LOOCV를 사용하여 모델을 선택하는 대신 하나의 트레이닝 세트를 보유한 다음 100 개의 단일 테스트 데이터 포인트에서 100 회 (예 : 데이터 포인트는 트레이닝 세트의 일부가 아님) 해당 트레이닝 데이터를 사용하여 빌드 된 모델을 테스트했다고 상상해보십시오. . 100 가지 테스트 중에서 가장 잘 수행되는 모델 및 매개 변수 세트를 선택하는 경우이 특정 트레이닝 세트가 테스트 데이터를 예측하는 데 실제로 도움이되도록 선택하십시오. 특정 교육 데이터 세트와 홀드 아웃 데이터 간의 연관성을 100 % 캡처하는 모델을 선택할 수 있습니다. 안타깝게도 훈련과 테스트 데이터 세트 간의 이러한 연관 중 일부는 노이즈 또는 스퓨리어스 연관 일 수 있습니다. 테스트 세트가 변경되고이 측면에서 노이즈를 식별 할 수 있기 때문입니다. 훈련 데이터 세트는 그렇지 않으며 잡음으로 인한 차이가 무엇인지 설명 할 수 없습니다. 다시 말해, 이것이 의미하는 바는이 특정 훈련 데이터 세트에 대한 예측을 초과 한 것입니다.

이제 새로운 훈련 세트에서 동일한 매개 변수로이 모델을 여러 번 재교육해야한다면 어떻게 될까요? 음, 특정 훈련 데이터 세트에 과적 합 된 모델은 훈련 세트가 변경 될 때 (예를 들어, 훈련 세트를 약간 변경하고 모델이 예측을 실질적으로 변경시킬 때) 예측의 가변성을 초래할 것이다.

LOOCV의 모든 접기는 서로 밀접하게 관련되어 있기 때문에 위의 경우와 동일합니다 (동일한 훈련 세트; 다른 테스트 포인트). 다시 말해, 특정 트레이닝 세트가 해당 테스트 포인트와 약간의 상관 관계를 갖는 경우, 테스트 세트가 변경 되더라도 트레이닝 세트는 변경되지 않기 때문에 실제 상관 관계와 가짜 관계를 결정하는 데 어려움이 있습니다.

반대로 상관 관계가 적은 훈련 기간은 모델이 여러 고유 한 데이터 세트에 적합 함을 의미합니다. 따라서이 상황에서 다른 새 데이터 세트에서 모델을 재교육하면 유사한 예측 (예 : 작은 변동성)으로 이어집니다.


4
이 답변이 수락 된 답변보다 훨씬 더 명확하게 설명되며 특히 수락 된 답변을 설명합니다.
D1X

> "이제 새로운 훈련 세트에서 동일한 파라미터로이 모델을 여러 번 재교육해야한다면 어떻게 될까요?" 훈련은 매개 변수를 찾는 것을 의미합니다. 하이퍼 파라미터를 의미 했습니까?
MiloMinderbinder

14

이 질문은 다소 오래되었지만 더 명확하게 설명 할 가치가 있다고 생각하기 때문에 추가 답변을 추가하고 싶습니다.

내 질문은이 스레드에 의해 부분적으로 동기가 부여됩니다 .K-겹 교차 검증에서 최적의 폴드 수 : 항상 일회용 CV가 최선의 선택입니까? . 이에 대한 답은 Leave-one-Out 교차 검증으로 학습 된 모델은 일반적인 K- 폴드 교차 검증으로 학습 된 모델보다 분산이 높으므로 Leave-one-out CV를 더 나쁜 선택으로 만듭니다.

그 대답은 그것을 암시하지 않으며 그렇게해서는 안됩니다. 제공된 답변을 검토하겠습니다.

Leave-one-Out 교차 검증은 일반적으로 K-fold보다 더 나은 성능을 제공하지 않으며, 상대적으로 분산이 높으므로 (예 : 값이 다른 데이터 샘플의 경우 값이 k 배 교차 검증).

성능 에 대해 이야기하고 있습니다. 여기서 성능은 모델 오차 추정기성능 으로 이해해야합니다 . k-fold 또는 LOOCV로 추정하는 것은 이러한 기술을 사용하여 모델을 선택하고 자체적으로 오류 추정치를 제공 할 때 모델 성능입니다. 이것은 모형 분산이 아니며 (모델의) 오차 추정기의 분산입니다. 아래의 예제 (*)를 참조하십시오 .

그러나 직관에 따르면 휴가 중 CV에서는 K- 폴드 CV보다 모델 간 편차가 상대적으로 낮아야합니다. 우리는 접기를 통해 하나의 데이터 포인트 만 이동하므로 접기 간의 훈련 세트는 실질적으로 겹칩니다.

n2n

위에서 언급 한 추정기가 더 많은 분산을 갖는 것은 모델 간의 분산이 낮고 상관 관계가 더 큽니다. 추정기는 이러한 상관 수량의 평균이며 상관 데이터의 평균 분산은 상관되지 않은 데이터의 평균보다 높기 때문입니다. . 여기에 이유가 표시 됩니다 . 상관 및 비 상관 데이터 평균의 분산 .

또는 다른 방향으로 가면 K- 폴드 CV에서 K가 낮 으면 트레이닝 세트가 폴드마다 상당히 다르고 결과 모델이 다를 가능성이 더 높습니다 (따라서 더 높은 분산).

과연.

위의 주장이 옳다면, 일회성 CV로 학습 한 모델이 왜 분산이 더 클까요?

위의 주장이 맞습니다. 이제 질문이 잘못되었습니다. 모델의 분산은 완전히 다른 주제입니다. 랜덤 변수가있는 곳에 차이가 있습니다. 머신 러닝에서는 많은 랜덤 변수를 다루며 특히 다음에 국한되지 않습니다. 샘플은 랜덤 변수입니다. 모델은 랜덤 변수로부터 학습되었으므로 랜덤 변수입니다. 모집단이 직면 할 때 모형에서 발생하는 오차의 추정치는 랜덤 변수입니다. 마지막으로, 모집단에 노이즈가있을 가능성이 높기 때문에 모형의 오차는 랜덤 변수입니다 (이를 불변 오류라고합니다). 모델 학습 과정에 확률이 포함되어 있다면 더 많은 무작위성이있을 수 있습니다. 이러한 모든 변수를 구별하는 것이 가장 중요합니다.


errerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<nerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

마지막 편향은 편향이 많지만 분산이 훨씬 적고 허용 가능한 편향, 즉 타협 ( 편차-변형 균형 ) 을 가지므로 선호해야합니다 . 높은 편향이 수반되는 경우 매우 낮은 분산을 원하지는 않습니다.


추가 참고 :이 답변에서 나는하려고 명확하게 (어떤 내가 생각하는) 오해 특히, 점과 아스 커는이 정확하게 의심 지점에 대답하려고,이 주제를 둘러싸고. 특히, 나는 우리가 이야기하고있는 분산 이 무엇인지 명확히 하려고 노력합니다 . 즉, OP와 연결된 답변을 설명합니다.

그러나 주장에 대한 이론적 추론을 제공하면서도이를 뒷받침하는 결정적인 경험적 증거를 찾지 못했습니다. 그러니 조심하세요

이상적으로는이 게시물을 먼저 읽은 다음 경험적 측면에 대한 통찰력있는 토론을 제공하는 Xavier Bourret Sicotte의 답변을 참조하십시오.

kkfoldk10 × 10fold


2
KK

3
kN

KK=10K=N

1
아직 그 논문들을 보지 못했지만 시간이있을 때 살펴볼 것입니다. 그럼에도 불구하고 OLS 선형 모델은 매우 간단한 모델이며 실제로는 분산이 낮습니다. 뿐만 아니라 교차 검증을위한 공식을 마감했습니다.
D1X

1
수정 내용을 +1하면 훨씬 더 명확하게 답변 할 수 있습니다. 훈련 세트 간의 상관 관계 영향에 따라 조정됩니다. 실제로 (실험적으로) 훈련 세트가 항상 서로 상관되는 것은 아닙니다.
Xavier Bourret Sicotte

12

문제는 실제로 미묘합니다. 그러나 LOOCV가 일반적으로 더 큰 분산을 갖는 것은 사실이 아닙니다. 최근 논문에서는 몇 가지 주요 측면에 대해 논의하고 교차 검증에 대한 몇 가지 널리 알려진 오해를 다루고 있습니다.

Yongli Zhang과 Yuhong Yang (2015). 모델 선택 절차를 선택하기위한 교차 검증. 계량 경제학 저널, vol. 187, 95-112.

다음과 같은 오해는 현재까지도 문헌에서 자주 볼 수 있습니다.

"LOO (Leave-One-Out) CV는 더 많은 바이어스를 갖지만 더 많은 CV보다 편차가 더 큽니다."

이 견해는 꽤 인기가 있습니다. 예를 들어 Kohavi (1995, Section 1)는 다음과 같이 말합니다. "예를 들어 leave-one-out은 거의 편견이 없지만 분산이 높기 때문에 추정치가 신뢰할 수 없습니다." 그러나이 진술은 일반적으로 사실이 아닙니다.

더 자세하게:

최근 출판물을 포함한 문헌에도 지나치게 권장 사항이 있습니다. 10 배 CV를 사용하는 Kohavi (1995)의 일반적인 제안이 널리 받아 들여졌습니다. 예를 들어, Krstajic 등 (2014, 11 페이지)은 다음과 같이 설명합니다. 결과적으로 모든 수치 조사에 대해 10 배 CV (반복 포함)를 권장합니다. 우리의 견해로는 그러한 관행이 오도 될 수 있습니다. 첫째, CV 사용 목표를 고려하지 않은 일반적인 권장 사항이 없어야합니다. 특히, 후보 모델 / 모델링 절차에 대한 CV 정확도 추정의 편향 및 분산의 검토는 최적의 모델 선택과는 매우 다른 문제 일 수 있습니다 (앞서 언급 한 두 가지 모델 선택 목표 중 하나). 둘째, 정확도 추정 컨텍스트로 제한 되더라도, 그 진술은 일반적으로 정확하지 않습니다. 불안정성이 낮은 모델 / 모델링 절차의 경우 LOO는 변동성이 가장 작은 경우가 많습니다. 또한 매우 불안정한 절차 (예 : pn이 n보다 훨씬 큰 LASSO)의 경우 10 배 또는 5 배 CV가 변동성을 줄이면서도 바이어스 증가로 인해 LOO보다 MSE가 상당히 클 수 있음을 입증했습니다. 불안정성이 낮은 모델 / 모델링 절차의 경우 LOO는 변동성이 가장 작은 경우가 많습니다. 또한 매우 불안정한 절차 (예 : pn이 n보다 훨씬 큰 LASSO)의 경우 10 배 또는 5 배 CV가 변동성을 줄이면서도 바이어스 증가로 인해 LOO보다 MSE가 상당히 클 수 있음을 입증했습니다. 불안정성이 낮은 모델 / 모델링 절차의 경우 LOO는 변동성이 가장 작은 경우가 많습니다. 또한 매우 불안정한 절차 (예 : pn이 n보다 훨씬 큰 LASSO)의 경우 10 배 또는 5 배 CV가 변동성을 줄이면서도 바이어스 증가로 인해 LOO보다 MSE가 상당히 클 수 있음을 입증했습니다.

전반적으로, 그림 3-4에서 LOO와 반복 된 50 배 및 20 배 CV가 여기에서 최고이며 10 배는 상당히 나쁘고 k ≤ 5는 분명히 좋지 않습니다. 예측 성능 평가를 위해 LOO는 일반적으로 고정 모델 또는 바이어스와 분산 모두에서 매우 안정적인 모델링 절차 (예 : BIC와 같은)에서 가장 우수하거나 가장 우수하다고 생각하는 경향이 있습니다. 보다 불안정한 절차를위한 MSE (예 : AIC 또는 p ≫ n 인 LASSO). 10 배 CV (반복 포함)가 확실히 가장 좋은 경우도 있지만 더 빈번한 경우도 있지만, 어색한 위치에 있습니다. 예측 오류 추정에서 LOO (바이어스 문제로 인해)보다 위험하며 일반적으로 삭제보다 나쁩니다. 최상의 후보를 식별하기위한 -n / 2 CV.


4
논문에서 제기 된 몇 가지 주요 측면을 요약하여이 답변을 조금 확장 할 수 있습니까?
Silverfish

3
매우 흥미로운 종이. Kohavi (1995)를 검토하면서 나는 많은 진술이 불가능하고 광범위하게 입증되지 않았다고 생각했다. 이 신문은 비판적인 심문이 기한이 지난 민사 지입니다.
Paul

3

편견과 분산에 대해 논의하기 전에 첫 번째 질문은 다음과 같습니다.

교차 검증에 의해 추정되는 것은 무엇입니까?

Kn(K1)/KKK

K

K

K


4
K

0

더 직접적인 대답이 있다고 생각합니다. k를 늘리면 테스트 세트가 점점 작아집니다. 접기는 무작위로 샘플링되기 때문에 작은 테스트 세트에서는 발생할 수 있지만 더 큰 테스트 세트에서는 무작위 셔플을 나타내지 않습니다. 하나의 테스트 세트에는 예측하기 어려운 모든 레코드와 다른 테스트 세트가 포함될 수 있습니다. 따라서 폴드 당 매우 작은 테스트 세트를 예측할 때 분산이 높습니다.


Xi

4
교차 유효성 검사 중 홀드 아웃 세트의 모델 예측 변동에 대해 이야기하는 것 같습니다. 나는 이것이 큰 관심사라고 생각하지 않습니다. 흥미로운 점은 최종 튜닝 모델이 다른 데이터에 대해 학습 될 경우 예측에서 크게 달라지는 지 여부입니다 (예 : 모델의 진실 추정치가 실제로 훈련 세트에 따라 다름)
captain_ahab

그리고 당시에 알려지지 않은 연속적으로 예측 된 데이터 세트 사이의 관측 된 변동을 통해 아직 보이지 않는 데이터에 대한 예상 변동을 어떻게 추정 할 수 있습니까? 나는 당신의 요점을 얻습니다. 실험 설정만으로 인한 다양성은 관심이 없습니다. 내 답변 : 따라서 새로운 종류의 가변성을 도입하지 않는 실험 설정을 선택해야합니다. 그렇게하면 두 종류의 변동성을 구별 할 수 없으며 관심있는 한 종류의 확장을 추정하기가 더 어려워집니다.
David Ernst

1
이것을 시뮬레이션으로 보여줄 수 있습니다 (종이를 찾겠습니다). 우리가 서로 과거에 대해 이야기하고 있는지 확실하지 않지만 LOOCV의 훈련 세트 간의 높은 상관 관계에 대해 성급함과 사람들이 이야기 할 때 기본적으로 동일한 훈련 데이터 세트에서 모델을 계속 훈련하고 있음을 강조합니다. 이는 해당 교육 데이터 세트에 과적 합하게됩니다. 훈련 데이터 세트를 변경하면 테스트 예제 X에 대한 예측 모델이 많이 변경됩니다. 대조적으로 훈련 세트의 상관 관계가 덜한 경우 완전히 새로운 훈련 세트를 사용할 수 있으며 테스트 예제 X에 대해 유사한 예측을 얻을 수 있습니다.
captain_ahab

두 가지 별도의 문제가 있다고 생각합니다. k를 높이면 훈련 세트간에 더 겹치게되어 결과적으로 언급하게됩니다. 동시에 k를 늘리면 폴드 당 테스트 세트가 작아 져 레코드에서 원치 않는 방식으로 레코드가 섞일 가능성이 높아집니다. 나는 특정 질문에 대해 이것이 주된 이유라고 생각합니다. 훈련 세트 중복으로 인한 기여도있을 수 있습니다. (다음 테스트 세트뿐만 아니라 중복했기 때문에 반복을 사용하여 세 번째 문제가 있습니다.)
데이비드 에른스트
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.