중첩 교차 검증이 실제로 필요한 시점은 언제이며 실질적인 차이를 만들 수 있습니까?


36

교차 검증을 사용하여 모델 선택 (예 : 하이퍼 파라미터 튜닝)을 수행하고 최상의 모델의 성능을 평가하려면 중첩 교차 검증을 사용해야 합니다 . 외부 루프는 모델의 성능을 평가하는 것이고 내부 루프는 최상의 모델을 선택하는 것입니다. 모델은 각 외부 훈련 세트 (내부 CV 루프 사용)에서 선택되며 해당 성능은 해당 외부 시험 세트에서 측정됩니다.

이것은 많은 스레드에서 논의되고 설명되었습니다 (예 : 여기에서 교차 유효성 검사 후 전체 데이터 세트로 훈련? , @DikranMarsupial의 답변 참조). 모델 선택 및 성능 추정 모두에 대해 단순한 (중첩되지 않은) 교차 검증 만 수행하면 긍정적으로 편향된 성능 추정치가 산출 될 수 있습니다. @DikranMarsupial은 섹션 4.3이라고 불리는 이 주제 ( 모델 선택의 과적 합 과 후속 평가의 편향에 관한)에 관한 2010 년 논문을 실제로 모델의 과적 합이 실제 문제라고 생각하십니까? 그리고 종이는 그 대답이 '예'라는 것을 보여줍니다.

그 모든 것을 말하면서, 나는 이제 다변량 다중 능선 회귀로 작업하고 있으며 단순 CV와 중첩 CV의 차이점을 보지 못 하므로이 특별한 경우 중첩 CV는 불필요한 계산 부담으로 보입니다. 내 질문은 : 어떤 조건에서 간단한 CV가 중첩 된 CV로 피할 수있는 눈에 띄는 바이어스를 생성합니까? 중첩 된 CV는 실제로 중요한시기와 그다지 중요하지 않은시기는 언제입니까? 경험 법칙이 있습니까?

실제 데이터 세트를 사용한 그림입니다. 능선 회귀에 대한 가로 축은 입니다. 세로 축은 교차 유효성 검사 오류입니다. 파란색 선은 무작위 (중첩되지 않은) 교차 검증에 해당하며 50 개의 무작위 90:10 훈련 / 테스트 분할이 있습니다. 빨간색 선은 50 개의 무작위 90:10 훈련 / 테스트 스플릿이있는 중첩 된 교차 검증에 해당합니다. 여기서 는 내부 교차 검증 루프 (50 개의 무작위 90:10 분할)로 선택됩니다. 선은 50 개의 임의 분할을 의미하며 음영은 표준 편차를 나타냅니다.로그(λ)± 1λ±1

단순 및 중첩 교차 검증

때문에, 적색 라인은 평탄 내부 루프에서 선택되는 상기 외부 루프 성능의 전체 범위에 걸쳐 측정되지 의. 단순 교차 검증이 바이어스 된 경우 파란색 곡선의 최소값이 빨간색 선 아래에있게됩니다. 그러나 이것은 사실이 아닙니다.λλλ

최신 정보

그것은 실제로 사실 입니다 :-) 단지 차이가 ​​작다는 것입니다. 확대는 다음과 같습니다.

단순 및 중첩 교차 검증, 확대

λ=0.00250

단순 및 중첩 교차 검증, 차이점

λ=0.002

(전체 절차를 두 번 실행했으며 매번 발생합니다.)

내 질문은, 어떤 조건에서이 편견이 미미할 것으로 예상 할 수 있으며, 어떤 조건에서 우리는 그렇지 않아야합니까?


다이어그램을 이해하고 있는지 잘 모르겠습니다. 각 축에서 중첩 및 중첩되지 않은 교차 ​​유효성 검사에서 추정 오류를 보여주는 산점도를 생성 할 수 있습니까 (매번 50 번의 테스트 훈련 분할이 동일하다고 가정)? 사용중인 데이터 세트가 얼마나 큽니까?
Dikran Marsupial

1
산점도를 생성했지만 모든 점이 대각선에 매우 가까워서 편차를 식별하기가 어렵습니다. 대신 중첩 CV 오류에서 간단한 CV 오류 (최적의 람다)를 빼고 모든 교육 테스트 스플릿에서 그 결과를 플로팅했습니다. 매우 작지만 눈에 띄는 편견이있는 것 같습니다! 업데이트했습니다. 그림 (또는 내 설명)이 혼란 스럽다면 알려주세요.이 게시물을 분명히하고 싶습니다.
amoeba는 Reinstate Monica가

첫 번째 단락에서는 각 외부 훈련 세트에서 모델을 선택했습니다 . 그것은 아마도해야 inner- 대신?
Richard Hardy

@RichardHardy 아니요. 그러나이 문장이 매우 명확하게 공식화되지 않았다는 것을 알 수 있습니다. 모델은 각 외부 훈련 세트에서 "선택"됩니다. 다른 모델 (예 : 람다가 다른 모델)이 각 내부 훈련 세트에 적합 하고 내부 테스트 세트에서 테스트 된 다음 전체 외부 훈련 세트 에 따라 모델 중 하나가 선택 됩니다. 그런 다음 외부 테스트 세트를 사용하여 성능을 평가합니다. 말이 되나요?
amoeba는

답변:


13

바이어스는 모델 선택 기준의 분산에 따라 달라지며, 편차가 클수록 바이어스가 클 가능성이 높습니다. 모델 선택 기준의 분산에는 두 가지 주요 소스, 즉 평가되는 데이터 세트의 크기 (작은 데이터 세트가있는 경우 바이어스가 클 가능성이 높음)와 통계 모델의 안정성 ( 모델 파라미터는 이용 가능한 훈련 데이터에 의해 잘 추정되며, 모델이 하이퍼 파라미터를 튜닝함으로써 모델 선택 기준을 과도하게 맞출 수있는 유연성이 적다). 다른 관련 요소는 조정해야 할 모델 선택 및 / 또는 하이퍼 파라미터의 수입니다.

내 연구에서 나는 강력한 비선형 모델과 비교적 작은 데이터 세트 (일반적으로 기계 학습 연구에서 사용됨)를보고 있으며이 두 가지 요소는 중첩 교차 검증이 절대적으로 필요하다는 것을 의미합니다. 매개 변수의 수를 늘리면 (각각의 속성에 대해 스케일링 매개 변수가있는 커널이있는 경우) 오버 피팅이 "치명적"일 수 있습니다. 정규화 매개 변수가 하나이고 상대적으로 많은 수의 매개 변수 수와 함께 선형 모델을 사용하는 경우 차이가 훨씬 작을 수 있습니다.

가능한 편향의 원인을 제거하여 우리와 동료 검토 자; o)가 걱정할 필요가 없으므로 계산 가능한 경우라면 항상 중첩 교차 검증을 사용하는 것이 좋습니다. 무시해도 될까요.


2
모든 데이터를 사용하는 경우 효과적으로 훈련 세트 오류를 ​​표시하고 있지 않습니까? 정규화 매개 변수를 신중하게 선택하더라도 최상의 모델에는 학습 설정 오류가 있지만 0이 아닌 일반화 오류가있는 분류 모델을 사용하는 경우가 많습니다.
Dikran Marsupial

1
수천 가지 훈련 패턴 이하. 어떤 모델을 사용하고 있습니까? 데이터 집합이 커짐에 따라 일반적으로 통계 문제가 줄어들고 계산 문제가 증가합니다. k- 폴드 크로스 밸리데이션은 기본 모델 (하이 파라미터 튜닝 포함)을 피팅하는 것보다 k 배 느리므로 실행 가능한 것에서 실행 불가능한 것으로 거의 변하지 않습니다. k- 폴드 크로스 밸리데이션도 쉽게 병렬화됩니다. 이것이 제가 평소에하는 일입니다.
Dikran Marsupial 2018 년

1
편견없는 성능 추정치 만 제공합니다. 본질적으로 중첩 된 CV는 교차 검증을 통한 모델 선택을 포함하여 모델 을 피팅하는 방법의 성능을 추정합니다 . 운영 모델을 얻으려면 일반적으로 전체 데이터 집합을 사용하여 방법을 반복하면 "평평한"교차 유효성 검사 절차와 동일한 모델을 선택할 수 있습니다.
Dikran Marsupial 2018 년

1
또한 중첩 CV 문제가 발생했습니다. 편견이없는 중첩 CV를 사용하려면 더 작은 데이터로 모형을 피팅해야합니다. 10 배 CV의 경우 중첩 CV의 81 %와 중첩되지 않은 CV의 90 %와 같습니다. 또한 테스트 폴드는 중첩되지 않은 상태에서 9 % 대 10 %가됩니다. 모델 평가에서 추가 편차가 발생합니까? 특히이 게시물의 350 개 샘플과 같은 작은 데이터 세트의 경우. 중첩 된 CV를 사용하는 것이 '불이익'입니까? 그렇다면 중첩 CV를 사용할지 데이터 세트의 크기를 사용할지 어떻게 결정해야합니까? 이 문제에 대해 귀하와 같은 전문가의 의견에 진심으로 감사드립니다. 이 문제와 관련된 논문이 있습니까? @Dikran Marsupial
zesla

2
@zesla 예, 실제로 내부 교차 검증에 대한 데이터가 적어 분산이 증가하지만 최종 모델은 전체 데이터 세트 (하이 파라미터 추정 포함)를 사용하여 작성됩니다. 성능 추정에서 바이어스와 편차 사이에는 항상 상충 관계가 있습니다. 모형 선택 및 바이어스의 과잉 적합이 더 문제가되기 때문에 데이터 집합이 작 으면 중첩 교차 검증을 사용하는 것이 가장 중요합니다. 하이퍼-파라미터가 거의없는 실제 응용에서, 그 차이는 실질적인 중요성 이 거의 없을 수 있습니다 arxiv.org/abs/1809.09446 .
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.