교차 검증 외부에서 하이퍼 파라미터 튜닝이 얼마나 나쁩니 까?


20

크로스 밸리데이션 외부에서 하이퍼 파라미터 튜닝을 수행하면 성능을 측정하는 데 사용하는 데이터 세트가 기능을 튜닝하는 데 사용한 것과 동일하므로 바이어스 유효성이 높은 외부 유효성 추정치가 발생할 수 있습니다.

내가 궁금한 것은 이것이 얼마나 나쁜 문제인지 입니다. 튜닝 할 매개 변수가 매우 많기 때문에 기능 선택이 실제로 얼마나 나쁜지 이해할 수 있습니다. 그러나 LASSO (하나의 매개 변수 만 있고 정규화 강도가 있음) 또는 기능 선택이없는 임의 포리스트 (소수 기능은 추가 할 수 있지만 노이즈 기능을 추가 / 제거하는 것만 큼 극적은 아님)와 같은 것을 사용하는 경우 어떻게해야합니까?

이 시나리오에서 훈련 오류 추정치가 얼마나 낙관적 일 것으로 예상 할 수 있습니까?

이 사례 연구, 논문, 일화, 기타 정보에 감사드립니다. 감사합니다!

편집 : 명확히하기 위해 훈련 데이터에 대한 모델 성능 추정에 대해 이야기하고 있지 않습니다 (예 : 교차 유효성 검사를 전혀 사용하지 않음). "교차 검증 외부의 하이퍼 파라미터 튜닝"이란 각 개별 모델의 성능을 추정하기 위해서만 크로스 밸리데이션을 사용하지만 하이퍼 파라미터 튜닝 절차 내에서 과적 합을 보정하기 위해 외부의 두 번째 크로스 밸리데이션 루프를 포함 하지 않는 것을 의미합니다. 훈련 과정에서 과적 합). 예를 들어 여기에 답변을 참조 하십시오 .

답변:


17

이 편견의 효과는 매우 클 수 있습니다. 이에 대한 좋은 데모는 일부 머신 러닝 컨퍼런스에 등장하는 공개 머신 러닝 대회에서 제공됩니다. 여기에는 일반적으로 훈련 세트, 검증 세트 및 테스트 세트가 있습니다. 경쟁 업체는 유효성 검사 세트 또는 테스트 세트에 대한 레이블을 볼 수 없습니다 (분명히). 유효성 검사 세트는 경쟁이 진행되는 동안 누구나 볼 수있는 순위표에서 경쟁 업체의 순위를 결정하는 데 사용됩니다. 경쟁이 끝났을 때 순위표의 리더가 테스트 데이터를 기반으로 최종 순위에서 매우 낮은 것이 매우 일반적입니다. 이는 리더 보드에서 퍼포먼스를 극대화하기 위해 학습 시스템에 대한 하이퍼 파라미터를 조정했기 때문에 검증 데이터 가 과도하게 적합했기 때문입니다.그들의 모델을 조정함으로써. 숙련 된 사용자는 순위표에 거의 또는 전혀주의를 기울이지 않고보다 엄격한 편견없는 성능 추정치를 채택하여 방법론을 안내합니다.

내 논문 (Jacques가 언급 한)의 예제는 이러한 종류의 바이어스 효과가 학습 알고리즘의 차이와 같은 크기 일 수 있으므로 짧은 대답은 바이어스 된 성능 평가 프로토콜을 사용하지 않는다는 것을 보여줍니다 작동하는 것과 작동하지 않는 것을 찾는 데 진정으로 관심이 있습니다. 기본 규칙은 "모델 선택 절차의 필수 부분으로 모델 선택 (예 : 하이퍼 파라미터 튜닝)을 처리하고 성능 평가에 사용되는 교차 검증의 각 부분에 포함시킵니다.

정규화가 피처 선택보다 오버 피팅에 덜 걸리기 때문에 LASSO 등이 피처 선택을 수행하는 좋은 방법이기 때문입니다. 그러나 편향의 크기는 기능의 수, 데이터 세트의 크기 및 학습 작업의 특성에 따라 다릅니다 (즉, 특정 데이터 세트에 따라 달라지며 응용 프로그램마다 다를 수있는 요소가 있습니다). 이것의 데이터 의존적 특성은 편향되지 않은 프로토콜을 사용하여 편차의 크기를 추정하고 차이를 비교하는 것이 더 나을 것입니다 (이 경우이 방법이 모델 선택에서 과적 합에 강하다는보고가 관심이있을 수 있음) 그 자체로).

GC Cawley 및 NLC Talbot (2010), "성능 평가에서 모델 선택 및 후속 선택 바이어스에 과적 합", Journal of Machine Learning Research, 11, p.2079, 섹션 5.2.)


7
  • 당신이 말하는 편견은 여전히 ​​과적 합과 관련이 있습니다.
  • 정규화 하이퍼 파라미터를 수정하기위한 모델을 거의 평가하지 않고 그럴듯한 선택 내에서 복잡성을 줄임으로써 위험을 낮게 유지할 수 있습니다.

  • @MarcClaesen이 지적했듯이 학습 곡선이 효과가있어 편견이 다소 완화됩니다. 그러나 학습 곡선은 일반적으로 극소수의 경우에만 가파르 며 초과 피팅은 훨씬 더 큰 문제입니다.

결국, 편견이 많이 의존 할 것으로 기대합니다

  • 데이터 (일 변량 문제를 극복하기가 어렵습니다 ...) 및
  • 당신의 경험과 모델링 행동 : 당신이 모델의 유형과 응용 프로그램에 대한 충분한 경험이 있고 당신이 극단적으로 잘 행동하고 굴복하지 않으면 당신의 모델에 대해 대략적으로 복잡한 것을 결정할 가능성이 있다고 생각합니다. 더 복잡한 모델에 대한 유혹. 그러나 물론, 우리는 당신을 모르므로 모델링이 얼마나 보수적인지 판단 할 수 없습니다.
    또한 멋진 통계 모델이 매우 주관적 이며 검증을 수행 할 사례 가 없다는 것을 인정하는 것은 일반적으로 원하는 것이 아닙니다. (전체적인 결과가 더 나아질 것으로 예상되는 상황에서도)

변수 선택 은 물리적 이유로 데이터에 큰 의미가 없으므로 LASSO를 사용 하지 않지만 PCA 또는 PLS는 일반적으로 잘 작동합니다. 능선은 LASSO에 가깝고 데이터 종류에 더 적합한 대안입니다. 이 데이터를 통해 "단축 검증"과 적절한 독립 (외부) 교차 검증에 대한 분류 오류가 더 커졌습니다. 그러나 이러한 극단적 인 상황에서 내 경험에 따르면 바로 가기 유효성 검사는 의심스러운 것으로 보입니다 (예 : 적절한 교차 검증을 통해 2 % 오 분류 => 20 %).

그래도 질문에 직접 적용되는 실수를 줄 수는 없습니다.

  • 지금까지 필자는 현장에서 발생하는 다른 유형의 "바로 가기"에 대해 더 신경을 썼고, 환자 대신 교차 검증 스펙트럼과 같이 데이터 유출로 이어졌습니다 (거대한 편견! 10 % 오 분류-> 70 % = 추측 중 교차 검증에 PCA를 포함하지 않거나 (2-5 %-> 20-30 %).
  • 내가 감당할 수있는 단일 교차 검증을 모델 최적화 또는 검증에 사용해야하는지 결정해야하는 상황에서는 항상 검증을 결정하고 경험에 따라 복잡성 매개 변수를 수정합니다. PCA와 PLS는 정규화 기법으로 잘 작동합니다. 복잡성 매개 변수 (# 구성 요소)가 문제의 물리적 / 화학적 특성과 직접 관련되어 있기 때문에 (예를 들어, 화학적으로 다른 물질 그룹이 얼마나 중요 할 것으로 예상 할 수 있는지) 잘 알고 있습니다. 또한 물리 화학적 이유로 구성 요소가 다소 스펙트럼처럼 보일 수 있으며 잡음이 심하면 과도하게 맞습니다. 그러나 경험에 따르면 이전 실험에서 얻은 이전 데이터 세트의 모델 복잡성을 최적화하여 일반적으로 하이퍼 파라미터 전송을 정당화하고 사용 하기에 충분할 정도로 유사 할 수 있습니다.새로운 데이터의 정규화 파라미터
    그렇게하면 최적의 모델을 가지고 있다고 주장 할 수 없지만 얻을 수있는 성능을 합리적으로 추정한다고 주장 할 수 있습니다.
    그리고 환자 수로 통계적으로 의미있는 모델 비교를 수행하는 것은 불가능합니다 (내 총 환자 수는 단일 비율을 추정하기 위해 권장 된 샘플 크기보다 작습니다 (@FrankHarrell의 규정에 따라 여기 참조)).

데이터에 최대한 가까운 시뮬레이션을 실행하여 어떤 결과가 발생하는지 알려주십시오.


내 데이터 정보 : 분광 데이터로 작업합니다. 데이터 세트는 일반적으로 수십 개의 독립적 인 사례 (환자; 일반적으로 사례 당 많은 측정 값이지만 넓은 범위)입니다. Ca. 10³는 원시 데이터에 따라 차이가 있습니다. 내 스펙트럼에서 벗어나 스펙트럼 해상도를 줄입니다.


5

당신이하는 경우 에만 올가미에 대한 hyperparameter을 선택, 중첩 된 CV 필요가 없다. 하이퍼 파라미터 선택은 단일 / 평면 CV 상호 작용에서 수행됩니다.

λ

LiTiλTiLi

λ

(이것은 하이퍼 파라미터를 선택하는 유일한 방법은 아니지만 가장 일반적인 방법입니다. GC Cawley와 NLC Talbot (2010)에 의해 논의되고 비판 된 "중간"절차도 있습니다. "성능 평가에서", Journal of Machine Learning Research, 11 , p.2079 , 섹션 5.2.)

λλ

이 추정치의 편향을 측정 할 때 두 가지 실험 결과를 알고 있습니다 (합성 데이터 세트의 실제 일반화 오류와 비교)

둘 다 열린 접근.

다음과 같은 경우 중첩 CV가 필요합니다.

a) 특히 하이퍼 파라미터가있는 경우 LASSO와 다른 알고리즘 중에서 선택하려고합니다.

λ

λ

마지막으로, 중첩 된 CV가 예상 일반화 오차의 합리적인 편견 추정치를 계산하는 유일한 방법은 아닙니다. 다른 제안이 3 개 이상있었습니다.


2
"하이 파라미터 선택에 대한 CV가 없다"는 의미를 설명 할 수 있습니까? 당신이 쓴 것에서 나는 당신이 OP를 그들이 중첩을하지 않았다고 경고하고 싶은지, 또는 일반적으로 그런 것이 존재하지 않는다고 말했는지 여부를 이해할 수 없습니다.
cbeleites는 Monica를 지원합니다.

(+1) 문제에 대한 간결한 설명 및 참고 자료 그러나 @cbeleites가 지적했듯이 첫 번째 문장은 다소 혼란 스럽습니다. OP가 가지고 있지 않은 오해를 수정하기위한 것 같습니다.
Scortchi-Monica Monica 복원

@cbeleites (및 Scortchi)-OP "EDIT :"에 응답하고 있습니다. 여기서 그는 CV를 사용하여 매개 변수를 선택한다고 주장합니다 ( "각 개별 모델의 성능을 추정하기 위해 만 교차 유효성 검사"). 그는 중첩 된 CV를 사용하지 않을까 걱정하고 있습니다 ( "하이 파라미터 튜닝 절차 내에서 과적 합을 수정하기 위해 외부의 두 번째 교차 검증 루프를 포함하지 않음"). 매개 변수 선택에 외부 CV가 없다고 말하려고했습니다.
Jacques Wainer

@JacquesWainer : 중첩 CV를 사용하여 하이퍼 파라미터의 선택된 값을 어떻게 든 수정하지 않고 프로 시저의 샘플 외부 성능 (상황 b )을 추정 할 때 "하이 파라미터 튜닝 절차 내에서 과적 합을 수정"하고 싶다고 생각합니다 . 여하튼, 편집은 답의 시작을 더 명확하게합니다.
Scortchi-Monica Monica 복원

그렇습니다. "과도하게 조정하기 위해 [조정 된 하이퍼 파라미터]를 수정하는 것"이 ​​아니라 "하이 파라미터 튜닝 절차 내에서 과적 합에 대해 [순진한 성능 추정]을 수정하는 것"을 의미했습니다. 혼란을 드려 죄송합니다. 나는 매개 변수 선택이 아니라 오류 추정에 대해 걱정했다는 것을 더 명확하게 언급해야했습니다.
벤 Kuhn

2

SVM, 신경망, 랜덤 포레스트와 같은 복잡한 학습 알고리즘은 (예를 들어 약화 / 비정규 화를 통해) 결과적으로 끔찍한 일반화 성능을 제공하면 100 % 훈련 정확도를 달성 할 수 있습니다.

예를 들어, RBF 커널 인 SVM을 사용하십시오.κ(xi,xj)=exp(γxixj2)γ=100%

요컨대, 독립적 인 테스트 세트에서 전혀 유용한 정보를 얻지 못한 학습 세트의 완벽한 분류기로 쉽게 끝낼 수 있습니다. 그것은 얼마나 나쁘다.


교차 검증 외부 에서 모델을 교육하는 것에 대해서는 이야기하지 않습니다 . 나는 하이퍼 파라미터튜닝하는 것에 대해 이야기 하고 있습니다 (그리고 여전히 교차 검증을 사용하여 각 하이퍼 파라미터 세트의 성능을 추정합니다). 이를 명확하게하기 위해 게시물을 편집하겠습니다.
Ben Kuhn

그게 내 요점이야 당신이 교차 유효성 검사를 수행하지 않는 경우, 당신은 것입니다 당신을 줄 하이퍼 파라미터와 끝까지100%

교차 유효성 검사를 사용하지 않는 이유는 무엇입니까? 나는 "... 각각의 하이퍼 파라미터 세트의 성능을 평가하기 위해 여전히 교차 검증을 사용하고 있습니다."
Ben Kuhn 2019

1
γ=γγ

2
나는 당신의 질문을 완전히 오해했습니다. 편집하기 전에 매우 혼란 스러웠습니다. 당신이 관심이있는 편견이 반드시 긍정적 인 것은 아닙니다. 더 많은 훈련 데이터가 주어지면 많은 접근법이 훨씬 더 나은 모델을 산출하기 때문에, 특히 소규모 훈련 세트 + 교차 검증과 관련이 있습니다.
Marc Claesen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.