CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?


34

이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다.

SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 기술 (부트 스트랩, CV 등)을 사용하여 수행됩니다.

내 질문은, 당신은 너무 멀리 갈 수 있습니까? 사람들은 그리드 검색에 대해 이야기하지만, 이것을 단순히 최적화 문제로 취급하고 가능한 최고의 매개 변수 세트로 드릴 다운하지 않는 이유는 무엇입니까? 나는 질문 에서 이것 에 대한 몇 가지 메커니즘에 대해 물 었지만 많은 관심을받지 못했습니다. 질문이 잘못되었을 수도 있지만 질문 자체가 사람들이 일반적으로하지 않는 나쁜 접근 방식을 나타낼 수 있습니까?

나를 괴롭히는 것은 정규화가 없다는 것입니다. 이 데이터 세트에 대해 GBM에서 자라는 가장 좋은 트리 수는 647이고 상호 작용 깊이가 4 인 647이지만 새 데이터에 대해 이것이 사실인지 확신 할 수 있습니다 (새로운 모집단 가정). 훈련 세트와 동일합니까?) 리샘플링을 '수축'할 합리적인 가치가없는 경우 (또는 사전 정보가없는 경우) 리샘플링은 최선을 다하는 것 같습니다. 나는 이것에 대한 이야기를 듣지 못하므로 누락 된 것이 있는지 궁금해합니다.

모델에서 예측력의 모든 마지막 비트를 짜기 위해 많은 반복을 수행하는 것과 관련하여 계산 비용이 많이 듭니다. 따라서 최적화와 모든 비트를 수행 할 시간 / 불만이 있다면 분명히 할 일입니다. 성능 향상의 가치가 있습니다.


CV는 다른 용도로 사용할 수 있습니다. 분명히, '그리드 검색'또는 '하이퍼 파라미터 튜닝'이라고 말하면 기능 선택이 아니라 모델 선택 에 대한 이야기 이거나 분류 오류 추정에 대해서만 말하는 것 입니다.
smci

답변:


30

이 질문에 대한 명확한 답이있다. "그렇다. 교차 검증 기반 모델 선택 기준을 과도하게 맞추고, 일반적으로 열악한 모델로 끝날 수있다! ". 제 생각에 이것은 널리 인정되지는 않지만 머신 러닝 방법을 적용하는 데는 큰 함정이며 현재 연구의 주요 초점입니다. 나는 지금까지 그 주제에 관한 두 개의 논문을 썼다

GC Cawley 및 NLC Talbot, 성능 평가에서 모델 선택 및 후속 선택 바이어스에 과적 합, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, 2010 년 7 월. ( www )

이는 모델 선택에 과적 합이 머신 러닝에서 중대한 문제임을 보여줍니다 (성능 평가 중에 모델 선택에서 모서리를 잘라 내면 심각하게 편향된 성능 추정값을 얻을 수 있음).

GC Cawley 및 NLC Talbot, 하이퍼 파라미터의 베이지안 정규화를 통해 모델 선택에서 과적 합 방지, Journal of Machine Learning Research, 8 권, 841-861 페이지, 2007 년 4 월. ( www )

교차 검증 기반 모델 선택 기준은 모델 선택에서 과적 합을 개선하기 위해 정규화됩니다 (여러 매개 변수가 많은 커널을 사용하는 경우 주요 문제임).

나는 현재 그리드 검색 기반 모델 선택에 대한 논문을 작성하고 있습니다. 더 거친 그리드 (스택 교환에 대한 질문으로 그리드 검색을 살펴볼 수있었습니다).

이것이 도움이되기를 바랍니다.

PS 편견없는 성능 평가 및 신뢰할 수있는 모델 선택은 실제로 계산 비용이 많이들 수 있지만 내 경험상 그것은 가치가 있습니다. 외부 교차 검증이 성능 추정에 사용되고 모델 선택을위한 내부 교차 검증이 좋은 기본 접근 방식 인 중첩 교차 검증입니다.


완전한! 그 신문은 내가 쫓아 온 것 같습니다. 고마워
Bogdanovist

논문에 대해 궁금한 점이 있으면 알려주십시오 (이메일을 통해-나는 첫 번째 저자이며 내 이메일 주소는 논문에 있습니다).
Dikran Marsupial

@DikranMarsupial 모델 선택과 트레인과 테스트 세트 간의 샘플링 불일치로 인한 오버 피팅을 어떻게 구별합니까?
image_doctor

1
원칙적으로, 실제 정보를 이용할 수있는 합성 데이터 세트를 사용하면 샘플링 불일치가 없으므로 간단합니다. 훈련 세트는 기본 분포의 무작위 표본 일 뿐이며 유한 표본이 아닌 분포 자체의 오차를 추정 할 수 있습니다. 그러나 실제 데이터 세트의 경우 AFAICS에서 관리 할 수있는 최선의 방법은 리샘플링을 사용하고 많은 무작위 테스트 / 트레이닝 분할에 대해 모델 선택 기준을 과도하게 맞추는 효과를 결정하는 것입니다.
Dikran Marsupial

2
슬프게도 거부되었지만 검토 자 (매우 유용한) 의견을 고려하여 다른 저널에 다시 제출하도록 수정합니다.
Dikran Marsupial

7

교차 검증 및 부트 스트랩은 교차 검증을 통한 부트 스트랩에 의해 거의 편견이없고 경우에 따라 더 정확한 오류율의 추정치를 제공하는 것으로 나타났습니다. 재 치환과 같은 다른 방법의 문제점은 분류 자와 일치하는 동일한 데이터 세트에서 오류를 추정하여 오류율을 과소 평가할 수 있으며 너무 많은 매개 변수를 포함하고 미래의 값을 정확하게 예측하지 않는 알고리즘으로 이어질 수 있다는 것입니다 작은 매개 변수 세트에 맞는 알고리즘. 통계적 방법을 사용하는 데있어 핵심은 분류기를 훈련시켜야하는 데이터가 클래스가 누락되어 분류기에 의해 예측되어야하는 미래에 보게 될 데이터의 전형적인 것입니다. 미래의 데이터가 매우 다를 수 있다고 생각하면 통계 방법이 도움이되지 않습니다.


답변 해주셔서 감사합니다. 기차와 테스트 세트 사이의 인구 변화에 대해 묻지 않는다는 것을 분명히하기 위해 질문을 편집했습니다. 나는 이것이이 질문에 관심이없는 완전히 다른 질문이라는 것을 알고 있습니다.
Bogdanovist

1
+1이 경우, 불편 함은 본질적으로 무관합니다. 교차 검증 추정치의 분산은 훨씬 더 문제가 될 수 있습니다. 모델 선택 기준의 경우 기준 의 최소값이 일반화 오류의 최소값 (하이 파라미터의 함수)과 확실하게 근접해야합니다. 평균적으로 그것이 올바른 장소에 있다면 아무 소용이 없지만, 최소의 데이터 또는 다른 유한 한 데이터 샘플이 널리 퍼져 있습니다.
Dikran Marsupial

1
물론 정확도는 치우침과 분산의 조합이며 편차가 큰 비 편향 추정치는 분산이 작은 약간 치우친 추정량만큼 좋지 않습니다. 오차율의 예측은 재 치환이며 큰 편향이 있습니다. 부트 스트랩 632 및 632+는 편차가 크게 증가하지 않으면 서 바이어스에 대한 조정 작업을 잘 수행하므로 잘 작동합니다. 그렇기 때문에 선형 판별 함수와 2 차 판별 함수의 경우 교차 유효성 검증의 Leave-One-Out 버전보다 훨씬 잘 작동합니다.
Michael Chernick

분류 트리 앙상블을 사용하면 부트 스트랩이 더 나은 것으로 입증되지 않았습니다.
Michael Chernick

1
어쩌면 어려움 중 하나는 과도한 피팅은 종종 기계 학습 및 통계에서 다른 것을 의미한다는 것입니다. 통계 학자들은 때때로 (훈련 기준에 의해 측정 된) 관측치에 너무 가깝게 적합하지 않고 필요 이상으로 많은 매개 변수를 가진 모형이 사용됨을 의미하기 위해 과적 합을 사용하는 것 같습니다. 나는 보통 그 상황에서 "매개 변수"를 사용하고, "과 적합"을 사용하여 일반화 성능을 희생시키면서 관측치에 모델이 너무 가깝게 적합하다는 것을 의미합니다. 아마도 이것이 우리가 목적에 대해 이야기하고있는 곳일까요?
Dikran Marsupial

4

여기서 한 가지 대답은 최적화의 맥락에서 찾으려고하는 것이 noisy비용 함수 에 대한 전 세계 최소치라는 것입니다. 따라서 다차원 글로벌 최적화와 비용 함수에 추가 된 확률 적 구성 요소의 모든 과제가 있습니다.

로컬 최소 점 및 고가의 검색 공간 자체를 처리하기위한 많은 접근 방식에는 시뮬레이션 어닐링 또는 몬테 카를로 방법과 같이 튜닝이 필요할 수있는 매개 변수가 있습니다.

이상적인 계산 방식으로 제한되지 않은 유니버스에서 오류 함수 추정치의 편차 및 편차에 대한 적절한 제한을 사용하여 매개 변수 공간의 전역 최소값을 찾으려고 시도 할 수 있습니다. 광고 인피니 엄을 다시 샘플링 할 수 있으므로이 시나리오 정규화는 문제가되지 않습니까?

현실 세계에서 나는 당신이 쉽게 최소한의 지역에서 자신을 찾을 수 있다고 생각합니다.

언급했듯이 별도의 문제이지만 여전히 사용 가능한 데이터와 관련된 샘플링 문제와 샘플 공간의 실제 기본 분포와의 관계로 인해 과적 합에 노출되어 있습니다.


4

알고리즘에 따라 크게 달라 지지만 대부분의 경우 노력의 낭비 일뿐입니다.

에프(엑스)엑스엑스고르다에프(엑스)+ϵϵ엑스에프엑스고르다엑스고르다에프+ϵ

엑스고르다엑스고르다엑스고르다에프

에프

따라서 매개 변수 선택에 대한 외부 검증은 전체적으로 (좋은 저널에 실습을 바탕으로) 기능 선택과 달리 외부 적으로 엄격하게 수행해야하는 것은 아니지만 최적화가 까다 롭고 분류자가 다소 둔감 한 경우에만 가능합니다. 매개 변수.


4

예. 교차 검증 또는 부트 스트랩 중에 교육 및 테스트 세트에 매개 변수를 "과적 합"할 수 있습니다. 그러나이를 방지하는 몇 가지 방법이 있습니다. 첫 번째 간단한 방법은 데이터 집합을 테스트 용 (~ 20 %), 최적화 된 매개 변수 (~ 20 %) 및 분류기에 설정된 매개 변수를 맞추기위한 3 개의 파티션으로 나누는 것입니다. 상당히 큰 데이터 세트가있는 경우에만 가능합니다. 다른 경우에는 이중 교차 검증이 제안됩니다.

Romain François와 Florent Langrognet, "모델 기반 분류를위한 이중 교차 검증", 2006

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.