모델 언더 핏은 언제입니까?


56

논리는 종종 모델에 적합하지 않음으로써 일반화 할 수있는 능력이 증가한다고 말합니다. 즉, 어느 시점에서 모델에 적합하지 않으면 데이터의 복잡성에 관계없이 모델이 더 나 빠지게됩니다.

모델이 올바른 균형을 강타했고 모델링하려는 데이터에 적합하지 않은 시점을 어떻게 알 수 있습니까?


참고 : 이것은 " 왜 과적 합이 나쁜가? " 라는 질문에 대한 후속 조치입니다.


" 논리에 따르면 모델을 과도하게 맞추면 일반화 할 수있는 능력이 향상된다고 말합니다. "
Rubens

답변:


43

모델은 모델링하려는 데이터와 관련하여 너무 단순 할 때 적합하지 않습니다.

이러한 상황을 감지하는 한 가지 방법 은 다음과 같이 나타낼 수 있는 바이어스-분산 방식 을 사용하는 것입니다.

여기에 이미지 설명을 입력하십시오

바이어스가 높을 때 모델이 적합하지 않습니다.


바이어스가 너무 높거나 분산이 너무 큰지 알기 위해 교육 및 테스트 오류 측면에서 현상을 봅니다.

높은 편향 :이 학습 곡선은 학습 및 테스트 세트 모두에서 높은 오류를 나타내므로 알고리즘에 높은 편견이 있습니다.

여기에 이미지 설명을 입력하십시오

높은 분산 :이 학습 곡선은 훈련과 테스트 세트 오류 사이의 큰 차이를 보여 주므로 알고리즘은 높은 분산으로 어려움을 겪고 있습니다.

여기에 이미지 설명을 입력하십시오

알고리즘이 높은 분산으로 고통받는 경우 :

  • 더 많은 데이터가 도움이 될 것입니다
  • 그렇지 않으면 모델 복잡성을 줄입니다

알고리즘에 치우침이 심한 경우 :

  • 모델 복잡성을 증가

Coursera의 Machine Learning 과정 , "10 : Machine Learning 적용을위한 조언"섹션 을보고 위의 그래프 를 보도록 권합니다 .


마지막 글 머리 기호에서 "모델 복잡성을 줄이십시오"라고 말했습니까? 나는 단지 "모델 복잡성을 증가시킨다"고 생각한다. . . BTW 좋은 타이밍 나는 그 과정에 등록했고 당신이 말하는 비디오를 방금 본 것입니다.
닐 슬레이터

@NeilSlater 고마워, 좋은 캐치, 실제로 오타가 있었다 :)
Franck Dernoncourt

1
훈련 오류가 편견의 적절한 추정이라고 가정하는 것 같습니다. 편향 (간단한 MSE 손실 함수의 경우)은 모든 다른 트레이닝 세트에 대해 예측을 평균 할 때 새 데이터에 대해 예상되는 오류로 정의됩니다 . J_train (트레이닝 세트 전체에서 평균을 얻지 않고 새 데이터를 사용하지 않음)이 편견의 적절한 추정치를 만드는 이유는 무엇입니까?
최대

@FranckDernoncourt 우리는 훈련과 시험 데이터의 크기에 과적 합과 과적 합을 연관시킬 수 있습니까? 더 작은 훈련 세트에 대해 훈련 된 모델이 적합하지 않다고 말할 수 있습니까?
Sudip Bhandari

10

질문에 대답하려면 찾고자하는 참조 프레임을 이해하는 것이 중요합니다. 모델 피팅에서 어떤 철학적으로 달성하려고하는지 찾고 있다면 루벤스의 답변을 확인하십시오.

그러나 실제로 귀하의 질문은 거의 전적으로 비즈니스 목표에 의해 정의됩니다.

구체적인 예를 들어, 당신이 대출 책임자라고 말하면, 당신은 $ 3,000의 대출을 받았고 사람들이 당신을 갚을 때 당신은 $ 50를 벌게됩니다. 차관. 이것을 간단하게 유지하고 결과가 전액 지불 또는 불이행이라고 말합니다.

비즈니스 관점에서 우발성 매트릭스를 사용하여 모델 성능을 요약 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

모델이 누군가가 불이행 할 것이라고 예측할 때 사람들은 그렇지 않습니까? 오버 피팅과 언더 피팅의 단점을 결정하기 위해서는 예측 구절의 실제 횡단면에서 실제 모델 성능의 각 단면에 비용이나 이익이 있기 때문에 최적화 문제로 생각하면 도움이됩니다.

여기에 이미지 설명을 입력하십시오

이 예에서 기본값 인 기본값을 예측한다는 것은 위험을 피하는 것을 의미하며, 기본값이 아닌 기본값을 예측하면 대출 당 $ 50가 발행됩니다. 잘못 될 때 문제가 발생하는 곳은 기본값이 아닌 것으로 예측했을 때 채무 불이행을한다면 전체 대출 교장을 잃게되며 고객이 실제로 기회를 놓치면 50 달러 를 잃지 않을 때 채무 불이행을 예측하게됩니다 . 여기의 숫자는 중요하지 않으며 접근 방식입니다.

이 프레임 워크를 통해 이제 초과 및 미달 적합과 관련된 어려움을 이해할 수 있습니다.

이 경우 피팅이 과도하면 모델이 개발 / 테스트 데이터보다 프로덕션에서 훨씬 잘 작동한다는 것을 의미합니다. 다시 말하면, 생산 모델이 개발에서 본 것보다 훨씬 성능이 떨어질 것입니다.이 잘못된 신뢰는 아마도 훨씬 더 위험한 대출을 받게 될 것입니다. 그렇지 않으면 돈을 잃을 수 있습니다.

다른 한편으로,이 맥락에서 적합하면 현실을 맞추는 데 열악한 일을하는 모델이 남게됩니다. 이 결과는 예측할 수 없을 정도로 예측할 수 없지만 (예측 모델을 설명하려는 반대 단어) 일반적으로 발생하는 상황은이를 보완하기 위해 표준을 강화하여 전체 고객이 적어 좋은 고객을 잃게됩니다.

언더 피팅은 오버 피팅이하는 것과는 정반대의 어려움을 겪습니다. 예상치 못한 예측 가능성이 여전히 예상치 못한 위험을 감수하게하는 원인이됩니다.

내 경험에 따르면이 두 상황을 피하는 가장 좋은 방법은 훈련 데이터의 범위를 완전히 벗어난 데이터에서 모델을 검증하는 것입니다. '.

또한 모델을 주기적으로 재확인하고 모델이 얼마나 빨리 저하되는지, 여전히 목표를 달성하고 있는지 확인하는 것이 좋습니다.

개발 및 생산 데이터를 모두 예측하지 못하는 경우 모델이 적합하지 않습니다.


6

모델은 실생활에서 볼 수있는 것의 추상화 일뿐입니다. 이들은 원하는 분석을 지원하기에 충분한 정보를 유지하면서 관찰시 실제 시스템의 핵심을 추상화하기 위해 설계되었습니다.

모델이 너무 적합하면 관찰되는 항목에 대한 세부 정보가 너무 많이 고려되므로 이러한 개체를 조금만 변경하면 모델의 정밀도가 떨어질 수 있습니다. 반면에 모델이 적합하지 않은 경우 객체의 주목할만한 변경 사항이 무시 될 수있는 속성이 거의 평가되지 않습니다.

또한 데이터 세트에 따라 언더 피트오버 피트 로 보일 수 있습니다 . 단일 속성으로 입력을 99 % 올바르게 분류 할 수있는 경우 추상화를 단일 특성으로 단순화하여 모델을 데이터에 과적 합 합니다. 이 경우 기준의 1 %를 99 % 클래스로 너무 일반화하거나 모델을 너무 많이 지정하여 하나의 클래스 만 수 있습니다 .

모델이 끝났거나 적합하지 않다고 말하는 합리적인 방법은 교차 검증을 수행하는 것입니다. 데이터 세트를 k 개의 부분 으로 나누고 분석하기 위해 하나를 선택하고 다른 k-1 개 를 사용 하여 모델을 학습합니다. 입력 자체가 치우 치지 않는다는 점을 고려하면 실제 처리에서 모델을 사용하는 동안 훈련 및 평가할 데이터의 편차가 클 수 있어야합니다.


5

간단히 말해서, 한 가지 일반적인 접근 방식은 모델의 복잡성을 증가 시켜서 단순하고 가장 적합하지 않을 수 있으며 교차 검증, 부트 스트랩, 기타

매개 변수 (인공 신경망의 숨겨진 뉴런 수, 임의의 포리스트의 나무 수)를 추가하거나 모델에서 정규화 (종종 람다 또는 지원 벡터 시스템의 경우 C) 용어를 완화하여 복잡성을 증가시킵니다.


3

Finance의 CAPM (Capital Asset Pricing Model)은 언더 피트 모델의 전형적인 예입니다. "투자자는 다각화 할 수없는 위험에 대해서만 비용을 지불합니다"라는 아름다운 이론을 바탕으로 예상 초과 수익률은 시장 수익률과 상관 관계가 있습니다.

공식 [0] Ra = Rf + B (Rm-Rf) 여기서 Ra는 자산의 예상 수익률이고, Rf는 무위험 수익률, Rm은 시장 수익률, 베타는 주식 프리미엄과의 상관 관계입니다. (Rm-Rf)

이것은 아름답고 우아하며 잘못입니다. 투자자들은 소량의 주식과 가치 (도서 시장 또는 배당 수익률에 의해 정의 된) 주식을 더 많이 요구하는 것 같습니다.

Fama and French [1]는 모델에 대한 업데이트를 제공하여 크기 및 값에 대한 추가 베타를 추가했습니다.

일반적으로 어떻게 알 수 있습니까? 예측이 잘못되고 논리적 설명이있는 다른 변수가 예측 품질을 높입니다. 소액의 주식이 분산 불가능한 위험과 무관하게 위험하다고 생각하는 이유를 쉽게 이해할 수 있습니다. 데이터가 뒷받침하는 좋은 이야기입니다.

[0] http://www.investopedia.com/terms/c/capm.asp [1] http://en.wikipedia.org/wiki/Fama%E2%80%93French_three-factor_model

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.