과적 합 및 과적 합


20

과적 합과 과적 합에 대해 조사한 결과 이들이 정확히 무엇인지 이해했지만 그 이유를 찾을 수 없습니다.

과적 합과 과적 합의 주된 이유는 무엇입니까?

모델 훈련에서이 두 가지 문제에 직면하는 이유는 무엇입니까?


1
당신은 찾을 수 있습니다 "overfitting"의 실제 예를 무엇입니까? 유용
Silverfish

답변:


30

가장 간단한 방법으로 답변을 드리겠습니다. 이러한 각 문제에는 고유 한 원점이 있습니다.

과적 합 : 데이터는 노이즈가 많으며 , 이는 측정 오차, 영향력있는 임의의 요인, 관찰되지 않은 변수 및 쓰레기 상관 관계로 인해 실제와의 편차가있어 설명 요인과의 실제 관계를보기가 더 어렵다는 것을 의미합니다. 또한 일반적으로 완전하지 않습니다 (모두의 예는 없습니다).

예를 들어, 키와 키를 기준으로 남학생과 여학생을 분류하려고한다고 가정 해 봅시다. 우리는 남자 아이들이 여자 아이들보다 평균 키가 더 크더라도, 중복되는 영역이 매우 커서, 그 정보를 가지고 그것들을 완벽하게 분리하는 것이 불가능하다는 것을 알고 있습니다. 데이터의 밀도에 따라, 충분히 복잡한 모델은 이론적으로 훈련에서 가능한 것보다이 작업에서 더 나은 성공률을 달성 할 수 있습니다.데이터 포인트는 일부 포인트가 단독으로 독립 할 수있는 경계를 그릴 수 있기 때문입니다. 따라서 키가 2.04 미터 인 사람 만 있고 여자 인 경우이 모델 주위에 작은 원을 그리면 키가 2.04 미터 인 임의의 사람이 여자 일 가능성이 높습니다.

그것의 근본 원인 은 훈련 데이터를 너무 많이 신뢰하고 있습니다 (예에서 모델은 키가 2.04 인 남성이 없으므로 여성에게만 가능하다고 말합니다).

언더 피팅 은 모델이 데이터의 실제 복잡성 (즉, 데이터의 비 랜덤 변경)을 인식하지 못하는 반대 문제입니다. 이 모델은 노이즈가 실제보다 크다고 가정하고 너무 단순한 형태를 사용합니다. 따라서 데이터 집합에 어떤 이유로 든 소년보다 훨씬 많은 소녀가있는 경우 모델은 소녀처럼 모두 분류 할 수 있습니다.

이 경우 모델 은 데이터를 충분히 신뢰하지 않았으며 편차가 모두 노이즈라고 가정했습니다 (예에서 모델은 소년이 단순히 존재하지 않는다고 가정 함).

결론은 다음과 같은 이유로 우리는 이러한 문제에 직면한다는 것입니다.

  • 완전한 정보가 없습니다.
  • 우리는 데이터가 얼마나 시끄러운 지 알지 못합니다 (얼마나 많은 데이터를 신뢰해야하는지 모르겠습니다).
  • 데이터를 생성 한 기본 기능과 최적의 모델 복잡성을 미리 알 수 없습니다.

2
이력서에 오신 것을 환영합니다. 좋은 답변, 내가 대답을 델 싶어요 ...
Haitao Du

1
나는 "그리기 경계"와 "원"에 관한 부분이 약간 혼란 스럽다고 생각합니다 ...
Easymode44

나는 남성과 여성 사이의 키를 예측하는 예가 과적 합이 아니라 저 적합에 속한다고 주장 할 뿐이다.
Digio

6

과적 합은 모형이 원래 데이터에서 실제로 모델링하는 변수를 추정하지만 새로운 데이터 세트 (유지, 교차 검증, 예측 등)에서는 제대로 추정하지 않는 경우입니다. 모델에 너무 많은 변수 또는 추정값 (더미 변수 등)이 있으며 이로 인해 모델이 원본 데이터의 노이즈에 너무 민감 해집니다. 원본 데이터의 노이즈를 과도하게 맞추면 모델의 예측이 좋지 않습니다.

언더 피팅은 모형이 원래 데이터 또는 새 데이터에서 변수를 제대로 추정하지 않는 경우입니다. 모형에 종속 변수의 동작을 더 잘 추정하고 예측하는 데 필요한 일부 변수가 없습니다.

오버 피팅과 언더 피팅 간의 밸런싱 동작은 까다 롭고 때로는 명확한 결승선이 없습니다. 계량 경제학 시계열 모델링에서이 문제는 정규화 모델 (LASSO, Ridge Regression, Elastic-Net)을 사용하여 모델의 변수 수를 각각 줄임으로써 계수의 민감도를 줄임으로써 과적 합을 줄이는 데 특히 적합하게 잘 해결됩니다. 귀하의 데이터 또는이 둘의 조합.


5

아마도 연구하는 동안 다음 방정식을 보았습니다.

Error = IrreducibleError + Bias² + Variance.

모델 훈련에서이 두 가지 문제에 직면하는 이유는 무엇입니까?

학습 문제 자체는 기본적으로 편향분산 의 균형 입니다.

과적 합과 과적 합의 주된 이유는 무엇입니까?

짧은: 소음.

긴 : 돌이킬 수없는 오류 : 데이터로 측정 오류 / 변동뿐만 아니라 모델로 표현할 수없는 대상 기능의 일부. 목표 변수를 재 측정하거나 가설 공간을 변경하면 (예 : 다른 모델 선택)이 구성 요소가 변경됩니다.

편집 (다른 답변에 연결하기 위해) : 복잡성이 다양함에 따라 모델 성능 :

.

여기서 errorD 는 전체 분포 D에 대한 오류입니다 (실제로는 테스트 세트로 추정 됨).


3
용어를 정의해야한다고 생각합니다. OP는 질문에 "바이어스"또는 "분산"이라는 용어를 사용하지 않으며 답변에 "과적 합"또는 "부적합"이라는 용어를 사용하지 않습니다 (질문을 인용 한 경우 제외). 이 용어들 사이의 관계를 설명하면 이것이 훨씬 분명한 대답이라고 생각합니다.
그레고르

4

거의 모든 통계 문제는 다음과 같은 형식으로 설명 할 수 있습니다.

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

에프^에프~에프

이런 식으로 통계적 문제를 살펴보면 모델 피팅은 항상 부족 피팅과 과잉 피팅 간의 균형이며 솔루션은 항상 타협입니다. 데이터가 무작위적이고 시끄럽기 때문에이 문제에 직면합니다.


2

과적 합과 과적 합의 주된 이유는 무엇입니까?

과적 합의 경우 모델이 훈련 데이터에 잘 맞지 않을 정도로 복잡합니다. 언더 피팅의 경우 모델이 너무 단순합니다.

모델 훈련에서이 두 가지 문제에 직면하는 이유는 무엇입니까?

데이터에 대한 "정확한"모델과 매개 변수를 선택하기는 어렵습니다.


0

과적 합 및 과적 합은 기본적으로 가정 된 모델에 의한 데이터에 대한 부적절한 설명이며 데이터를 과도하게 설명하거나 과소 평가하는 모델로 볼 수 있습니다. 이는 데이터를 설명하는 데 사용 된 모델과 데이터를 생성하는 모델 간의 관계에 의해 생성됩니다. 설명하려는 시도에서 기본 모델에 액세스 할 수 없으므로 판단은 불확실성 또는 오류 막대와 같은 다른 요인에 의해 결정됩니다.

모든 분산을 맞추기 위해 너무 복잡한 모형을 사용하면 지나치게 적합합니다. 이것은 모델 선택에서 자유 통치를하고 오류 막대에 너무 많은 중요성을 부여함으로써 (또는 모든 가변성을 설명하려고 시도함에 따라 생성됩니다. 데이터를 설명하기에는 너무 간단한 모델로 제한하고 오차 막대에 충분한 중요성을 지정하지 않거나 변동성을 설명하지 않으면 적합하지 않습니다.

이 두 가지를 어떻게 피할 수 있습니까? 정보가 뒷받침 된 모델 (데이터에서 도출 된 것이 아니라 문제에 대한 사전 지식에서 나온 것)과 의미있는 불확실성.


0

간단히 말해서 훈련 데이터 세트에는 나타나지만 전체 모집단에 존재하지 않는 패턴의 결과로 오버 피팅이 나타납니다 (행운이 나타나지 않은 경우). 탐지 할 수있는 가능한 패턴의 수가 적기 때문에 표본에 무작위로 나타나는 패턴 중 하나의 확률도 그다지 크지 않습니다. 100 개 개별 표본을 채집하는 모집단에서 1,000,000 개의 변수에 대한 상관 관계를 연구하려는 경우 이러한 상황이 발생할 수 있습니다. 일부 기능은 서로 완전히 독립적이지만 무작위로 큰 샘플 상관 관계를 나타낼 수 있습니다.

과적 합의 또 다른 이유는 치우친 샘플링입니다 (샘플이 실제로 무작위가 아니기 때문에 "샘플 가짜 패턴"이 있습니다). 예를 들어, 특정 종류의 버섯의 평균 크기를 조사하여 자연에서 찾음으로써 과대 평가할 가능성이 높습니다 (더 큰 버섯을 찾기가 더 쉽습니다)

반면에 언더 피팅은 매우 간단한 현상입니다. 이것은 두 가지 매우 기본적인 것을 의미 할 수 있습니다. A) 모집단 패턴을 학습하기위한 모델에 대한 데이터가 충분하지 않습니다. 또는 B) 모델이이를 반영 할만큼 강력하지 않습니다.

다음과 같은 현상이 발생하면 A의 사례를 찾을 수 있습니다 와이=에이엑스+ϵ 어디에 ϵ 는 평균이 0이고 표준 편차가 1000 인 랜덤 변수이며, (추정하려는 매개 변수)의 실제 값은 1입니다. y와 x가 서로 관련이 없거나 독립적이라고 주장합니다.

예를 들어, 모델이 단순 할 경우 B가 발생할 수 있습니다. 와이=엑스2+ϵ 선형 회귀를 시도해보세요. 행운을 빌어 요!


0

짧은 답변:

과적 합의 주된 이유 는 소규모 훈련 세트가있을 때 복잡한 모델을 사용하기 때문입니다 .

언더 피팅 의 주된 이유 는 너무 단순하고 훈련 세트에서 잘 수행 할 수없는 모델을 사용하기 때문입니다 .


과적 합의 주된 이유는 무엇입니까?

  • 고용량 모델은 테스트 세트에 적합하지 않은 트레이닝 세트의 특성을 기억하여 초과 적합 할 수 있습니다.

-심층 학습 도서, Goodfellow et al.

머신 러닝의 목표는 테스팅 데이터에서도 잘 수행 될 수 있도록 훈련 세트에 대한 모델을 훈련시키는 것입니다. 그러나 교육 세트에서 우수한 성능을 얻는 것이 항상 테스트 세트에서 우수한 성능으로 해석됩니까? 훈련 데이터가 제한되어 있기 때문에 그렇지 않습니다 . 제한된 데이터가있는 경우 모델에서 해당 제한된 트레이닝 세트에 적합한 패턴을 찾을 수 있지만 해당 패턴 다른 경우 (예 : 테스트 세트)로 일반화되지 않습니다 . 이것은 다음 중 하나로 해결할 수 있습니다.

A- 훈련 세트에서 임의의 패턴을 가질 가능성을 줄이기 위해 모델에 더 큰 훈련 세트를 제공합니다.

비- 더 간단한 모델을 사용하여 모델이 훈련 세트에서 이러한 임의의 패턴을 찾을 수 없도록합니다. 더 복잡한 모델은 더 복잡한 패턴을 찾을 수 있으므로 훈련 세트가 임의의 패턴을 포함하지 않을만큼 충분히 큰지 확인하려면 더 많은 데이터가 필요합니다.

(예 : 트럭에서 선박을 감지하도록 모델을 가르치고 각기 10 개의 이미지를 가지고 있다고 상상해보십시오. 이미지에있는 대부분의 선박이 물에있는 경우, 모델은 파란색 배경의 사진을 배로 분류하는 방법을 배울 수 있습니다 배와 트럭에 대한 10,000 개의 이미지가 있다면 훈련 세트에 다양한 배경의 배와 트럭이 포함될 가능성이 높아지고 모델은 더 이상 파란색 배경에 의존 할 수 없습니다.)

부족한 주된 이유는 무엇입니까?

  • 언더 피팅은 모형이 훈련 세트에서 충분히 낮은 오차 값을 얻을 수 없을 때 발생합니다.

  • 용량이 적은 모델은 훈련 세트에 맞추기 어려울 수 있습니다.

-심층 학습 도서, Goodfellow et al.

언더 피팅은 모델이 훈련 세트를 배우기에 충분하지 않은 경우에 발생합니다. 즉, 모델이 너무 단순합니다. 문제 해결을 시작할 때마다 최소한 훈련 세트에서 우수한 성능을 얻을 수있는 모델을 원하고 초과 피팅을 줄이려고합니다. 일반적으로 언더 피팅 솔루션은 매우 간단합니다.보다 복잡한 모델을 사용하십시오.


0

가설 / 모델 방정식이있는 예를 생각해 보자.

y=q*X+c,

여기서 X = 기능 목록, y = 라벨 및 q와 c는 학습해야하는 계수입니다.

우리가 충분히 큰 계수 값을 생각해 내고 그러한 경우에 특징 값 (즉, X)을 억제하기 시작하면 X 값에 관계없이 항상 y의 상수 값을 얻습니다. 이를 매우 치우친 모델 또는 부적합 모델이라고합니다.

다른 복잡한 가설의 예를 생각해 보자.

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

최상의 계수 값을 식별 한 후 훈련 데이터의 경우 최소 손실을 얻을 수 있습니다. 모델이 너무 복잡하고 밀접하게 결합되어 훈련 데이터와 매우 잘 작동하기 때문입니다. 보이지 않는 데이터를 사용하면 반대의 결과를 얻을 수 있습니다. 이를 고도 분산 또는 과적 합 모델이라고합니다.

바이어스 된 모델은 모델 선택에서 더 복잡해야하지만, 분산이 높은 모델에서는 모델 선택에서 복잡성이 감소해야합니다. 정규화 기술은 적절한 수준의 모델 복잡성을 식별하는 데 도움이되며이 기술을 통해 두 가지 문제를 모두 극복 할 수 있습니다.


답에 수학 서식을 사용할 수 있습니다. 추가 정보 : math.meta.stackexchange.com/questions/5020/…
Sycorax는
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.