적절한주의없이 사용하면 선형 회귀 / 분류 기가 절대적으로 초과 적합 할 수 있습니다.
5000
set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)
5000500
N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
플립 y
과 랜덤 클래스 사이에는 아무런 관계가 없어야하며 rand.class
, 완전히 독립적으로 결정되었습니다.
그러나 로지스틱 회귀 (선형 분류기)를 사용하여 임의 클래스로 임의 뒤집기를 예측하려고하면 관계가 있다고 생각합니다.
M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)
이러한 계수 중 하나의 실제 값은 0입니다. 그러나 보시다시피, 우리는 상당히 퍼져 있습니다. 이 선형 분류기는 과도하게 적합합니다.
−1515y == 1
y == 0
15
"과적 합"은 공식적으로 정의되지 않은 것 같습니다. 왜 그런 겁니까?
과적 합은 복잡한 매개 변수가있는 모델 클래스 의 맥락에서 가장 잘 이해 될 수 있습니다 . 이 경우, 복잡성을 약간 줄이면 모델 성능에 대한 기대치가 더 높아질 때 모델이 초과 적합하다고 할 수 있습니다.
모델 독립적 인 방식으로 개념을 정확하게 정의하는 것은 매우 어려울 것입니다. 단일 모델이 적합하기 때문에 초과 또는 미달되기 위해서는 비교할 무언가가 필요합니다. 위의 예 에서이 비교는 진실과 같았지만 일반적으로 진실을 모릅니다. 따라서 모델입니다!
훈련과 테스트 세트 성능 사이의 거리 측정이 그러한 공식화를 허용하지 않습니까?
그러한 개념이 있는데이를 낙관론이라고합니다. 다음에 의해 정의됩니다.
ω=Etest−Etrain
E
복잡도가 높은 모델이 둘 다 감소하더라도 테스트 세트의 성능이 기차보다 약간 나빠질 수 있기 때문에 과적 합의 본질을 얻지 못합니다 .