작업을 수행하는 사람 일 때 수행중인 작업을 알고 있으면 모델에 과적 합한 시점에 대한 감각이 생깁니다. 우선, 모델의 조정 된 R 제곱에서 추세 또는 악화를 추적 할 수 있습니다. 주요 변수의 회귀 계수 p 값에서 유사한 저하를 추적 할 수도 있습니다.
그러나 다른 사람의 연구를 읽고 자신의 내부 모델 개발 프로세스에 대한 통찰력이 없으면 모델이 과적 합인지 여부를 명확하게 감지 할 수 있습니다.
작업을 수행하는 사람 일 때 수행중인 작업을 알고 있으면 모델에 과적 합한 시점에 대한 감각이 생깁니다. 우선, 모델의 조정 된 R 제곱에서 추세 또는 악화를 추적 할 수 있습니다. 주요 변수의 회귀 계수 p 값에서 유사한 저하를 추적 할 수도 있습니다.
그러나 다른 사람의 연구를 읽고 자신의 내부 모델 개발 프로세스에 대한 통찰력이 없으면 모델이 과적 합인지 여부를 명확하게 감지 할 수 있습니다.
답변:
모델을 직접 피팅 할 때는 일반적으로 피팅 프로세스 중에 AIC 또는 BIC 와 같은 정보 기준을 사용 하거나 , 최대 가능성을 기반으로하는 모델에 대한 우도 비율 검정 또는 최소 제곱을 기반으로하는 모델에 대한 F- 검정 을 사용합니다.
추가 매개 변수에 불이익을 준다는 점에서 모두 개념적으로 유사합니다. 모델에 추가 된 각각의 새 매개 변수에 대해 "추가 설명력"의 임계 값을 설정합니다. 그것들은 모두 정규화의 한 형태입니다 .
다른 모델의 경우 분석법 섹션에서 이러한 기법이 사용되는지 확인하고 매개 변수 당 관측치 수와 같은 경험 법칙을 사용합니다. 매개 변수 당 약 5 개 (또는 더 적은)의 관측치가있는 경우 궁금합니다.
중요한 것은 모델에서 변수가 "유의"할 필요는 없음을 항상 기억하십시오. 나는 혼란 스러울 수 있으며 다른 변수의 효과를 추정하는 것이 목표라면 그 근거에 포함되어야합니다.
Now suppose we invert the problem. say and the backward selection gave variables, what would have to be to make the probability of the model greater than some value ? we have
Setting we get - so BIC of the winning model has to win by a lot for the model to be certain.