이 질문을 두 부분으로 나누고 싶습니다. 둘 다 일반 선형 모델을 다루지 만, 첫 번째는 모델 선택을 다루고 다른 하나는 정규화를 다룹니다.
배경 : 나는 예측과 설명을 위해 GLM (선형, 로지스틱, 감마 회귀) 모델을 사용합니다. " 회귀로하는 정상적인 일 "을 언급 할 때, 나는 주로 (i) 계수에 대한 신뢰 구간, (ii) 예측에 대한 신뢰 구간 및 (iii) 계수와 같은 계수의 선형 조합에 관한 가설 검정은 다음과 같이 설명합니다. 치료 A와 치료 B의 차이가 있습니까? "
다음 각 항목에서 일반적인 이론을 사용하여 이러한 일을 할 수있는 능력을 합법적으로 잃습니까? 그렇다면 이러한 것들이 순수한 예측에 사용 된 모델에만 실제로 좋은가?
I. GLM이 일부 모델 선택 프로세스를 통해 적합해진 경우 (구체적으로 AIC를 기반으로 한 단계적 절차라고 함)
II. 정규화 방법을 통해 GLM이 적합한 경우 (예 : R에서 glmnet 사용)
제 생각에는 기술적으로 " 회귀로하는 정상적인 일 "에 대해서는 부트 스트랩을 사용해야 하지만 실제로는 그 누구도이를 준수하지 않아야합니다.
추가 :
몇 가지 응답을 받고 다른 곳을 읽은 후 여기에 내 의견이 있습니다 (다른 사람이 혜택을 받고 수정을 받기 위해).
I.
A) RE : 오류 일반화. 홀드 아웃 세트가 없을 때 새 데이터에 대한 오류율을 일반화하려면 교차 검증이 작동 할 수 있지만 중첩 루프를 사용하여 각 접기마다 프로세스를 완전히 반복해야하므로 기능 선택, 매개 변수 조정 등을 수행해야합니다. 매번 독립적으로 수행됩니다. 이 아이디어는 모든 모델링 노력 (벌칙을 포함)을 유지해야합니다.
B) RE : 가설 검정과 GLM의 신뢰 구간.일반화 된 선형 모델에 대해 모델 선택 (기능 선택, 매개 변수 조정, 변수 선택)을 사용하고 홀드 아웃 세트가 존재하는 경우 모델을 파티션에서 학습 한 다음 나머지 데이터 또는 전체 데이터 세트에 모델을 맞추는 것이 허용됩니다. 해당 모델 / 데이터를 사용하여 가설 검정 등을 수행하십시오. 홀드 아웃 세트가 존재하지 않으면 각 부트 스트랩 샘플에 대해 전체 프로세스가 반복되는 한 부트 스트랩을 사용할 수 있습니다. 예를 들어 변수가 항상 선택되지는 않기 때문에 수행 할 수있는 가설 검정이 제한됩니다.
C) RE : 향후 데이터 세트에 대한 예측을 수행하지 않음그런 다음 이론과 몇 가지 가설 검정에 따라 목적이있는 모델을 맞추고 모델에 모든 변수를 남겨 두는 것도 고려할 수 있습니다 (유의 적이든 아니든) (Hosmer 및 Lemeshow의 선을 따라). 이것은 작은 변수 집합 고전 유형의 회귀 모델링이며 CI 및 가설 검정을 사용할 수 있습니다.
D) RE : 불이익을받은 회귀. 도입 된 편향으로 인해 부트 스트랩이 있어도 CI 및 가설 테스트가 현명하지 않게되므로, 예측에만 적합하거나 (위의 B에서와 같이 다른 데이터 세트에 적용 할 피처 선택의 유형으로) 어드바이스도 없습니다.