모델 선택 또는 정규화 후 GLM


12

이 질문을 두 부분으로 나누고 싶습니다. 둘 다 일반 선형 모델을 다루지 만, 첫 번째는 모델 선택을 다루고 다른 하나는 정규화를 다룹니다.

배경 : 나는 예측과 설명을 위해 GLM (선형, 로지스틱, 감마 회귀) 모델을 사용합니다. " 회귀로하는 정상적인 일 "을 언급 할 때, 나는 주로 (i) 계수에 대한 신뢰 구간, (ii) 예측에 대한 신뢰 구간 및 (iii) 계수와 같은 계수의 선형 조합에 관한 가설 검정은 다음과 같이 설명합니다. 치료 A와 치료 B의 차이가 있습니까? "

다음 각 항목에서 일반적인 이론을 사용하여 이러한 일을 할 수있는 능력을 합법적으로 잃습니까? 그렇다면 이러한 것들이 순수한 예측에 사용 된 모델에만 실제로 좋은가?

I. GLM이 일부 모델 선택 프로세스를 통해 적합해진 경우 (구체적으로 AIC를 기반으로 한 단계적 절차라고 함)

II. 정규화 방법을 통해 GLM이 적합한 경우 (예 : R에서 glmnet 사용)

제 생각에는 기술적으로 " 회귀로하는 정상적인 일 "에 대해서는 부트 스트랩을 사용해야 하지만 실제로는 그 누구도이를 준수하지 않아야합니다.

추가 :
몇 가지 응답을 받고 다른 곳을 읽은 후 여기에 내 의견이 있습니다 (다른 사람이 혜택을 받고 수정을 받기 위해).

I.
A) RE : 오류 일반화. 홀드 아웃 세트가 없을 때 새 데이터에 대한 오류율을 일반화하려면 교차 검증이 작동 할 수 있지만 중첩 루프를 사용하여 각 접기마다 프로세스를 완전히 반복해야하므로 기능 선택, 매개 변수 조정 등을 수행해야합니다. 매번 독립적으로 수행됩니다. 이 아이디어는 모든 모델링 노력 (벌칙을 포함)을 유지해야합니다.

B) RE : 가설 검정과 GLM의 신뢰 구간.일반화 된 선형 모델에 대해 모델 선택 (기능 선택, 매개 변수 조정, 변수 선택)을 사용하고 홀드 아웃 세트가 존재하는 경우 모델을 파티션에서 학습 한 다음 나머지 데이터 또는 전체 데이터 세트에 모델을 맞추는 것이 허용됩니다. 해당 모델 / 데이터를 사용하여 가설 검정 등을 수행하십시오. 홀드 아웃 세트가 존재하지 않으면 각 부트 스트랩 샘플에 대해 전체 프로세스가 반복되는 한 부트 스트랩을 사용할 수 있습니다. 예를 들어 변수가 항상 선택되지는 않기 때문에 수행 할 수있는 가설 검정이 제한됩니다.

C) RE : 향후 데이터 세트에 대한 예측을 수행하지 않음그런 다음 이론과 몇 가지 가설 검정에 따라 목적이있는 모델을 맞추고 모델에 모든 변수를 남겨 두는 것도 고려할 수 있습니다 (유의 적이든 아니든) (Hosmer 및 Lemeshow의 선을 따라). 이것은 작은 변수 집합 고전 유형의 회귀 모델링이며 CI 및 가설 검정을 사용할 수 있습니다.

D) RE : 불이익을받은 회귀. 도입 된 편향으로 인해 부트 스트랩이 있어도 CI 및 가설 테스트가 현명하지 않게되므로, 예측에만 적합하거나 (위의 B에서와 같이 다른 데이터 세트에 적용 할 피처 선택의 유형으로) 어드바이스도 없습니다.


1
사람들은 때때로 무의식적으로 (예 : 원하는 결과를 얻기 때문에 통계를 오용 함) 고의적으로 (부트 스트랩을했고 결과에 실질적으로 영향을 미치지 않았습니다) 이렇게합니다. 당신의 요지는 유효하며 Harrell 교수는 그의 책 서문에서 부트 스트랩이 유익하다고 지적합니다.
suncoolsu

1
당신의 요점 (II)에 대한 "예"와 같은 것이 있습니다 : arxiv.org/abs/1001.0188
Alex

답변:


5

당신은 "데이비드 프리드먼의 용지를 확인 할 수 . 회귀 방정식 심사에 참고 "(ungated)

시뮬레이션에서 완전히 상관되지 않은 데이터를 사용하여 관측 수에 비해 많은 예측 변수가있는 경우 표준 스크리닝 절차에서 많은 우연한 예측 변수와 매우 중요한 F를 포함하는 최종 회귀 분석이 생성됩니다. 통계량. 최종 모델은 결과를 예측하는 데 효과적이지만이 성공은 허구입니다. 또한 점근 적 계산을 사용하여 이러한 결과를 보여줍니다. 제안 된 솔루션에는 표본을 선별하고 전체 데이터 세트에서 모형을 평가하고 예측 변수보다 최소 10 배 이상의 관측치를 사용하는 것이 포함됩니다.


참고 : 부트 스트랩이 효과적인 솔루션이 되려면 스크리닝이 시작되기 전에 시작하여 부트 스트랩 샘플을 스크리닝 한 다음 계수를 계산하여 전체 절차를 부트 스트랩해야합니다. 그러나 이제 각 회귀마다 예측 변수에 다른 세트가 있으며 더 이상 이들 중 하나에 대한 분포를 계산하는 방법이 명확하지 않습니다. 그러나 결과의 예측 값에 대한 부트 스트랩 신뢰 구간이 효과적 일 수 있습니다.
찰리

@charlie : [나는 당신이 II가 아니라 I. (모델 선택)에게만 말하고 있다는 것을 정확하게 읽습니까? (벌칙)] 예측 구간에 대해 모델 선택을 사용한 다음 해당 모델에서 예측을 부트 스트랩하는 것이 유효하지만 다른 경우 전체 프로세스를 부트 스트랩해야한다고 말하는가?
B_Miner

@charlie 제안 된 샘플 선별 솔루션에 대해. 데이터 분할, (ab) 한 세트 (모델 선택 등)를 사용한 다음 해당 모델을 나머지 데이터에 적용-가설 검정 CI에 대한 기존 이론을 사용하여 적합한 모델을 사용하여 해당 데이터에 적용 기타?
B_Miner

나는 모델 선택에 대해서만 생각하고 있었지만, 그것은 페널티 회귀에 대해 많이 알지 못했기 때문입니다. 모델의 예측에 대한 추론을 얻으려면 전체 프로세스를 부트 스트랩해야한다고 말하고 싶습니다. 전체 문제는 하나의 샘플에서 일부 변수를 포함하고 다른 변수를 제외하면 확대되는 가짜 상관 관계를 찾을 수 있다는 것입니다. 이 문제를 해결할 수있는 유일한 방법은 여러 샘플 (예 : 부트 스트랩)을 보는 것입니다. 물론 아무도 실제로 이것을하지 않습니다.
Charlie

모델 선택 절차를 사용하여 샘플의 한 파티션을 사용하여 모델을 만든 다음 다른 파티션 또는 전체 샘플을 추론합니다.
Charlie

2

1) 예, 당신은 이것을 잃어 버립니다. 예를 들어 Harrell Regression Modeling Strategies, Wiley가 발행 한 책 또는 David Cassell이 제시 한 "Stopping Stepwise"라는 논문 (예 : www.nesug.org/proceedings/nesug07/sa/sa07.pdf)을 참조하십시오.


나는이 논문을 보았습니다 – 매우 흥미 롭습니다. 두 가지 질문이 있습니다. 1) 로지스틱 회귀 분석을 수행합니다. CI 또는 가설 테스트를 수행하는 유일한 방법은 hosmer 및 lemeshow 스타일로 모델을 작성하는 것 같습니다 (p가 큰 데이터 세트 제외)? 따라서 점 추정치에만 모형을 "사용"할 수 있습니까? 2) 귀하의 논문은 다른 대안들 중에서 올가미에 대해 논의합니다. 이것이 나중에 가설 테스트를 허용하거나 모델 선택의 더 나은 옵션으로 "간단하게"제공된다는 것을 알고 있습니까?
B_Miner
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.