공변량 및 이진 결과 변수 가 있다고 가정 합니다. 이러한 공변량 중 일부는 여러 수준으로 범주 형입니다. 다른 것들은 연속적입니다. "최상의"모델을 어떻게 선택 하시겠습니까? 즉, 모형에 포함 할 공변량을 어떻게 선택합니까?x 1 , … , x n y
간단한 로지스틱 회귀 분석을 사용하여 각 공변량으로 각각 를 모델링 하고 유의미한 연관성을 갖는 것을 선택 하시겠습니까?
공변량 및 이진 결과 변수 가 있다고 가정 합니다. 이러한 공변량 중 일부는 여러 수준으로 범주 형입니다. 다른 것들은 연속적입니다. "최상의"모델을 어떻게 선택 하시겠습니까? 즉, 모형에 포함 할 공변량을 어떻게 선택합니까?x 1 , … , x n y
간단한 로지스틱 회귀 분석을 사용하여 각 공변량으로 각각 를 모델링 하고 유의미한 연관성을 갖는 것을 선택 하시겠습니까?
답변:
이것은 아마도 좋지 않은 일입니다. 모든 개별 공변량을 먼저 검토 한 다음 유의 한 모형을 사용하여 모형을 작성하는 것은 논리적으로 자동 검색 절차와 동일합니다. 이 방법은 직관적이지만이 절차에서 얻은 추론은 유효하지 않습니다 (예 : 실제 p- 값은 소프트웨어에서보고 한 것과 다릅니다). 초기 공변량 세트의 크기가 클수록 문제가 확대됩니다. 어쨌든이 작업을 수행하면 (그리고 불행히도 많은 사람들이 수행하는 경우) 결과 모델을 진지하게 받아 들일 수 없습니다. 대신 완전히 새로운 스터디를 실행하여 독립적 인 샘플을 수집하고 이전 모델을 피팅하여 테스트해야합니다. 그러나 여기에는 많은 리소스가 필요하며 프로세스에 결함이 있고 이전 모델이 불량한 것이므로많은 자원을 낭비 합니다.
더 나은 방법은 당신에게 실질적인 관심의 모델을 평가하는 것입니다. 그런 다음 모델 유연성 (예 : AIC)에 불이익을주는 정보 기준을 사용하여 해당 모델간에 조정하십시오. 로지스틱 회귀 분석의 경우 AIC는 다음과 같습니다.
여기서 는 해당 모델에 포함 된 공변량의 수입니다. AIC에 대해 가장 작은 값을 가진 모델을 원하며 모든 것이 동일합니다. 그러나 항상 그렇게 간단한 것은 아닙니다. 여러 모델이 AIC에 대해 유사한 값을 갖는 경우 가장 낮을 수 있지만주의하십시오.
다른 소프트웨어가 다른 정보를 출력하기 때문에 여기에 AIC에 대한 완전한 공식을 포함시킵니다. 우연히 계산해야 할 수도 있고 최종 AIC 또는 그 사이의 모든 것을 얻을 수도 있습니다.
회귀 모델에서 어떤 변수를 사용할지, 여러 가지, 나쁘고, 끔찍한 것을 선택하는 방법 에는 여러 가지가 있습니다. Sander Greenland의 간행물을 찾아 볼 수도 있습니다. 그 중 다수는 변수 선택과 관련이 있습니다.
그러나 일반적으로 몇 가지 일반적인 "규칙"이 있습니다.