로지스틱 회귀 분석에서 모델 선택 및 모델 성능에 대한 질문이 있습니다. 세 가지 다른 가설을 기반으로하는 세 가지 모델이 있습니다. 처음 두 모델 (z 및 x로 이름 지정)은 각 모델에서 하나의 설명 변수 만 가지며 세 번째 모델 (w로 이름 지정)은 더 복잡합니다. 나는 w 모델에 대한 변수 선택을 위해 AIC를 사용하고 종속 변수를 가장 잘 설명하는 세 가지 모델 중 어느 것을 비교하기 위해 AIC를 사용하고 있습니다. w 모델의 AIC가 가장 낮으며 모델의 예측 능력에 대한 아이디어를 얻기 위해 해당 모델에 대한 성능 통계를 수행하려고합니다. 내가 아는 것은이 모델이 다른 두 모델보다 낫지 만 그것이 얼마나 좋지는 않다는 것입니다.
모델을 배우기 위해 모든 데이터를 사용했기 때문에 (세 모델을 모두 비교할 수 있도록) 모델 성능을 어떻게 처리해야합니까? 내가 수집 한 것에서 AIC를 사용하여 모델 선택에서 얻은 최종 모델에 대해 k- 폴드 교차 검증을 수행 할 수는 없지만 모든 설명 변수가 포함 된 처음부터 시작해야합니까?이 맞습니까? 나는 그것이 AIC로 선택한 최종 모델이라고 생각합니다. 그것이 얼마나 잘 수행되고 있는지 알고 싶지만 모델이 바이어스 될 수 있도록 모든 데이터에 대해 훈련했다는 것을 알고 있습니다. 따라서 모든 접힘에서 모든 설명 변수로 처음부터 시작해야하는 경우 일부 접힘에 대해 다른 최종 모델을 얻게됩니다. 가장 예측 가능한 검정력을 제공 한 접힘에서 모형을 선택하고이를 비교하기 위해 전체 데이터 세트에 적용 할 수 있습니까? 다른 두 모델 (z 및 x)과 AIC? 아니면 어떻게 작동합니까?
내 질문의 두 번째 부분은 매개 변수 초과에 대한 기본 질문입니다. 156 개의 데이터 포인트가 있고 52는 1이고 나머지는 0입니다. w 모델에 대해 선택할 수있는 설명 변수가 14 개 있습니다. 매개 변수로 인해 모든 것을 포함 할 수는 없다는 것을 알고 있습니다. 관찰 변수 그룹의 10 % 만 관찰해야합니다. 나를 위해 5입니다. 생태학의 질문에 대답하려고합니다. 생태학을 기반으로 의존성을 가장 잘 설명하는 시작 변수를 선택해도됩니까? 또는 시작 설명 변수를 어떻게 선택합니까? 일부 변수를 완전히 제외하는 것이 옳지 않습니다.
그래서 세 가지 질문이 있습니다.
- 교차 검증으로 전체 데이터 세트에 대해 훈련 된 모델에서 성능을 테스트해도 괜찮습니까?
- 그렇지 않은 경우 교차 검증을 수행 할 때 최종 모델을 어떻게 선택합니까?
- 매개 변수를 초과하도록 시작 변수를 어떻게 선택합니까?
지저분한 질문과 무지에 대해 죄송합니다. 비슷한 질문을 받았지만 여전히 약간 혼란스러워합니다. 모든 생각과 제안을 감사하십시오.