많은 사용자에게 매우 기본적이라고 생각되는 질문이 있습니다.
선형 회귀 모델을 사용하여 (i) 여러 설명 변수와 내 응답 변수의 관계를 조사하고 (ii) 설명 변수를 사용하여 내 응답 변수를 예측합니다.
하나의 특정 설명 변수 X가 내 응답 변수에 큰 영향을 미치는 것으로 보입니다. 응답 변수에 대한 표본 외 예측을 목적으로이 설명 변수 X의 추가 값을 테스트하기 위해 두 가지 모델을 사용했습니다. 모델 (a)은 모든 설명 변수를 사용했으며 모델 (b)는 모든 변수를 사용했습니다. 변수 X를 제외하고 두 모델 모두에서 샘플 밖의 성능 만보고합니다. 두 모델 모두 거의 동일하게 작동하는 것으로 보입니다. 다시 말해, 설명 변수 X를 추가해도 샘플 외부 예측이 개선되지 않습니다. 또한 설명 변수 X가 내 응답 변수에 큰 영향을 미치는 것을 알기 위해 모델 (a), 즉 모든 설명 변수가있는 모델을 사용했습니다.
내 질문은 지금 :이 결과를 해석하는 방법? 간단한 결론은 변수 X가 추론 모델을 사용하여 응답 변수에 크게 영향을 미치는 것으로 보이지만 샘플 외부 예측을 개선하지 못한다는 것입니다. 그러나이 결과를 더 설명하는 데 어려움이 있습니다. 이것이 어떻게 가능하며이 발견에 대한 설명은 무엇입니까?
미리 감사드립니다!
추가 정보 : '상당한 영향'으로 0은 매개 변수 추정치의 최대 95 % 후방 밀도 간격에 포함되지 않음을 의미합니다 (베이지안 접근을 사용하는 경우). 빈번한 용어로, 이것은 p- 값이 0.05보다 낮은 것과 대략 일치합니다. 모든 모델 매개 변수에 대해 분산 (정보 없음) 사전만을 사용하고 있습니다. 내 데이터는 세로 구조로되어 있으며 총 7000 개의 관측치가 포함되어 있습니다. 표본 외 예측의 경우 데이터의 90 %를 사용하여 모델에 맞추고 데이터의 10 %를 사용하여 여러 복제를 사용하여 모델을 평가했습니다. 즉, 열차 테스트 분할을 여러 번 수행하고 결국 평균 성능 메트릭을보고합니다.