표본 외 예측을 개선하지 않는``중요 변수 ''-해석 방법?


10

많은 사용자에게 매우 기본적이라고 생각되는 질문이 있습니다.

선형 회귀 모델을 사용하여 (i) 여러 설명 변수와 내 응답 변수의 관계를 조사하고 (ii) 설명 변수를 사용하여 내 응답 변수를 예측합니다.

하나의 특정 설명 변수 X가 내 응답 변수에 큰 영향을 미치는 것으로 보입니다. 응답 변수에 대한 표본 외 예측을 목적으로이 설명 변수 X의 추가 값을 테스트하기 위해 두 가지 모델을 사용했습니다. 모델 (a)은 모든 설명 변수를 사용했으며 모델 (b)는 모든 변수를 사용했습니다. 변수 X를 제외하고 두 모델 모두에서 샘플 밖의 성능 만보고합니다. 두 모델 모두 거의 동일하게 작동하는 것으로 보입니다. 다시 말해, 설명 변수 X를 추가해도 샘플 외부 예측이 개선되지 않습니다. 또한 설명 변수 X가 내 응답 변수에 큰 영향을 미치는 것을 알기 위해 모델 (a), 즉 모든 설명 변수가있는 모델을 사용했습니다.

내 질문은 지금 :이 결과를 해석하는 방법? 간단한 결론은 변수 X가 추론 모델을 사용하여 응답 변수에 크게 영향을 미치는 것으로 보이지만 샘플 외부 예측을 개선하지 못한다는 것입니다. 그러나이 결과를 더 설명하는 데 어려움이 있습니다. 이것이 어떻게 가능하며이 발견에 대한 설명은 무엇입니까?

미리 감사드립니다!

추가 정보 : '상당한 영향'으로 0은 매개 변수 추정치의 최대 95 % 후방 밀도 간격에 포함되지 않음을 의미합니다 (베이지안 접근을 사용하는 경우). 빈번한 용어로, 이것은 p- 값이 0.05보다 낮은 것과 대략 일치합니다. 모든 모델 매개 변수에 대해 분산 (정보 없음) 사전만을 사용하고 있습니다. 내 데이터는 세로 구조로되어 있으며 총 7000 개의 관측치가 포함되어 있습니다. 표본 외 예측의 경우 데이터의 90 %를 사용하여 모델에 맞추고 데이터의 10 %를 사용하여 여러 복제를 사용하여 모델을 평가했습니다. 즉, 열차 테스트 분할을 여러 번 수행하고 결국 평균 성능 메트릭을보고합니다.


2
베이지안 접근 방식을 사용하기 때문에 결과는 이전의 데이터에 따라 달라집니다. 데이터 양이 증가함에 따라 이전에 대한 의존도가 감소하고 데이터와 사전에 동의하지 않는 정도까지 증가하기 때문에 이전 분포, 데이터 양 및 데이터 단독 준수 정도에 대한 정보를 제공하는 것이 유용합니다 이전 배포에.
whuber

1
@ whuber 나는 확산 (정보가없는) 이전의 것을 사용하고 있다고 언급하는 것을 잊었다. 따라서 이전 사양이 내 찾은 결과와 관련이 있다고 생각하지 않습니다. 잦은 선형 회귀 모델을 피팅하면 정확히 동일한 결과가 도출 될 것입니다.
dubvice

감사합니다. 가능한 몇 가지 설명을 배제하는 데 도움이됩니다.
whuber

1
보류 된 데이터로 모델을 다시 시작하거나 원래 데이터에 맞는 모델을 사용하고 있습니까? 두 경우 모두 가능한 문제는 보류 된 데이터에서 유형 II 오류가 발생한다는 것입니다. 아마도 변수가 관련이 있지만 원래는 힘이 부족했습니다 (이 경우 예측을 악화시킬 수있는 효과를 과대 평가하고 있음). 또는 변수가 관련이 없으며 유형 I 오류가 발생했습니다. 이러한 유형의 일이 발생할 수있는 많은 이유가 있습니다.
guy

1
RSME, MAE 및 AUC와 같은 몇 가지 메트릭을 사용했습니다 (연속적인 종속 변수가 특정 임계 값 미만인지 여부를 예측하려고합니다).
dubvice

답변:


3

특정 예측 변수가 통계적으로 유의할 때 실제로 모델의 예측 성능을 크게 향상 시킨다는 의미는 아닙니다. 예측 성능은 효과 크기와 더 관련이 있습니다. 예로서, 두 개의 예측과 선형 회귀 모델을 시뮬레이션 데이터를 아래의 기능 x1x2, 발작 및 두 모델 모두 하나 x1x2, 그리고 하나의 x1단독. 이 기능에서에 대한 효과 크기를 변경할 수 있습니다 x2. 이 함수 는 예측 성능을 측정하기 위해 두 계수의 계수 x1및 의 신뢰 구간 x2과 값을보고합니다.아르 자형2

기능은 다음과 같습니다

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

예를 들어, 우리가 얻는 기본값에 대해

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

따라서 x2모델에 포함하지 않으면 에 큰 영향을 미칩니다 .아르 자형2

그러나 효과 크기를 0.3으로 설정하면 다음과 같은 결과가 나타납니다.

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

계수는 여전히 중요하지만 의 개선 은 매우 작습니다.아르 자형2


통계적 유의성예측 성능 사이의 모호한 이분법은 여러 가지 방법으로 분석 수명을 단축시킵니다. (+1-CV 교수님을 환영합니다!)
usεr11852

-1

이것은 다중 회귀 분석에서 발생하는 상당히 정상적인 현상입니다. 가장 일반적인 이유는 예측 변수가 서로 관련되어 있기 때문입니다. 즉, 다른 예측 변수의 값에서 X를 유추 할 수 있습니다. 따라서 예측 변수가 유일한 예측 변수 인 경우 예측에 유용하지만 다른 예측 변수가 모두 있으면 추가 정보를 많이 제공하지 않습니다. 다른 예측 변수에서 X를 회귀하여이 경우인지 확인할 수 있습니다. 또한 무료 온라인 교과서 인 통계 학습의 요소에서 선형 회귀에 관한 장을 참조 할 것입니다.


1
질문에 설명 된 특정 상황을 다루기보다는 중요하지 않은 설명 변수를 설명하는 것 같습니다.
whuber

나는 그 자체로 응답과 크게 관련된 (즉, 간단한 회귀에서) 설명 변수를 설명하고 있는데, 이것은 "X는 응답 변수에 큰 영향을 미치는 것으로 보인다"는 의문을 의미합니다.
Denziloe

그러나이 경우 설명 변수 X가 응답 변수에 크게 영향을 미친다는 것을 알지 못했습니까? 어쩌면 나는 처음에 내 질문에서 명확하게 밝히지 않았지만 모든 설명 변수가있는 모델을 사용하여 설명 변수 X가 내 응답 변수에 큰 영향을 미친다는 것을 알았습니다.
dubvice

3
나는 질문을 의미로 읽었습니다. 엑스다중 회귀 상황에서 중요 합니다. 이것은 "여러 설명 변수"에 대한 언급에서 분명해 보입니다. 귀하의 답변으로 인해 OP가 혼동 될 수 있습니다.
whuber

1
네 whuber, 당신은 그것을 올바르게 이해했습니다. 이것이 내가 의미하는 바입니다. 나는 내 질문에 이것을 충분히 잘 설명했다.
dubvice
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.