선형 회귀 분석에서의 유의성 모순 : 계수 대 유의 적이 지 않은 전체 F- 통계량에 대한 유의성 t- 검정


35

4 가지 범주 형 변수 (각 4 수준)와 숫자 출력 사이에 다중 선형 회귀 모델을 적합시킵니다. 내 데이터 세트에는 43 개의 관측치가 있습니다.

회귀는 모든 기울기 계수에 대해 t- 검정 에서 다음 p 값을 제공합니다 : .15 , .67 , .27 , .02 . 따라서 4 번째 예측 변수의 계수는 α = .05 신뢰 수준 에서 유의 합니다.t.15,.67,.27,.02α=.05

다른 한편으로, 회귀는 모든 기울기 계수가 0과 같다는 귀무 가설 의 전체 F 검정 에서 p 값을 제공 합니다. 내 데이터 세트의 경우이 p- 값은 .11 입니다.Fp.11

내 질문 :이 결과를 어떻게 해석해야합니까? 어떤 p 값을 사용해야하며 그 이유는 무엇입니까? 네 번째 변수에 대한 계수 가 α = .05 신뢰 수준 에서 0 과 크게 다른 가요?α=.05

나는 관련 질문을 본 적이 Ft 회귀 통계를 하지만 반대의 상황이 있었다 : 높은 t -test p -values 낮은 F - 테스트 p - 값은. 솔직히 선형 회귀 계수가 0과 크게 다른지 확인 하기 위해 t 테스트 와 함께 F 테스트 가 필요한 이유를 이해하지 못합니다 .t


2
각각 4 레벨의 4 개의 범주 형 변수가있는 경우 독립 변수에 대한 3 * 4 = 12 계수 (및 절편)가
있어야합니다

@ andrea : 나는 그것들을 수치 변수로 취급하기로 결정했습니다.
Leo

4
0.02는 거의 중요하지 않으며 (특히 총 5 개의 테스트가 있다는 사실을 고려하면) 0.11은 그리 높지 않습니다. 조금 더 많은 힘을 가짐으로써 전체 F- 검정도 중요 할 것입니다 (아마도 첫 번째 계수). 보다 보수적 인 해석은 이러한 결과 (0.02 p 값의 계수 포함)에 대한 확신이 없어야한다는 것입니다. 어느 쪽이든 .02와 .11의 차이를 너무 많이 읽지 않아야합니다.
Gala

답변:


37

다중 공선 성이 여기에서 진행되고 있는지 확실하지 않습니다. 확실히 수는 있지만 주어진 정보를 바탕으로 결론을 내릴 수는 없으며 시작하기를 원하지 않습니다. 첫 번째 추측은 이것이 다중 비교 문제 일 수 있다는 것입니다. 즉, 충분한 테스트를 실행하면 아무 것도 없어도 무언가가 나타납니다.

내가 겪고있는 문제 중 하나는 여러 비교 문제 가 항상 여러 쌍 비교를 검토하는 관점에서 논의 된다는 것입니다 ( 예 : 모든 고유 한 레벨 쌍에서 t- 검정 실행). (여러 비교를 유머러스하게 처리하려면 여기를 참조하십시오 .) 이렇게하면 사람들이이 문제가 나타나는 유일한 장소라는 인상을 남깁니다. 그러나 이것은 단순히 사실이 아닙니다. 여러 비교 문제가 모든 곳에서 나타납니다. 예를 들어 설명 변수가 4 개인 회귀 분석을 실행하면 동일한 문제가 발생합니다. 잘 설계된 실험에서 IV는 직교적일 수 있지만 사람들은 일차적, 직교 대비 세트에서 Bonferroni 교정을 사용하는 것에 대해 일상적으로 걱정하고 요인 ANOVA에 대해 두 번 생각하지 않습니다. 내 생각에 이것은 일관성이 없습니다.

글로벌 F 테스트는 소위 '동시'테스트입니다. 모든 예측 변수가 반응 변수와 관련이 없는지 확인 합니다. 동시 테스트는 전력 손실 Bonferroni 경로를 거치지 않고도 여러 비교 문제를 방지합니다. 불행히도, 당신이보고 한 것에 대한 나의 해석은 당신이 널 발견했다는 것입니다.

p.11


24

이 현상 (중요한 개별 변수에도 불구하고 중요하지 않은 전체 테스트)이 일종의 집계 "마스킹 효과"로 이해 될 수 있으며, 다중 공선 설명 변수에서 발생할 수는 있지만 그렇게 할 필요는 없습니다. 전혀. 또한 다중 비교 조정으로 인한 것이 아닌 것으로 밝혀졌습니다. 따라서이 답변은 이미 나타난 답변에 몇 가지 자격을 추가하고 있으며, 반대로 다중 공선 성 또는 다중 비교를 범인으로 봐야한다고 제안합니다.

이러한 주장의 타당성을 확립하기 위해 가능한 한 동일하지 않은 완전 직교 변수와 설명의 첫 번째에 의해서만 명시 적으로 결정되는 종속 변수 (좋은 양의 임의 오류 포함)를 생성합시다 다른 모든 것에 독립적). 에서 R(당신이 실험을하고자하는 경우, 재현성)이 같이 할 수 있습니다

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

설명 변수가 이진이라는 것은 중요하지 않습니다. 중요한 것은 직교성인데, 코드가 예상대로 작동하는지 확인하고 상관 관계를 검사하여 수행 할 수 있습니다. 실제로, 상관 관계 매트릭스는 흥미 롭습니다 . 작은 계수는 y첫 번째 (설계 상)를 제외한 모든 변수와 거의 관련이 없으며 비 대각선 0은 설명 변수의 직교성을 확인합니다.

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

첫 번째 변수 만 사용한 다음 첫 번째 변수 만 사용하여 일련의 회귀 분석을 실행 해 봅시다 . 간결하고 쉬운 비교를 위해 각 변수에는 첫 번째 변수의 행과 전체 F- 검정 만 표시됩니다.

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

(a) 첫 번째 변수의 유의미한 변화가 거의 없음, (a ') 여러 비교를 조정할 때도 첫 번째 변수가 유의미하게 유지되는 경우 (p <.05) ( 예 : 공칭 p- 값에 공칭 p- 값을 곱하여 Bonferroni 적용 (b) 첫 번째 변수의 계수는 거의 변하지 않지만 (c) 전체 유의성은 기하 급수적으로 증가하여 비유의 수준으로 빠르게 팽창합니다.

나는 종속 변수와 크게 독립적 인 설명 변수포함하면 회귀의 전체 p- 값을 "마스킹"할 수 있음을 증명하는 것으로 해석합니다 . 새 변수가 기존 변수와 종속 변수에 직교하는 경우 개별 p- 값이 변경되지 않습니다. (여기서 보여지는 작은 변화는 실수로 추가 된 임의의 오차 y가 우연히 다른 모든 변수와 약간의 상관 관계 가 있기 때문 입니다.) 이것에서 이끌어 내야 할 교훈은 parsimony는 가치 가 있다는 것입니다 . 필요한만큼 적은 수의 변수를 사용하면 결과.

나는 이것이 문제의 데이터 세트에 대해 반드시 일어나고 있다고 말하지는 않습니다 . 그러나 이러한 마스킹 효과 발생할 있다는 사실은 결과에 대한 해석과 변수 선택 및 모델 구축 전략에 영향을 미칩니다 .


+1,이 분석에 동의합니다. FWIW, 이것은 다른 질문에 대한 내 대답의 힘에 대한 나의 토론에서 내가 암시하고 있었던 설명 일 것 입니다. 여기에 귀하의 버전에 대한 질문이 하나 있습니다. 왜 오류 용어의 평균으로 32를 사용합니까? 오타입니까, 아니면 어떤 식으로 중요합니까?
gung-모니 티 복원

@gung 32는 어디에 있습니까? 를 참조 rnorm(2^p, sd=2)하는 경우 첫 번째 인수는 평균이 아니라 용어의 개수입니다. 기본적으로 평균은 0이므로 명시 적으로 지정되지 않았습니다.
whuber

rnorm()N(μ,σ)

@gung 나는 코드를 명확히 할 수있는 기회에 감사하고 따라서 문제의 행을 편집했다.
whuber

11

설명 변수 사이에 높은 공선 성이있을 때 이런 일이 자주 발생합니다. ANOVA F는 모든 회귀 분석기가 공동으로 정보를 제공하지 않는 공동 테스트입니다 . X에 유사한 정보가 포함되어있는 경우 모형은 설명 능력을 한 회귀 자 또는 다른 회귀 변수로 지정할 수 없지만 이들 조합은 반응 변수의 많은 변동을 설명 할 수 있습니다.

x1y


공선 성이 문제인 경우 표준 오차가 높을 수 있으며, 아마도 잘못된 부호를 가진 경우에도 엄청나게 큰 계수를 가질 수 있습니다. 이것이 일어나고 있는지 확인하기 위해 회귀 후 분산 팽창 계수 (VIF)를 계산하십시오. 가장 큰 VIF가 10보다 크면 공선 성이 문제가된다는 합리적인 규칙이 있습니다. 그렇다면 VI는 실제로 두 가지 옵션이 있습니다. 하나는 일부 변수를 삭제하여 선형에 가까운 의존성을 줄이기 위해 모델을 다시 지정하는 것입니다. 두 번째는 더 크고 더 나은 (더 적은 균질 한) 샘플을 얻는 것입니다.
Dimitriy V. Masterov 2016

1
(+1)이 설명은 좋은 설명이지만 현상을 다중 공선 성으로 인한 것은 아닙니다. 주요 차이점은 공동 정보개별 정보입니다. 추가적인 상관 관계가없는 회귀 분석기 (다중 공선 성을 피하는)를 포함 시키면 전자가 낮아지고 후자는 변하지 않습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.