이 현상 (중요한 개별 변수에도 불구하고 중요하지 않은 전체 테스트)이 일종의 집계 "마스킹 효과"로 이해 될 수 있으며, 다중 공선 설명 변수에서 발생할 수는 있지만 그렇게 할 필요는 없습니다. 전혀. 또한 다중 비교 조정으로 인한 것이 아닌 것으로 밝혀졌습니다. 따라서이 답변은 이미 나타난 답변에 몇 가지 자격을 추가하고 있으며, 반대로 다중 공선 성 또는 다중 비교를 범인으로 봐야한다고 제안합니다.
이러한 주장의 타당성을 확립하기 위해 가능한 한 동일하지 않은 완전 직교 변수와 설명의 첫 번째에 의해서만 명시 적으로 결정되는 종속 변수 (좋은 양의 임의 오류 포함)를 생성합시다 다른 모든 것에 독립적). 에서 R
(당신이 실험을하고자하는 경우, 재현성)이 같이 할 수 있습니다
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
설명 변수가 이진이라는 것은 중요하지 않습니다. 중요한 것은 직교성인데, 코드가 예상대로 작동하는지 확인하고 상관 관계를 검사하여 수행 할 수 있습니다. 실제로, 상관 관계 매트릭스는 흥미 롭습니다 . 작은 계수는 y
첫 번째 (설계 상)를 제외한 모든 변수와 거의 관련이 없으며 비 대각선 0은 설명 변수의 직교성을 확인합니다.
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
첫 번째 변수 만 사용한 다음 첫 번째 변수 만 사용하여 일련의 회귀 분석을 실행 해 봅시다 . 간결하고 쉬운 비교를 위해 각 변수에는 첫 번째 변수의 행과 전체 F- 검정 만 표시됩니다.
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
(a) 첫 번째 변수의 유의미한 변화가 거의 없음, (a ') 여러 비교를 조정할 때도 첫 번째 변수가 유의미하게 유지되는 경우 (p <.05) ( 예 : 공칭 p- 값에 공칭 p- 값을 곱하여 Bonferroni 적용 (b) 첫 번째 변수의 계수는 거의 변하지 않지만 (c) 전체 유의성은 기하 급수적으로 증가하여 비유의 수준으로 빠르게 팽창합니다.
나는 종속 변수와 크게 독립적 인 설명 변수 를 포함하면 회귀의 전체 p- 값을 "마스킹"할 수 있음을 증명하는 것으로 해석합니다 . 새 변수가 기존 변수와 종속 변수에 직교하는 경우 개별 p- 값이 변경되지 않습니다. (여기서 보여지는 작은 변화는 실수로 추가 된 임의의 오차 y
가 우연히 다른 모든 변수와 약간의 상관 관계 가 있기 때문 입니다.) 이것에서 이끌어 내야 할 교훈은 parsimony는 가치 가 있다는 것입니다 . 필요한만큼 적은 수의 변수를 사용하면 결과.
나는 이것이 문제의 데이터 세트에 대해 반드시 일어나고 있다고 말하지는 않습니다 . 그러나 이러한 마스킹 효과 가 발생할 수 있다는 사실은 결과에 대한 해석과 변수 선택 및 모델 구축 전략에 영향을 미칩니다 .