X와 Y는 상관 관계가 없지만 X는 다중 회귀 분석에서 Y의 중요한 예측 변수입니다. 무슨 뜻인가요?


34

X와 Y는 상관되지 않습니다 (-.01). 그러나 X를 Y를 예측하는 다중 회귀 분석에 배치 할 때 3 개 (A, B, C) 다른 (관련) 변수와 함께 X와 2 개의 다른 변수 (A, B)는 Y의 중요한 예측 변수입니다. A, B) 변수는 회귀 외부의 Y와 유의 한 상관 관계가 있습니다.

이러한 결과를 어떻게 해석해야합니까? X는 Y의 고유 한 분산을 예측하지만 상호 관련이 없으므로 (Pearson) 해석하기가 어렵습니다.

나는 반대의 경우를 알고있다 (즉, 두 변수는 서로 연관되어 있지만 회귀는 중요하지 않다). 그리고 이론적이고 통계적인 관점에서 이해하기가 비교적 간단하다. 일부 예측 변수는 상당히 상관 관계가 있지만 (예 : .70) 실질적인 다중 공선 성을 기대할 수있는 정도는 아닙니다. 어쩌면 내가 틀렸을 수도 있습니다.

참고 : 나는이 질문을 이전에 물었고 닫혔습니다. 이 질문은 " 회귀는 중요하지만 모든 예측 변수는 중요하지 않은 방법 "이라는 질문과 중복되는 것이 합리적이었습니다 .". 아마도 다른 질문을 이해하지 못하지만 이것들은 수학적으로나 이론적으로 완전히 분리 된 질문이라고 생각합니다."회귀가 유의하면 "내 질문은 전적으로 독립적입니다. 또한, 여러 예측 변수는 중요하지만 다른 질문은 변수가 중요하지 않기 때문에 겹치지 않습니다. 이러한 질문이 이해되지 않는 이유로 중복되는 경우이 질문을 닫기 전에 주석을 삽입하십시오. 또한 다른 질문을 닫은 중재자에게 메시지를 보내려고했습니다 동일한 질문을 피하기 위해 질문하지만, 그렇게 할 수있는 옵션을 찾을 수 없습니다.


2
나는 이것이 이전 질문과 매우 유사하다고 생각합니다. X와 Y가 본질적으로 상관이 없다면 간단한 선형 회귀에서 X의 기울기 계수는 중요하지 않습니다. 모든 기울기 추정은 샘플 상관 관계에 비례합니다. X와 Z가 함께 Y의 많은 변수를 설명 할 수 있기 때문에 너트 다중 회귀는 다른 이야기가 될 수 있습니다. 내 대답은 이전 질문에 대한 대답과 비슷하기 때문에 뚜렷한 유사성을 나타낼 수 있습니다.
Michael Chernick

2
다른 스레드에서 귀하의 답변과 매우 상세한 답변에 감사드립니다. 논문을 얻으려면 몇 시간 동안 읽어야합니다. 저의 또 다른 관심사는 통계적으로나 수학적으로가 아니라 실제로 그것을 해석하는 방법입니다. 예를 들어 수영 속도와 특성 불안은 서로 관련이 없지만 특성 불안은 다른 예측 변수와 함께 여러 회귀 분석에서 수영 속도의 중요한 예측 변수입니다. 이것이 실제로 어떻게 이해 될 수 있습니까? 임상 저널의 토론 섹션에서이 내용을 작성했다고 가정 해 봅시다!
Behacad

3
@jth 두 질문이 중복으로 간주되지 않을 정도로 충분히 다르기 때문에 답을 다른 질문으로 자유롭게 이동하십시오. 마이클 Chernick 포인트 @ 그들은 기본적으로 동일에서 - - 새로운 노트, 내가 생각, 질문은 수학적으로 다른 랬에서 올바르지 않습니다. (원래는 차이를 감상하지 대해 사과) 만에 중점을 해석은 타당한 이유를 설정 스레드를 분리하십시오.
whuber

1
나는 또한 대답을 여기로 옮겼습니다. 나는 두 질문이 상당히 다르지만 일반적인 설명을 공유 할 수 있다고 생각합니다.
JDav

1
이 웹 페이지 에는 관련 주제에 대한 또 다른 훌륭한 토론이 있습니다. 길지만 매우 좋고 문제를 이해하는 데 도움이 될 수 있습니다. 나는 그것을 완전히 읽는 것이 좋습니다.
gung-Monica Monica 복원

답변:


39

인과 이론은 두 변수가 무조건 독립적이지만 조건부 종속적 인 방법에 대한 또 다른 설명을 제공합니다. 나는 인과 이론 전문가가 아니며 아래의 오해를 시정 할 비판에 대해 감사합니다.

설명하기 위해, 내가 사용하는 지시 비순환 그래프 (DAG)를. 이 그래프에서 변수 사이의 모서리 ( )는 직접적인 인과 관계를 나타냅니다. 화살표 머리 ( 또는 )는 인과 관계의 방향을 나타냅니다. 따라서 는 가 직접 유발 한다고 추론 하고 는 가 에 의해 직접 유발 된다고 추론합니다 . 는 통해 를 간접적으로 유발 한다고 추론하는 인과 경로입니다.ABABABABABCACB. 간단히하기 위해 모든 인과 관계가 선형이라고 가정합니다.

먼저, 혼란스러운 편견 의 간단한 예를 생각해보십시오 .

공감 자

여기에서 간단한 이변 량 회귀 분석은 와 사이의 의존성을 제안합니다 . 그러나 와 사이에는 직접적인 인과 관계가 없습니다 . 대신 둘 다 에 의해 직접 발생 하며 간단한 이변 량 회귀 분석에서 관찰 하면 와 사이의 종속 관계를 유발하여 혼란에 의한 편향이 발생합니다. 그러나 의 다변량 회귀 컨디셔닝 은 바이어스를 제거하고 와 사이의 의존성을 제안하지 않습니다 .XYXYZZXYZXY

둘째, 충돌 바이어스 의 예 (버크 슨 바이어스 또는 버크 소니 언 바이어스라고도하며 선택 바이어스는 특수 유형 임)를 고려하십시오.

충돌체

여기에서 간단한 이변 량 회귀 분석은 와 사이의 의존성을 나타내지 않습니다 . 이것은 DAG에 동의하는데, 이는 와 사이에 직접적인 인과 관계가 없다고 추정 합니다. 그러나, 에 대한 다 변수 회귀 컨디셔닝 은 와 사이의 의존성을 유도하여 실제로는 존재하지 않을 때 두 변수 사이의 직접적인 인과 관계가 존재할 수 있음을 시사합니다. 다 변수 회귀 분석 에 를 포함 시키면 충돌체 바이어스가 발생합니다.XYXYZXYZ

셋째, 부수적 취소의 예를 고려하십시오.

해제

, 및 가 경로 계수이고 라고 가정 해 봅시다 . 간단한 이변 량 회귀 분석은 와 사이에 의존성이 없음을 나타냅니다 . 비록 직접적인 원인 사실상 의 교란 효과 에 대한 및 또한 효과 상쇄 에 . 에 대한 다변량 회귀 조절 은 와 에 대한 의 혼란 효과를 제거합니다αβγβ=αγXYXYZXYXYZZXY의 직접적인 영향의 추정을 허용 에 인과 모델 DAG를 가정하면, 올바른.XY

요약:

Confounder 예제 : 와 는 이변 량 회귀에 종속적이며 confounder 에 대한 다변량 회귀 조건에서 독립적입니다 .XYZ

충돌체 예 : 와 는 이변 량 회귀에서 독립적이며 충돌체 에서 다변량 회귀 조절에 의존 합니다.XYZ

들여 쓰기 상쇄 예 : 와 는 이변 량 회귀에서 독립적이며 confounder 에 대한 다 변수 회귀 조건에 의존 합니다.XYZ

토론:

분석 결과는 confounder 예제와 호환되지 않지만 collider 예제 및 부수적 취소 예제와 모두 호환됩니다. 따라서, 잠재적 인 설명은 잘못 다변량 회귀의 입자 가속기 변수를 조절하고 간의 연관 유도 한 것입니다 와 하더라도 의 원인이 아닌 와 의 원인이 아닌 . 양자 택일로, 당신은 제대로 우연히의 진정한 효과를 상쇄했다 당신의 다변량 회귀 분석에서 교란 요인에 조건 수도 에 당신의 bivariable 회귀를.XYXYYXXY

통계 모델에 포함 할 변수를 고려할 때 도움이 될 인과 모델을 구성하기 위해 배경 지식을 사용합니다. 예를 들어, 이전의 고품질 무작위 연구에서 가 유발 하고 가 유발 한다고 결론을 내렸다면 는 와 의 충돌 자이며 통계 모델에서 조건이 아니라고 가정 할 수 있습니다. 나는 단지 것을 직감 한 경우에는 원인 , 그리고 원인 ,하지만 강력한 과학적 증거가 내 직관을 지원하지하기를, 나는 단지 그 약한 가정을 만들 수XZYZZXYXZYZZ의 충돌체이고 및 인간의 직관이 잘못되는 역사를 가지고 같이. 결과적 으로 와의 인과 관계에 대한 추가 조사없이 와 사이의 인과 관계를 추론하는 것에 회의적입니다 . 배경 지식 대신 ​​또는 이와 관련하여 일련의 연관 테스트를 사용하여 데이터에서 인과 모델을 유추하도록 설계된 알고리즘도 있습니다 (예 : PC 알고리즘 및 FCI 알고리즘, Java 구현을위한 TETRAD , PCalg 참조)XYXYZR 구현의 경우). 이 알고리즘은 매우 흥미롭지 만 인과 이론에서 인과 미적분과 인과 모델의 힘과 한계에 대한 강력한 이해가 없다면 그것들에 의존하지 않는 것이 좋습니다.

결론:

인과 관계 모델을 고려한다고해서 조사자가 다른 답변에서 논의 된 통계적 고려 사항을 다루는 것을 용서할 수는 없습니다. 그러나 인과 관계 모델은 통계 모델에서 관찰 된 통계적 의존성과 독립성에 대한 잠재적 인 설명을 생각할 때, 특히 잠재적 인 혼란 자와 콜 리더를 시각화 할 때 유용한 프레임 워크를 제공 할 수 있다고 생각합니다.

더 읽을 거리 :

젤맨, 앤드류 2011. " 인과 통계 학습 ." 오전. J. 사회학 117 (3) (11 월) : 955–966.

그린란드, S, J 펄 및 JM 로빈 1999.“ 역학 연구를위한 인과 관계 다이어그램 .”역학 (캠브리지, 매사추세츠) 10 (1) (1 월) : 37–48.

그린란드, 샌더 2003.“ 인과 모델에서의 정량화 바이 아스 : 고전적 혼란 대 충돌체-분화 바이어스 .”역학 14 (3) (5 월 1 일) : 300-306.

진주, 유대. 1998. 혼란에 대한 통계 테스트가없는 이유, 많은 사람들이 생각하는 이유, 그리고 그들이 거의 옳은 이유 .

진주, 유대. 2009 년 인과 관계 : 모델, 추론과 추론 . 제 2 판 케임브리지 대학 출판부.

Spirtes, Peter, Clark Glymour 및 Richard Scheines. 2001. 원인, 예측 및 검색 , 제 2 판. 브래드 포드 책.

업데이트 : Judea Pearl 은 Amstat News 2012 년 11 월호 에서 인과 추론 이론과 인과 추론을 입문 통계 과정에 통합해야 할 필요성에 대해 설명합니다 . 그의 튜링 상 강의 자격은, "인과 적 추론의 기계화 : A '미니'튜링 테스트와 이상은"관심에 있습니다.


인과 적 주장은 확실히 유효하지만 연구원이 그 접근법을 구독하려면 근본적인 현상에 대한 아주 좋은 지식이 필요합니다. @Behacad가 수행하는 분석이 탐색 적인지 궁금합니다.
JDav

1
@ Behacad : 내 대답에서 언급했듯이 문제가 다변량이고 다변량이 아니기 때문에 단일 를 잊어 버릴 것을 제안합니다 . 관심 변수의 영향을 측정하려면 x의 측정 된 영향을 왜곡 할 수있는 다른 변동 원인을 제어해야합니다. ρ
JDav

5
+1 그림과 설명은 매우 명확하고 잘 수행되었습니다. 이 답변에 들어간 노력과 연구에 감사드립니다.
whuber

1
또한 누군가 제게 "제 3 자, 우연한 취소의 예를 생각해보십시오"라는 실제적인 예를들 수 있습니까? 인과 관계의 문제가 제기됩니다. X와 Y가 서로 관련이없는 경우 (즉, X의 변경이 Y의 변경과 관련이없는 경우)이 "원인"을 어떻게 고려할 수 있습니까
Behacad

4
이것들에 대한 대체 이름이 있다는 것을 주목할 가치가 있습니다. Confounder-> Common Cause Model; 충돌체-> 공통 효과 모델; 부수적 취소는 부분 중재의 특별한 경우입니다.
gung-모니 티 복원

22

@jthetzel의 접근 방식이 올바른 방법이라고 생각합니다 (+1). 이러한 결과를 해석하기 위해서는 관계가 왜 나타나는지에 대한 이론을 생각해보아야합니다. 즉, 데이터의 기초가되는 인과 관계의 패턴에 대해 생각해야합니다. @jthetzel이 지적했듯이 결과는 여러 가지 다른 데이터 생성 프로세스와 일치한다는 것을 인식해야합니다. 동일한 데이터 세트에 대한 추가 통계 테스트 를 통해 이러한 가능성을 구별 할 수 있다고 생각하지 않습니다 (추가 실험은 확실히 가능할 수 있음). 따라서 여기서 주제에 대해 알려진 것을 열심히 생각하는 것이 중요합니다.

나는 당신과 같은 결과를 생성 할 수있는 또 다른 가능한 기본 상황을 지적하고 싶습니다 : Suppression . 화살표 다이어그램을 사용하여 설명하기가 더 어렵지만, 약간만 보강하면 다음과 같이 생각할 수 있습니다.

여기에 이미지 설명을 입력하십시오

이 상황에서 중요한 것은 이 관련되지 않은 ( ) 부분과 관련 ( ) 두 부분으로 구성되어 있다는 것입니다. 와 상관있을 것 ,하지만 아주 잘 다중 회귀 모델에서 '중요한'일 수도있다. 또한, 은 또는 와 '상당히'상관 될 수 있습니다 . 또한 변수 X는 또는 의 역할을 수행 할 수 있습니다.Other VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable 이 상황에서 (그리고 다시, 당신은 그 지역에 대한 지식에 기초하여 기본 패턴이 무엇인지 생각해야합니다).

R 코드를 읽을 수 있는지 모르겠지만 여기에 예제가 있습니다. (이 특정 예제는 역할을하는 X에 더 적합 하지만 둘 다 와 '상당히'상관되지는 않습니다 . 사이의 상관 관계를 얻을 수 있어야합니다. 그리고 0에 가까운과 딱 맞는 설정으로 다른 descriptives 일치합니다.) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

여기서 요점은이 상황이 데이터의 기초가되는 것은 아닙니다. 이것이 @jthetzel이 제안하는 옵션보다 많거나 적은지 모르겠습니다. 나는 이것을 생각을위한 더 많은 음식으로 만 제공한다. 현재 결과를 해석하려면 이러한 가능성에 대해 생각하고 가장 적합한 것을 결정해야합니다. 선택을 확인하려면 신중한 실험이 필요합니다.


2
우수한! 고맙습니다. 이것은 내 데이터에서 일어날 수있는 일의 또 다른 좋은 예입니다. 그래도 하나의 답변 만받을 수있는 것 같습니다 ...
Behacad

문제 없습니다, @Behacad, jthetzel에 확인 표시가 필요하다고 생각합니다. 기꺼이 도와 드리겠습니다.
gung-모니 티 복원

7

가능한 일부 시각화.

그림 (a) "정상"또는 "직관적 인"회귀 상황이 표시됩니다. 이 그림은 예를 들어 here 또는 here 에서 찾거나 설명 한 것과 동일 합니다 .

변수는 벡터로 그려집니다. 그들 사이의 각도 (그들의 코사인)는 변수의 상관 관계입니다. 여기서 는 예측 된 값의 변수를 지정합니다 (보다 자주 ). 예측 자 벡터에 대한 가장자리의 기울기 좌표 (기울기 투영, 다른 예측 자와 평행)-노치 해당 예측 변수의 회귀 계수에 비례합니다.YY^b

그림 (a)에서 세 변수 는 모두 양의 상관 관계를 가지며 과 는 모두 양의 회귀 계수입니다. 및 는 회귀에서 "경쟁"하며 회귀 계수는 해당 컨테스트의 점수입니다.b1b2X1X2

여기에 이미지 설명을 입력하십시오

그림 (b) 는 예측 변수 이 와 양의 상관 관계를 갖는 상황 이지만 회귀 계수는 0입니다. 예측 의 끝점 은 벡터 의 원점에서 투영됩니다 . 이 사실은 및 중첩 과 일치 합니다. 즉, 예측 된 값이 다른 예측 변수와 절대적으로 상관됩니다.X1YYX1YX2

그림 (c)의 상황이다 하지 상관물 않는 (그 벡터가 직교하는)은 아직 예측의 회귀 계수가 0이 아닌 : 음수 (투영 뒤에 빠진다 벡터). Y X 1X1YX1

대략 그림 (b)에 해당하는 데이터 및 분석 :

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

여기에 이미지 설명을 입력하십시오

대략 그림 (c)에 해당하는 데이터 및 분석 :

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

여기에 이미지 설명을 입력하십시오

마지막 예에서 이 억제 자로 사용 관찰하십시오 . 와의 0 차 상관 은 실질적으로 0이지만 부품 상관은 크기 보다 훨씬 큽니다 . 의 예측력을 어느 정도 강화했습니다 ( 에서 간단한 회귀 분석의 베타 버전 , 다중 회귀 분석의 베타 버전 ). Y - .224 X 2 .419 .538X1Y.224X2.419.538


감사! 아직 다소 반 직관적 인 느낌이 있지만, 적어도 사진은 :) 가능한 쇼
JelenaČuklina

5

이전 답변에 동의하지만 자세한 내용을 제공하여 기여할 수 있기를 바랍니다.

상관 계수는 와 사이의 선형 의존성을 측정하고 다른 변수도 관계에 관련 될 수 있다는 사실을 제어하지 않습니다. 실제로 상관 계수는 및 표준 편차로 스케일링 된 다음 회귀의 기울기 매개 변수와 같습니다 .Y x YXYxy

Y=a+βx+u

여기서ρ^yx=β^σ^x/σ^y

그러나 가 다른 변수에 의해 생성되면 실제 모델은 다음과 같습니다.Y

Y=a+βx+jαjzj+u

이 실제 모델에서는 첫 번째 모델 (x에서만)을 추정하면 해당 모델이 회귀 생략 할 때 바이어스 된 추정치가 산출됩니다 (이는 도 바이어스 됨을 의미합니다 ). 따라서 결과는 생략 된 변수가 관련이 있다는 사실과 일치합니다. 이 문제를 처리하기 위해, 상관 관계 분석에 대한 이론 부분 상관 계수 (I 확신이에 대한 참조를 찾을 것)하는 기본적으로 계산합니다 후자의 추정 식을위한 컨트롤이 . z j ρ ρ x y | z z jβzjρρxy|zzj


ρρ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.