단순한 선형 회귀는 인과 관계를 암시합니까?


17

상관 관계가 인과 관계를 암시하는 것이 아니라 관계의 강도와 방향을 의미한다는 것을 알고 있습니다. 단순한 선형 회귀는 인과 관계를 암시합니까? 아니면 추론 (t- 테스트 등) 통계 테스트가 필요합니까?


3
"방향"은 무슨 뜻입니까? 비슷한 질문에 대한 답변 stats.stackexchange.com/search?q=causal ? 짧은 대답은 아니오입니다!
NRH

3
귀하의 제안 중 어느 것도 인과 관계를 암시하지 않습니다.
Henry

2
나는 OP가 X와 Y 사이의 인과 관계의 방향이 아니라 양의 상관 관계에서 "방향"을 의미한다고 생각한다.
JMS

답변:


19

빠른 대답은 아닙니다. 회귀하면 모든 종류의 통계 테스트를 통과하는 비 관련 데이터를 쉽게 얻을 수 있습니다. 아래는 데이터 중심의 "인과성"을 설명하기 위해 사용 된 Wikipedia의 오래된 사진입니다 (일부 이유로 최근에 제거됨).

지구를 식히기 위해 더 많은 해적이 필요합니까?

여기에 이미지 설명을 입력하십시오

시계열의 경우 "그레인저 인과성 (Granger Causality)"이라는 용어가 있는데 이는 매우 특정한 의미를 갖습니다.

http://en.wikipedia.org/wiki/Granger_causality

그 외에 "인과 관계"는 보는 사람의 눈에 있습니다.


방향에 따라 양의 상관 관계 또는 음의 의미를 나타 냈습니다. 답변 해 주셔서 감사합니다. 비슷한 질문에 연결하십시오.
user4572

1
그 사진에서 X 축은 정말 미쳤습니다! (그러나 좋은 예입니다!)
Andy W

2
S & P500 (R ^ 2 = 0.99)과 방글라데시의 치즈, 버터 및 양 ......... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080

5
그 그래프는 분명히 구식입니다. 어느 인해 샘플을 사용할 측량의 부족으로 편견이 있음을 나 아덴 만
추기경

2
그 데이터는 Al Gore가 해적이되기 전에있었습니다.
bill_080

10

회귀의 수학에는 명시 적 인과 관계가 없기 때문에 경사 (강도 및 방향) 나 p- 값 (즉, 관계가 강하거나 강한 관계가 관찰되었을 가능성이 있음)을 명시 적으로 해석 할 필요가 없습니다. 인과 관계는 관계가없는 것으로 나타났다).

즉, 회귀는 두 변수 사이의 상관 관계를 추정하는 것보다 명시적인 방향 관계를 추정하는 것보다 훨씬 더 강한 의미를 가지고 있다고 말할 수 있습니다. 상관 관계에 의해 Pearson 's r 을 의미한다고 가정하면 일반적으로 메트릭이 대칭이므로 명시 적 인과 해석이 없습니다 (즉, 어떤 변수가 X이고 어떤 변수가 Y이고 동일한 측정 값을 가질 수 있는지를 전환 할 수 있음). 또한 구어주의 "상관은 인과 관계를 암시하지 않습니다"라고 생각합니다. 두 변수가 서로 연관되어 있다는 가정은 하나의 인과 관계 진술이 아니라고 가정합니다.

회귀 분석의 추정 효과는 대칭 적이 지 않으므로 오른쪽에있는 변수와 왼쪽에있는 변수를 선택하면 상관 관계와 달리 암시적인 진술이 만들어집니다. 나는 회귀가 사용되는 대부분의 상황에서 (인과 대 예측을 제외하고) 인과 적 진술을 할 의사가 있다고 생각합니다. 단순히 상관 관계를 나타내는 경우에도 사람들이 종종 인과 추론의 목표를 암시한다고 생각합니다. 일부 제약 조건이 충족되면 상관 관계가 원인을 암시 할 수 있습니다 !


7

@ bill_080의 답변으로 설명 된 것처럼 상관 관계 나 회귀 모두 인과 관계를 나타낼 수는 없지만 @Andy W가 나타내는 것처럼 회귀는 명시 적으로 고정 된 (즉, 독립) 변수와 명시 적 (예 : 임의) 종속 변수를 기반으로하는 경우가 많습니다. 이러한 지정은 상관 분석에 적합하지 않습니다.

Sokal and Rohlf, 1969, p. 496

"회귀에서는 변수의 의존성을 설명하기 위해 의도 Y를 독립 변수에 X 의 변화 가능한 원인에 관한 가설을지지 빌려 ... Y 의 변화에 의해 X ..."

"상관적으로, 우리는 두 변수가 상호 의존적인지 공존 적인지 , 즉 서로 달라지는 지에 대해 크게 우려 하고 있습니다. 우리는 하나의 변수를 다른 함수로 표현하지 않습니다."

Sokal, RR 및 FJ Rohlf, 1969. Biometry . 프리먼 앤 컴퍼니


4

의미 론적 관점에서 대안의 목표는 인과 관계를 증명하는 대신 좋은 예측 모델에 대한 증거를 구축하는 것입니다. 회귀 모형의 예측 값에 대한 증거를 작성하는 간단한 절차는 데이터를 두 부분으로 나누고 데이터의 한 부분과 데이터 테스트의 다른 부분에 회귀를 맞추는 방법입니다.

Granger 인과성 의 개념 은 흥미 롭습니다.


2

β^=Cov(x,y)Var(x)
α^=y¯β^x¯,

여기서 Var (.) 및 Cov (.)는 샘플 (데이터)의 추정치입니다.

결과적으로 이러한 매개 변수 자체는 x와 y 사이의 상관 관계 함수에 지나지 않습니다. 특히 베타는 "정규화 된"상관 계수입니다. 따라서 회귀 분석에서 연관성보다 더 이상 암시적인 인과 관계는 없습니다. 인과 관계 회귀 분석은 계량 경제학에서 특별한 회귀 기법으로, 예를 들어 특정 회귀 모델의 인과 해석을 모호하게하는 혼란과 같은 현상을 극복하기 위해 도구 변수에 의존해야합니다.

내 요점은 : 회귀 인과 관계 가 될 수 있지만 인과 관계는 기본값 이 아닙니다 .

자세한 내용은 다음 비디오를 참조하십시오 : https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

Rubin 자신의 "Rubin 모델": http://www.stat.columbia.edu/~cook/qr33.pdf

인과 관계에 대한 훌륭한 입문 과정 (아직 회귀는 없지만) : https://www.coursera.org/learn/crash-course-in-causality


좋은 지적입니다. 이력서에 오신 것을 환영합니다.
닐 G

0

내 이해 (인과 관계 초보자)는 다음과 같습니다.

  • 공변량이 제어 된 실험에서 나온 경우 선형 회귀는 인과성을 내포하고 실험은 가정 된 인과 요인을 잘 분리합니다 ( 임의의 제어 된 실험에서 선형 회귀 및 인과 관계 참조 ).

  • E(ϵ|X)0E(ϵ|X)0E(ϵ|X)=0 우리가 할 수있는 것은 아닙니다.

인지 테스트 할 수 없습니다.E(ϵ|X)=0 여기에 인수에 약간의 순환 성이 있습니다.


2
방법에 대해 자세히 설명해 주시겠습니까 이자형(ϵ|엑스)=0원인을 암시합니까?
Sextus Empiricus

stats.stackexchange.com/questions/59588/… 에 대한 자세한 설명은이 부분을 참조하십시오 .
mlstudent

좀 더 직접적 일 수 있을까요? 어떻게 또는 왜 prrof 또는 설명을 볼 수 없습니다이자형(ϵ|엑스)=0원인을 암시합니다.
Sextus Empiricus 2014 년

나는 인과 관계에 약간 익숙하지만, 그것을 이해함에 따라 세 가지 주요 우려 사항이 있습니다. 와이=α+β엑스+ϵ인과성을 암시하지 않습니다. 하나는 다른 생략 된 변수가있는 경우입니다와이또 다른 원인은 변수가 생략되어있는 경우입니다. 엑스마지막으로 세 번째는 와이 원인이 될 수 있습니다 엑스. 모두 외생 조건의 위반으로 이어질 것입니다. 나는 왜 정확한지에 대한 수학을 가지고 있지 않지만 실제로 이것을 찾으려면 이것을 찾아보십시오.
mlstudent

간단한 카운터 예. 데이터를 생성 할 때YN(μY,σY) and X|YN(a+bY,σX) then you still have E(ϵ|X)=0 (X and Y are jointly normal distributed).
Sextus Empiricus

-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

더 나쁜 것은 두 변수에 피드백 루프가있을 때입니다. 한 지점에서 다른 지점을 유발할 수 있습니다. 나중에 다른 하나만 발생시킵니다. 이것은 항상 내 분야 인 경제에서 발생합니다. 이것이 대부분의 경제 분석이 인쇄 된 용지의 가치가없는 이유입니다.


6
이것은 완전히 잘못되었습니다. 회귀는 두 숫자 집합 사이의 관계를 찾습니다. 직접적인 인과 관계로 인해 그 관계가 존재하는지의 여부는 완전히 다른 문제입니다.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.