상관 관계가 인과 관계를 암시하는 것이 아니라 관계의 강도와 방향을 의미한다는 것을 알고 있습니다. 단순한 선형 회귀는 인과 관계를 암시합니까? 아니면 추론 (t- 테스트 등) 통계 테스트가 필요합니까?
상관 관계가 인과 관계를 암시하는 것이 아니라 관계의 강도와 방향을 의미한다는 것을 알고 있습니다. 단순한 선형 회귀는 인과 관계를 암시합니까? 아니면 추론 (t- 테스트 등) 통계 테스트가 필요합니까?
답변:
빠른 대답은 아닙니다. 회귀하면 모든 종류의 통계 테스트를 통과하는 비 관련 데이터를 쉽게 얻을 수 있습니다. 아래는 데이터 중심의 "인과성"을 설명하기 위해 사용 된 Wikipedia의 오래된 사진입니다 (일부 이유로 최근에 제거됨).
지구를 식히기 위해 더 많은 해적이 필요합니까?
시계열의 경우 "그레인저 인과성 (Granger Causality)"이라는 용어가 있는데 이는 매우 특정한 의미를 갖습니다.
http://en.wikipedia.org/wiki/Granger_causality
그 외에 "인과 관계"는 보는 사람의 눈에 있습니다.
회귀의 수학에는 명시 적 인과 관계가 없기 때문에 경사 (강도 및 방향) 나 p- 값 (즉, 관계가 강하거나 강한 관계가 관찰되었을 가능성이 있음)을 명시 적으로 해석 할 필요가 없습니다. 인과 관계는 관계가없는 것으로 나타났다).
즉, 회귀는 두 변수 사이의 상관 관계를 추정하는 것보다 명시적인 방향 관계를 추정하는 것보다 훨씬 더 강한 의미를 가지고 있다고 말할 수 있습니다. 상관 관계에 의해 Pearson 's r 을 의미한다고 가정하면 일반적으로 메트릭이 대칭이므로 명시 적 인과 해석이 없습니다 (즉, 어떤 변수가 X이고 어떤 변수가 Y이고 동일한 측정 값을 가질 수 있는지를 전환 할 수 있음). 또한 구어주의 "상관은 인과 관계를 암시하지 않습니다"라고 생각합니다. 두 변수가 서로 연관되어 있다는 가정은 하나의 인과 관계 진술이 아니라고 가정합니다.
회귀 분석의 추정 효과는 대칭 적이 지 않으므로 오른쪽에있는 변수와 왼쪽에있는 변수를 선택하면 상관 관계와 달리 암시적인 진술이 만들어집니다. 나는 회귀가 사용되는 대부분의 상황에서 (인과 대 예측을 제외하고) 인과 적 진술을 할 의사가 있다고 생각합니다. 단순히 상관 관계를 나타내는 경우에도 사람들이 종종 인과 추론의 목표를 암시한다고 생각합니다. 일부 제약 조건이 충족되면 상관 관계가 원인을 암시 할 수 있습니다 !
@ bill_080의 답변으로 설명 된 것처럼 상관 관계 나 회귀 모두 인과 관계를 나타낼 수는 없지만 @Andy W가 나타내는 것처럼 회귀는 명시 적으로 고정 된 (즉, 독립) 변수와 명시 적 (예 : 임의) 종속 변수를 기반으로하는 경우가 많습니다. 이러한 지정은 상관 분석에 적합하지 않습니다.
Sokal and Rohlf, 1969, p. 496
"회귀에서는 변수의 의존성을 설명하기 위해 의도 Y를 독립 변수에 X 의 변화 가능한 원인에 관한 가설을지지 빌려 ... Y 의 변화에 의해 X ..."
"상관적으로, 우리는 두 변수가 상호 의존적인지 공존 적인지 , 즉 서로 달라지는 지에 대해 크게 우려 하고 있습니다. 우리는 하나의 변수를 다른 함수로 표현하지 않습니다."
Sokal, RR 및 FJ Rohlf, 1969. Biometry . 프리먼 앤 컴퍼니
의미 론적 관점에서 대안의 목표는 인과 관계를 증명하는 대신 좋은 예측 모델에 대한 증거를 구축하는 것입니다. 회귀 모형의 예측 값에 대한 증거를 작성하는 간단한 절차는 데이터를 두 부분으로 나누고 데이터의 한 부분과 데이터 테스트의 다른 부분에 회귀를 맞추는 방법입니다.
Granger 인과성 의 개념 은 흥미 롭습니다.
여기서 Var (.) 및 Cov (.)는 샘플 (데이터)의 추정치입니다.
결과적으로 이러한 매개 변수 자체는 x와 y 사이의 상관 관계 함수에 지나지 않습니다. 특히 베타는 "정규화 된"상관 계수입니다. 따라서 회귀 분석에서 연관성보다 더 이상 암시적인 인과 관계는 없습니다. 인과 관계 회귀 분석은 계량 경제학에서 특별한 회귀 기법으로, 예를 들어 특정 회귀 모델의 인과 해석을 모호하게하는 혼란과 같은 현상을 극복하기 위해 도구 변수에 의존해야합니다.
내 요점은 : 회귀 는 인과 관계 가 될 수 있지만 인과 관계는 기본값 이 아닙니다 .
자세한 내용은 다음 비디오를 참조하십시오 : https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s
Rubin 자신의 "Rubin 모델": http://www.stat.columbia.edu/~cook/qr33.pdf
인과 관계에 대한 훌륭한 입문 과정 (아직 회귀는 없지만) : https://www.coursera.org/learn/crash-course-in-causality
내 이해 (인과 관계 초보자)는 다음과 같습니다.
공변량이 제어 된 실험에서 나온 경우 선형 회귀는 인과성을 내포하고 실험은 가정 된 인과 요인을 잘 분리합니다 ( 임의의 제어 된 실험에서 선형 회귀 및 인과 관계 참조 ).
우리가 할 수있는 것은 아닙니다.
인지 테스트 할 수 없습니다. 여기에 인수에 약간의 순환 성이 있습니다.
Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....
더 나쁜 것은 두 변수에 피드백 루프가있을 때입니다. 한 지점에서 다른 지점을 유발할 수 있습니다. 나중에 다른 하나만 발생시킵니다. 이것은 항상 내 분야 인 경제에서 발생합니다. 이것이 대부분의 경제 분석이 인쇄 된 용지의 가치가없는 이유입니다.