인과 관계없이 언제 상관 관계가 유용한가?


27

많은 통계 학자들에 대한 애완 동물의 말은 "상관이 원인을 암시하지는 않는다"는 것입니다. 이것은 확실히 사실이지만, 여기서 DOES가 암시하는 것처럼 보이는 것은 상관 관계가 거의 또는 전혀 가치가 없다는 것입니다. 이것이 사실입니까? 두 변수가 서로 관련되어 있다는 것을 아는 것은 쓸모가 없습니까?

나는 그것이 사실이라고 상상할 수 없다. 예측 분석에별로 익숙하지는 않지만 X의 예측 변수 인 경우 인과 관계없이에 따라 Y미래의 값을 예측하는 데 유용 할 것 같습니다 . YX

상관 관계에서 가치를 보는 데 잘못 되었습니까? 그렇지 않은 경우 통계학 자나 데이터 과학자는 어떤 상황에서 인과 관계없이 상관 관계를 사용할 수 있습니까?


5
제 생각에, "원인이 상관 관계를 암시하지 않습니다"라는 문구는 종종 통계가 항상 신뢰할 수있는 것은 아니라는 것을 암시하기 위해 오용되기도합니다 (사실이지만 인과성의 부족으로 인한 것은 아닙니다). 사람들이 예측 분석이 잘못된 이유와 관련하여이 문구를 삭제하는 것을 볼 때 너무 심해집니다. 예를 들어 facebook.com/notes/mike-develin/debunking-princeton/… 은 끔찍한 분석과 끔찍한 분석의 끔찍한 폐기 모두에 대한 훌륭한 예입니다.
Cliff AB

10
예를 들어, 특정 도시에 사는 것이 조기 사망과 관련이 있다고 가정하십시오. 그 도시에 사는 것이 조기 사망을 초래 하거나 사람들이 그 도시 밖으로 나가는 것이 더 오래 사는 데 도움이 될 것이라고 결론 지을 수 없습니다 . (어떤 이유로 도시가 병든 사람들에게 매력적일 수 있습니다.) 그러나 보험 계리인이라면 해당 도시의 구성원에게 더 높은 생명 보험료를 청구하고 싶을 때 완벽하게 정당화됩니다.이 상관 관계에 대해 아는 것은 당신.
Nate Eldredge

2
더 많은 사람들이 영국 남부 @NateEldredge에서 죽습니다. 사람들이 거기서 은퇴하기 때문입니다.
TRiG

1
부재 의 상관 관계는 거의 틀림없이 더 많은 의미를 전달한다.
Raphael

필수 xkcd 참조 : xkcd.com/552
vsz

답변:


32

상관 (또는 다른 연관 측정)은 인과 관계없이 예측에 유용합니다. 두 변수 사이의 명확하고 안정적인 연관성을 측정한다고 가정하십시오. 이것이 의미하는 바는 한 변수의 수준을 아는 것도 다른 관심 변수에 대한 정보를 제공한다는 것입니다.이 변수는 한 변수를 다른 변수의 함수로 예측하고 가장 중요한 것은 그 예측에 따라 조치를 취하는 데 사용할 수 있습니다 . 조치를 취하려면 자동 추천을하거나 의료 개입을 할 때와 같이 하나 이상의 변수를 변경해야합니다. 물론 두 변수 사이의 직접 또는 간접 관계에 대한 통찰력이 있으면 더 나은 예측을하고 더 효과적으로 행동 할 수 있습니다. 이러한 통찰력에는 공간 및 시간 변수를 포함한 다른 변수가 포함될 수 있습니다.


4
상관 관계가 항상 예측에 유용한 것은 아닙니다. 역 원인의 경우 항상 통제 할 수없는 중요한 측면이 있습니다. 우리는 항상 알츠하이머 병으로 뛰고 있습니다. 우리는 지속적으로 분별하려고 벽에 우리의 머리를 타격 : AD 영향을받는 뇌에서 우리가 찾을 바이오 마커입니다 일으키는 질병 또는 으로 인한 질병은?
AdamO

1
@AdamO 나는 내 대답이 마지막 문장이나 두 문장으로 그 기초를 다루고 있다고 생각하므로, 나는 당신과 동의하지 않습니다.
Brash Equilibrium

1
인과 관계 문제는 실제로 예측 모델을 해석하려는 경우에만 발생합니다. (물론 이것은 우리가 종종 과학에 관심이있는 것입니다). 우리가 바이오 마커 A가 매우 좋은 예측 변수라는 것을 알 때 , 이것이 또한 질병의 원인이라고 주장하는 것이 매우 유혹적입니다. 예를 들어 환자가 질병에 걸 렸는지 여부를 알려 주기만하면 상관 관계에 문제가 없습니다.
cel

1
이것은 사실이 아니며 여기에 하나의 예가 있습니다. 예측을 수행 할 때 변수를 변경하고 대상도 변경 될 것으로 예상하지만 직접 링크가 없거나 인과 관계가 다른 방식으로 진행되는 경우 잘못된 조치를 취합니다. "하지만이 예에서는 모델을 해석하고 있습니다."라고 말합니다. "어떤 시나리오에서 예측 용 모델에서도 추론을 도출하지 않겠습니까?" 답 : 모델이 암시하는 인과 관계를 많이 신뢰하지 않는 경우.
Brash Equilibrium

1
@BrashEquilibrium : 어떤 식 으로든 예측을 얻는 데 사용되는 변수를 변경하지 않는 예측에 대해 행동하는 방법은 많이 있습니다. 상점에서 양모 장갑을 구입해야하는지 알고 싶으십니까? 최근에 판매 한 아이스크림의 양을 알면 (물론 더 직접적인 데이터 소스가 없다는 가정하에) 좋은 예측 변수가 될 수 있습니다.
Ilmari Karonen

17

이미 좋은 점이 많이 있습니다. " X의 예측 인 Y이라면 인과 관계와 상관없이에 Y기반한 미래의 가치를 예측하는 데 도움이 될 것"이라고 주장을 풀자 X. 맞습니다. 원하는 Y값이 알려진 X값과 알려진 안정적인 관계 에서 알 수없는 값 을 예측할 수 있으면 해당 관계의 원인 상태는 관련이 없습니다. 다음을 고려하십시오.

  • 원인으로 인한 영향을 예측할 수 있습니다. 이것은 직관적이고 논쟁의 여지가 없습니다.
  • 효과에 대한 지식을 통해 원인을 예측할 수도 있습니다. 폐암에 걸린 일부 사람들은 담배를 피우지 않습니다. 결과적으로, 누군가가 폐암에 걸렸다는 것을 알고 있다면 흡연이 인과 관계이고 암이 효과라는 사실에도 불구하고 자신들이 흡연자임을 확신 할 수 있습니다. 마당의 잔디가 젖어 있고 스프링클러가 돌아 가지 않은 경우 비가 원인이고 젖은 풀이 그 효과 일지라도 비가 올 것으로 예상 할 수 있습니다. 기타.
  • 동일한 원인의 알려진 효과에서 알 수없는 효과를 예측할 수도 있습니다. 예를 들어, Billy와 Bobby가 동일한 쌍둥이이고 Billy를 만난 적이 없지만 Bobby가 5'10 '(178cm)라는 것을 알고 있지만 Billy도 178cm라고 확신 할 수 있습니다. Billy의 키가 Bobby의 키를 유발하지 않으며 Bobby의 키가 Billy의 키를 유발하지도 않습니다.

7
범주에 이름을 지정하기 만하면됩니다. 세 종류의 예측을 순서대로 추론 , 납치유도라고 합니다.
Neil G

12

상관 관계의 중요성을 훼손하지 않습니다. 상관 관계를 인과 관계로 해석하는 경향이 있습니다.

모유 수유를 완벽한 예로 들자. 어머니들은 모유 수유에 대한 (관찰 연구) 결과를 실제로 모유 수유해야하는지에 대한 제안으로 거의 항상 해석합니다. 모유 수유를하는 아기가 평균적으로 모체 및 부계 령 연령, 사회 경제적 상태 등을 통제 한 후에도 질서있는 나이에 더 건강한 성인 인 경향이 있다는 것은 사실입니다. 식욕 조절의 초기 개발에 부분적으로 역할을합니다. 관계는 매우 복잡하며 관찰 된 차이의 근간이 될 수있는 모든 매개 변수를 쉽게 추측 할 수 있습니다.

많은 연구가 진행 상황에 대한 더 깊은 이해를 보장하기 위해 협회를 찾습니다. 상관 관계는 쓸모가 없으며 인과 관계 아래 몇 단계 일 뿐이며 전문가가 아닌 사람이 잘못 해석하지 못하도록 결과를보고하는 방법을 염두에 두어야합니다.


9

상관 관계가 유용하다는 것이 옳습니다. 인과 모델이 연관 모델보다 더 좋은 이유는 Pearl이 말했듯이 개입을위한 오라클이기 때문입니다. 다시 말해, 그들은 당신이 가상적으로 추론 할 수있게합니다. 인과 모델은 "X가 발생하게하려면 Y는 어떻게됩니까?"라는 질문에 대답합니다.

그러나 항상 이론적으로 추론 할 필요는 없습니다. 모델이 된 경우 에만 같은 응답 질문에 사용할 것 "나는 X를 관찰하면, 나는 Y에 대해 무엇을 알 수 있습니까?", 다음 협회 모델은 모두 당신이 필요합니다.


3
Oracles For Interventions는 밴드에게 좋은 이름입니다.
Malvolio

@ Malvolio : lol, 인과 모델을 설명하는 잊을 수없는 간결한 방법입니다. 나는 그 문구를 정말로 좋아한다.
Neil G

4

상관 관계가 예측에 유용하다는 것이 맞습니다. 또한 연구중인 시스템을 더 잘 이해하는 데 유용합니다.

인과 메커니즘에 대한 지식이 필요한 경우는 대상 분포가 조작 된 경우입니다 (예 : 일부 변수는 특정 값을 취하도록 "강제"되었습니다). 인과 관계 정보를 사용하는 모델은 훨씬 더 나은 성능을 보여야하는 반면 상관 관계에 기반한 모델은 제대로 수행되지 않습니다.


2

인과 관계를 설명하는 기본 모델이있는 경우 상관 관계는 유용한 도구입니다.

예를 들어 물체에 힘을 가하는 것이 물체의 움직임에 영향을 준다는 것을 알고 있다면 힘과 속도, 힘과 가속도 사이의 상관 관계를 측정 할 수 있습니다. (가속도와의) 더 강한 상관 관계는 그 자체로 설명이 될 것입니다.

관찰 연구에서, 상관 관계는 인과 관계를 확인하거나 거부 할 수있는 적절한 실험 설계를 통해 추가적인 과학적 탐구를위한 근거가 될 수있는 특정 공통 패턴 (모유 수유 및 이후 건강)을 나타낼 수 있습니다 (예 : 모유 수유가 원인 일 수 있음) 특정 문화적 틀에 대한 결과).

따라서 상관 관계는 유용 할 수 있지만 결정적인 경우는 거의 없습니다.


2

언급했듯이 상관 관계만으로는 주로 예측과 같은 많은 유용성이 있습니다.

에이에이

예를 들어, 노인들의 커피 사용량이 건강한 심장 혈관 시스템과 상관 관계가 있음을 보여주는 모든 연구 결과, 무거운 커피 습관을 정당화하려는 사람들은 의심 할 여지없이 동기를 부여합니다. 그러나 커피를 마시는 것은 인과 관계가 아닌 더 건강한 마음과 만 관련이 있다는 사실은 우리가 관심을 갖는 실제 질문에 답할 수있는 방법이 없습니다. 더 많은 커피를 마시거나 줄이면 더 건강해 질까요? 매우 흥미로운 결과를 찾는 것은 매우 실망 스러울 수 있지만 (커피는 더 건강한 마음에 연결되어 있습니다!) 그 정보를 사용하여 결정을 내릴 수는 없습니다 (여전히 더 건강하게 커피를 마셔야하는지 알지 못함). 상관 관계를 인과 관계로 해석하려는 유혹.

당신이 관심있는 모든 것이 도박이 아니라면 (예를 들어, 예측하지만 영향을 미치고 싶지는 않습니다).


2

상관 관계에는 가치가 있지만 인과 관계를 결론 짓기 위해 더 많은 증거를 찾아야합니다.

몇 년 전, "커피는 암을 유발한다"는 연구가있었습니다. 뉴스에서이 소식을 듣 자마자 아내에게 "거짓 상관"이라고 말했습니다. 내가 맞다는 것이 밝혀졌습니다. 하루에 2-3 컵의 커피를 마시는 사람은 커피를 마시는 사람보다 흡연률이 더 높았습니다. 데이터 수집기가이를 파악한 후 결과를 취소했습니다.

주택 붐과 파열 이전의 또 다른 흥미로운 연구는 주택 담보 대출 처리와 관련하여 인종 차별주의를 보여주었습니다. 그 주장은 흑인 지원자들이 백인보다 더 높은 비율로 거부되었다는 것이었다. 그러나 또 다른 연구는 기본 금리를 조사했습니다. 흑인 주택 소유자는 백인과 같은 비율로 채무 불이행을하고있었습니다. 검은 색 응용 프로그램이 더 높은 표준을 유지했다면 기본 속도는 실제로 훨씬 낮습니다. 참고 :이 일화는 저자 Thomas Sowell과 그의 저서 The Housing Boom and Bust 에서 공유했습니다.

데이터 마이닝은 상관 관계가 높지만 관련이없는 이벤트에 대해 두 개의 데이터 세트를 쉽게 생성 할 수 있습니다. 결국, 매우 비판적인 시각으로 당신에게 보내진 연구를 보는 것이 가장 좋습니다. 허위 상관 관계를 찾는 것이 항상 쉬운 것은 아니며, 획득 한 인재입니다.


나는이 답변을 읽는 것을 즐겼다. 그러나 두 가지 변수가 서로 관련되어 있다는 사실을 아는 것은 쓸모가 없습니까? ... 통계학 자나 데이터 과학자가 어떤 상황에서 인과 관계없이 상관 관계를 사용할 수 있습니까?
whuber

1
"흑인 주택 소유자는 백인과 같은 비율로 채무 불이행을하고있었습니다. 만약 검은 응용 프로그램이 더 높은 표준을 유지하고 있다면, 그들의 기본 불이행은 실제로 훨씬 낮을 것입니다." 결론에 도달하고 있습니다. 정확히이 문제입니다. 흑인 신청자는 통계적으로 백인 신청자와는 다를 것입니다. 더 많은 흑인이 모기지 채무 불이행을 받아 들일 가능성이 높은 그룹에 속할 경우, 같은 불이행 비율을 가진 흑인 신청자는 차별을 나타냅니다. 혼란스러운 효과를 분리하는 것은 어렵습니다.
prosfilaes

내가 말했듯이, 일화는 잘 알려진 흑인 학자에게서 나왔습니다. 그리고 내가 참조한 책에서 논의하는 데 훨씬 더 많은 단락이 필요했습니다.
JTP-Monica에게 사과하십시오

1

상관 관계는 관찰 가능한 현상입니다. 측정 할 수 있습니다. 이러한 측정에 대해 조치를 취할 수 있습니다. 자체적으로 유용 할 수 있습니다.

그러나 당신이 가진 모든 것이 상관 관계라면, 당신이 한 변화가 실제로 영향 을 줄 것이라는 보장은 없습니다 (iPhone의 해외 노예 제도와의 상승을 묶는 유명한 그래프 참조). 그것은 단지 거기에 상관 관계가 있음을 보여주고, 당신이 환경을 조정하면 (동작), 그 상관 관계는 여전히 존재할 수 있습니다.

그러나 이것은 매우 미묘한 접근 방식입니다. 많은 시나리오에서 우리는 인과 관계라는 덜 미묘한 도구를 원합니다. 인과 관계는 어떤 방식 으로든 환경을 조정하여 환경을 조정 하더라도 상관 관계가 여전히있을 것으로 예상 해야한다는 주장과 결합 된 상관 관계입니다 . 이를 통해 유용한 결과를 식별하기 위해 20 개 또는 50 개의 인과 관계 이벤트를 연속으로 연결하는 등 장기 계획이 가능합니다. 20 또는 50의 상관 관계로 그렇게하면 종종 매우 모호하고 어두운 결과가 남습니다.

이들이 과거에 어떻게 유용했는지에 대한 예로서 서양 과학과 전통 중국 의학 (TCM)을 고려하십시오. 서양 과학은 주로 "이론 개발, 이론을 입증 할 수있는 테스트 분리, 테스트 실행 및 결과 문서화"에 중점을 둡니다. 이것은 인과 관계와 밀접한 관련이있는 "이론 개발"로 시작합니다. TCM은 "유용한 결과를 제공하고, 테스트를 실행하고, 답변에서 상관 관계를 식별 할 수있는 테스트를 고안합니다"로 시작하여이 문제를 해결했습니다. 상관 관계에 더 중점을 둡니다.

오늘날 서양인들은 거의 전적으로 인과 관계로 생각하는 경향이 있으므로 상관 관계 연구의 가치는 스파이하기가 더 어렵습니다. 그러나 우리 삶의 모든 구석에 숨어 있습니다. 서양 과학에서도 상관 관계는 어떤 이론을 탐색 할 가치가 있는지 식별하는 데 중요한 도구입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.