상관 관계가 인과 관계를 의미하지 않는 경우 두 변수 간의 상관 관계를 아는 값은 무엇입니까?


11

비즈니스 소유자 (또는 마케팅 또는 산점도를 이해하는 사람)에게 두 가지 변수의 산점도를 표시한다고 가정 해 보겠습니다. 광고 수 대 지난 5 년간 한 달에 한 달에 제품 판매 수 (또는 다른 시간 척도) 더 많은 샘플을 가지고 있습니다.

이제 산포도를보고 상관 계수 (corr)는 다음과 같습니다.

  1. 1 또는
  2. 0.5 또는
  3. 0.11 또는
  4. 0 또는
  5. -0.75 또는
  6. -1

기본적으로 유효한 값 corr

질문 : 의사 결정 자나 산포도 소비자에게 어떤 의미가 있습니까? 이를 바탕으로 어떤 결정을 내릴 수 있습니까?

즉 : 두 변수 사이의 상관 관계를 확인하는 용도는 무엇이며 해당 정보를 단독으로 사용하여 무엇을 할 수 있습니까? 회귀 분석에 포함시키기 위해 고려해야 할 사항 만 보거나 더 실용적인 용도로 사용합니까?

궁금한 점은 항상이 기술을 사용했지만 상관 관계 자체는 그다지 유용하지 않다는 것입니다.

답변:


12

몇 가지 생각 :

  • 인과 관계가 아닌 상관 관계에 대한 오래된 수염은 이야기의 절반에 지나지 않습니다. 상관 관계는 인과 관계가 아닐 수 있지만, 두 변수 사이의 연관 형태는 인과 관계를 보여주는 경로를 따라 필요한 단계이며 상관 관계가이를 보여줄 수 있습니다.
  • 트렌드를 지적하는 데 도움이됩니다. 비즈니스 소유자에게 보여 주면 "그렇습니다. 맞습니다. 위젯 X와 위젯 Y는 실제로 서로 관련이 없지만 특정 그룹의 사람들이 사용하게 될 것입니다." "그건 ... 홀수"입니다.이 시점에서 추가 조사를 요청했습니다.
  • 이런 식으로보세요. 상관 관계는 도구입니다. 망치 자체만으로는 그다지 유용하지 않습니다. 확실히 그 자체로 집을 짓지는 않을 것입니다. 그러나 망치 없이 집을 짓는 적이 있습니까?

5
첫 번째 글 머리표에서 상관 관계는 인과 관계에 필요한 조건이라고 말하지만 사실이 아닙니다. 두 변수 사이에 비단 조 관계가있는 경우 서로 관련이 없을 수 있습니다. 이는 원인을 배제하지 않습니다.
매크로

@ 매크로-사실과 편집
Fomite

@ 매크로 True, 그러나 실제로 함수를 변수에 적용하여 관계를 단조롭게 테스트 할 수 있습니다. 이 기능을 모른다면 ... 찾고있는 것에 대해 잘 모릅니다
RockScience

@EpiGrad : 두 변수의 XY 상관 관계 그래프가 행복한 스마일 (또는 다른 모양 자체)처럼 보인다고 가정합니다. 상관 계수는 실제로는 매우 작지만 확실히 상호 관계가있을 수 있습니다. 그러한 경우에 어떻게 / 무엇을해야합니까?
PhD

@Nupul 선형성을 넘어서 다소 복잡한 XY 탐색.
Fomite

7

도박의 관점에서 그것을보십시오. 평균적으로 작업 부츠를 착용하는 사람들은 작업에 1.5의 부상을 입을 것이며, 로퍼를 착용하는 사람들은 평균 .05의 부상을 입을 것입니다. 또는 작업 부츠를 착용 한 사람이 부상을 입을 확률은 .85이고 로퍼를 착용 한 사람이 부상을 입을 확률은 .1입니다.

무작위로 모집단에서 사람을 선택하고 그 사람이 워크 부츠를 착용하고 있다고 말하고 작년에 직장 부상을 입 었는지 여부에 대해 고액의 돈을 베팅한다면, 내기를 걸겠습니까? 그들이 부상을당한쪽에 베팅 할 수 있다면, 당신은 내기를 걸 것입니다 .. 당신이 이길 시간의 85 %, 그리고 당신은 돈을 벌고 있습니다.

요점은, 정보가 우리에게 그들이 직장에서 부상을 입을 가능성이 있는지 여부에 대한 정보를 제공한다는 것을 아는 것입니다. 신발은 실제로 부츠와는 아무런 관련이 없습니다. 작업 부츠와 함께하는 직업의 유형입니다. 그리고 아마도 사람과 같은 다른 것들이 더 무모 할 수도 있습니다.


6

"상관은 인과 관계를 암시하지 않습니다"라는 문구가 과장되었습니다. (Cohen이 쓴 것처럼 "이것은 끔찍한 힌트입니다."우리는 인간의 마음에 내재 된 편견 때문에이 문구를 학생들에게 이겼습니다. '범죄율이 빈곤율과 관련이있다'또는 이와 유사한 말을들을 때 도움이 될 수는 없지만 빈곤으로 인해 범죄가 발생한다고 생각할 수 있습니다. 사람들은 이것을 생각하는 것이 당연합니다. 왜냐하면 그것이 마음이 작용하는 방식이기 때문입니다. 우리는 그 문구를 반박하기 위해 계속해서 사용합니다. 그러나 일단 아이디어를 받아들이면이 문구는 대부분의 가치를 잃어 버리고 더 정교한 이해로 넘어갈 시간입니다.

두 변수 사이에 상관 관계가 있으면 두 가지 가능성이 있습니다. 모두 우연의 일치이거나 직장에서 인과 적 패턴이 있습니다. 세계에서 패턴을 우연의 일치라고 부르는 것은 끔찍한 설명 틀이며 아마도 최후의 수단이 될 것입니다. 그것은 인과 관계를 남깁니다. 문제는 우리가 그 인과 관계 패턴의 본질을 모른다는 것입니다. 빈곤으로 인해 범죄가 발생할 수도 있지만 범죄로 인해 빈곤이 발생할 수도 있습니다 (예 : 사람들은 범죄율이 높은 지역에 살고 싶지 않기 때문에 이사하고 재산 가치가 하락하는 등). 범죄와 빈곤을 유발하는 세 번째 변수 또는 변수 그룹이있을 수 있지만 실제로 직접적인 것은 없습니다. 범죄와 빈곤 사이의 인과 적 연관성 ( '일반적인 원인'모델이라고도 함). 통계 모델에서는 다른 모든 변동 원인이 종속 변수의 오차 항으로 축소되기 때문에 이는 특히 위험합니다. 결과적으로, 독립 변수는 오차항과 상관 관계가 있으며, 이로 인해 내 생성 의 문제가 발생 합니다. 이러한 문제는 매우 어렵 기 때문에 가볍게 다루어서는 안됩니다. 그럼에도 불구하고이 시나리오에서도 실제 인과 관계가 있음을 인식하는 것이 중요합니다.

당신이 상관 관계를 볼 때 한마디로, 당신은 아마이 있음을 생각해야 어떤 종류의 놀이에서 인과 관계의 어딘가에는 ,하지만 당신은 그 인과 패턴의 본질을 모르는.


4

나는 이것들에 대해 잘 알고 있다고 생각했지만, 사전에서 "간단히"찾아서 두 가지 놀랍게 다른 의미를 가지고있는 것은 지난 달이었습니다. 1. 제안 및 2. 필요합니다. (!) 상관 관계는 거의 인과 관계를 필요로하지 않지만 확실히 암시 할 수 있습니다. @EpiGrad가 지적했듯이 인과 관계를 설정하기에는 충분하지 않지만 충분하지는 않습니다.

시간이 지남에 따라 상관 관계를 끝없는 것으로 보는 것과 완전히 쓸모없는 것 사이의 중간 지점을 찾으십시오. 그리고 상관 결과를 해석 할 때 주제 / 도메인 / 컨텐츠 특정 지식을 고려합니다. 귀하가 설명하는 광고 판매 결과를 볼 때 최소한 인과 관계가 있는지에 대해 의문을 가진 사람은 거의 없습니다. 그러나 다른 가능성, 관찰 된 관계를 적어도 부분적으로 설명 할 수있는 다른 변수에 항상 열려있는 것이 좋습니다. 혼란스러운 변수, 유효성 등에 대한 독서는 큰 배당금으로 이루어집니다. 예를 들어 쿡과 캠벨의 오래된 고전 실험 은 타당성과 타당성에 대한 좋은 섹션을 가지고 있습니다.


1
@EpiGrad를 지적했듯이 상관은 인과 관계에 필요한 조건 이 아닙니다 . 데이터 분석에는 변수 간의 관계가 항상 단조 관계를 의미한다는 광범위한 개념이 있으며, 이는 상관 관계가 인과 관계에 필요한 조건임을 암시하여 암묵적으로 가정됩니다.
매크로

1
그럴 수 있지. 그렇다면 "통계 연결"이 필요하다고 가정 해 봅시다.
rolando2

2

X의 값을 아는 것이 Y의 값에 대해 얼마나 많은 정보를 제공하는지 알고 싶다면 상관 관계 계수가 유용합니다. 이는 X를 특정 값으로 설정했는지 여부를 아는 것과는 다릅니다. 당신이 얻게 될 Y의 가치 (이는 인과 관계에 대한 반 현실적인 해석의 본질입니다).

그럼에도 불구하고, 많은 맥락에서 (예를 들어, 예측) 상관 관계에 근거한 추론은 그 자체로 가치가있을 것이다. 노란 이빨은 폐암과 관련이 있습니다 (모두 암에 의해 생식 적으로 유발되기 때문에). 미백 치아는 폐암을 치료하지 않습니다. 그러나 폐암에 걸렸을 가능성이있는 사람에 대해 빠른 선별 검사가 필요하다면, 노란 이빨을 검사하는 것이 좋은 첫 번째 단계 일 수 있습니다.

상관 계수가 가장 유용한 연관 척도인지 여부는 다른 질문이지만, 인과 관계가 아닌 연관성을 아는 것의 가치에 대한 질문입니다.

Btw, 상관 관계는 인과 관계에 대한 충분한 증명 일뿐만 아니라 필요하지도 않다. 두 변수는 인과 관계가있을 수 있지만 특정 데이터 세트 (예 : 선택 바이어스 또는 혼란)로 인해 상관 관계가 없습니다.


1

상관 관계 자체는 그다지 쓸모가 없습니다. 그래서 "IS"는 무엇입니까?

이 구절에 동의하지 않겠습니다. 상관 관계는 두 변수 사이의 연관 수준을 알려줍니다. 그런 다음 이러한 변수 간의 관계를 설명 할 때 유용합니다. 반면에 (매크로가 쓴 것처럼) 상관 관계는 인과 관계에 필요한 조건은 아니지만 연관 수준을 설명하기에 충분합니다. 또한 변수의 독립성을 테스트 할 수 있지만 상관 관계는 다른 유용한 정보 인 결정 계수를 제공 할 수 있습니다.

그럼에도 불구하고 분석가는 관계의 종류를 설명 할 수있는 영역을 알아야합니다.


무슨 말인지 잘 모르겠습니다.Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
PhD

내가 의미하는 바는 "변수의 독립성을 테스트 할 수있다"는 것이었지만 어쨌든 독립성, 상관 관계 및 코프 정보를 테스트하지 않는 경우에도 마찬가지입니다. 결정의 변수는 변수들 사이의 관계의 종류를 이해하고 설명하는데 "유용하다".
Jose Zubcoff

1

데이터 수집과 연구 설계도이 질문에 답하는 데 중요한 역할을한다고 생각합니다. 관찰 연구에서도 연구를 설계하지 않고 서로 관련이없는 일련의 데이터를 수집하므로 "상관이 원인을 암시하지 않음"이 정당화 될 수 있습니다. 인과 관계는 아니지만 연관 관계가있을 수 있습니다.

그러나 두 개의 데이터 집합에 대해 전혀 관련이 없지만 연관성과 인과 관계를 설명하기 위해 상관 관계를 사용하려는 경우 부적절 할 수 있습니다. 예를 들어, 아이스크림 판매량과 결혼 횟수와 같이 두 데이터 집합에 모두 하락 추세가있는 경우 상관 계수가 매우 높을 수 있습니다. 그러나 협회를 의미해야합니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.