두 변수의 상관 관계가 0 인 경우 왜 반드시 독립적이지 않습니까? 특수한 상황에서 제로 상관 변수가 독립적입니까? 가능하다면 고도로 기술적 인 설명이 아닌 직관적 인 설명을 찾고 있습니다.
두 변수의 상관 관계가 0 인 경우 왜 반드시 독립적이지 않습니까? 특수한 상황에서 제로 상관 변수가 독립적입니까? 가능하다면 고도로 기술적 인 설명이 아닌 직관적 인 설명을 찾고 있습니다.
답변:
상관 관계는 주어진 두 변수 간의 선형 연관성을 측정하며 다른 형태의 연관을 감지 할 의무는 없습니다.
따라서이 두 변수는 몇 가지 다른 비선형 방식으로 연관 될 수 있으며 상관 관계는 독립 사례와 구별 할 수 없습니다.
매우 교훈 인공 아닌 실제 예로서, 하나의 고려할 수있는 되도록 대 및 . 그것들은 관련 될뿐만 아니라 하나는 다른 것의 기능이라는 것을 주목하십시오. 그럼에도 불구하고 상관 관계는 0입니다. 연관 관계는 감지 할 수있는 연관 관계와 직교하기 때문입니다.P ( X = X ) = 1 / 3 , X = - 1 , 0 , 1 Y = X (2)
"상관"이라는 단어의 사용에는 일반적으로 다른 가정과 의미를 가질 수 있다는 단순한 이유로 엄격 성이 부족합니다. 가장 단순하고 느슨하며 가장 일반적인 사용법은 정적 변수의 정적 변수 쌍 사이에 모호한 연관성, 관계 또는 독립성 부족이 있다는 것입니다.
여기서 참조되는 기본 메트릭은 일반적으로 Pearson 상관 관계이며, 이는 두 개의 연속적으로 분포 된 변수 사이 의 쌍별 선형 연관성에 대한 표준화 된 측정 값입니다 . Pearson의 가장 일반적인 오용 중 하나는 백분율로보고하는 것입니다. 확실히 백분율이 아닙니다. 피어슨 상관 관계를, R은 사이 -1.0 +1.0 여기서, 0 내지 수단없이 선형 연관. Pearson 상관 관계를 기본값으로 사용하는 데있어 널리 알려지지 않은 다른 문제 는 실제로 간격 스케일 변수를 입력으로 요구하는 엄격하고 비강도 선형성 측정이라는 점입니다 (Paul Embrechts의 우수한 논문 참조).위험 관리의 상관 관계 및 종속성 : 속성 및 함정 : https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts는 이러한 관계의 기본 구조와 기하학적 형태의 가정으로 시작되는 의존성에 대한 많은 잘못된 가정이 있다고 지적합니다.
이러한 오류는 타원형 세계의 의존성 속성이 비 타원형 세계에서도 유지된다는 순진한 가정에서 비롯됩니다.
Embrechts 는 금융 및 위험 관리에 사용되는 훨씬 광범위한 등급의 의존성 지표 로 copulas 를 지적 합니다.이 중 Pearson 상관 관계는 한 가지 유형입니다.
Columbia의 통계 부서는 2013-2014 학년도를 선형, 비선형, 단조, 순위, 파라 메트릭, 비 파라 메트릭, 잠재적으로 매우 복잡하고 스케일링의 광범위한 차이를 갖는 의존성 구조에 대한 더 깊은 이해를 개발하는 데 중점을 두었습니다. 올해는이 분야의 최고 기고자들을 모은 3 일간의 워크숍과 컨퍼런스로 끝났습니다 ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).
이 참여자가 Reshef 형제, 2011 년에 지금은 유명한 포함 된 과학 논문 대형 데이터에서 감지 소설 협회 설정을 http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf 그 널리 알려진 비판을 받았습니다 (컬럼비아 행사와 동시에 게시 된 좋은 개요는 AndrewGelman.com : http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Reshefs는 프리젠 테이션 (Columbia 컨퍼런스 웹 사이트에서 사용 가능)과 훨씬 더 효율적인 MIC 알고리즘으로 이러한 비판을 모두 해결했습니다.
가버 세 케일리를 포함 해 현재 DC의 NSF에서이 행사에 참석 한 다른 주요 통계 학자들이 발표했습니다. Szekely는 거리 와 부분 거리 상관 관계를 개발했습니다 . 깊은 Mukhopadhay, 사원 U, 그의 발표 통합 통계 알고리즘 - 데이터 과학의 통합 알고리즘을위한 프레임 워크 - 유진 프란 젠과 수행 작업을 기반으로 http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/을 . 그리고 많은 다른 사람들. 저에게있어 가장 흥미로운 주제 중 하나는 RKHS (Rekerducing Kernel Hilbert Space)와 카이 제곱을 광범위하게 활용하고 사용하는 것이 었습니다. 이 회의에서 의존 구조에 대한 모달 접근법이 있다면 RKHS였습니다.
전형적인 인트로 통계 교재는 의존성 처리에있어 일반적이며, 원형 또는 포물선 관계의 동일한 시각화 세트의 프리젠 테이션에 의존합니다. 보다 정교한 텍스트는 유사하고 간단한 통계적 속성을 가지고 있지만 크게 다른 관계를 갖는 4 가지 데이터 세트의 시각화 인 Anscombe 's Quartet에 대해 자세히 다룰 것입니다 . https://en.wikipedia.org/wiki/Anscombe%27s_quartet
이 워크샵의 가장 큰 장점 중 하나는 표준적인 기능적 처리를 훨씬 능가하는 다양한 의존성 구조와 관계가 시각화되고 표현되었다는 것입니다. 예를 들어, Reshefs에는 가능한 비선형 성의 샘플링을 나타내는 수십 개의 썸네일 그래픽이있었습니다. Deep Mukhopadhay는 히말라야 위성보기처럼 보이는 매우 복잡한 관계에 대한 놀라운 시각 자료를 가지고있었습니다. 통계 및 데이터 과학 교과서 작성자는 참고해야합니다.
이러한 매우 복잡한 쌍별 의존 구조의 개발 및 시각화와 함께 콜롬비아 컨퍼런스에서 나오면서, 나는 이러한 비선형 성과 복잡성을 포착하는 다변량 통계 모델의 능력에 의문을 갖게되었습니다.
기본적으로 Y의 X에 대한 의존성은 Y의 값 분포가 X의 가치에 어떤 방식으로 의존 하는지를 의미합니다. 그 의존성은 Y의 평균 값 (대부분의 답변에서 제시되는 일반적인 경우) 또는 다른 특성에 달려 있습니다. 와이.
예를 들어, X를 0 또는 1로 설정하십시오. X = 0이면 Y를 0으로 설정하고, X = 1이면 Y를 -1, 0 또는 1 (동일 확률)로 설정하십시오. X와 Y는 상관이 없습니다. 평균적으로 Y는 X 값에 관계없이 X에 의존하지 않습니다. Y의 평균은 0입니다. 그러나 Y 값의 분포는 X 값에 따라 다릅니다. 이 경우, 예를 들어, Y의 분산은 X가 0 일 때 0이고 X가 1 일 때> 0이므로, 적어도 분산에 대한 의존성이 존재한다. 즉, 의존성이 존재한다.
따라서 선형 상관 관계는 평균에 대한 의존성 유형 (선형 의존성) 만 보여 주므로 특수한 의존성 사례입니다.