짧은 대답 : 매우 견고합니다. 상관 관계는 선형 의존도 , 한 변수 를 다른 변수 의 선형 함수로 쓸 수없고 (여전히 주어진 한계 분포를 가짐) 완벽한 (양수 또는 음수) 상관 관계를 가질 수 없습니다. 실제로 가능한 상관 관계 값이 심각하게 제한 될 수 있습니다.
문제는 그 인구의 상관 관계가있는 동안 항상 사이 − 1 및 1 , 정확한 범위를 달성 심하게 한계 분포에 따라 달라집니다. 빠른 증거 및 데모 :
달성 가능한 상관 범위
경우 분포 함수를 갖는 H 및 여백 분포 함수 F 및 G를 위한 다소 좋은 상부와 하부 경계가 존재 H ,
H - ( X , Y를 ) ≤ H ( X , Y ) ≤ H + ( X , y ) ,
Fréchet bounds라고합니다. 이들은
H - ( X , Y( X, Y)H에프지H
H−( x , y) ≤ H( x , y) ≤ H+( x , y) ,
(증명을 시도하십시오; 그리 어렵지 않습니다.)
H−( x , y)H+( x , y)= 최대 ( F( x ) + G ( y) − 1 , 0 )= 분 ( F( x ) , G ( y) ) .
경계 자체는 분포 함수입니다. 유 가 균일 한 분포를 갖도록 합시다 . 상부 바인딩은의 분포 함수 ( X, Y) = ( F−( U) , G−( U) ) 의 분포 함수 및 하한된다 ( F−( − U) , G−( 1 - U) ) .
우리 때의 최대 및 최소의 상관 관계를 구하는 것을 알 H가 같은지 H + 및 H - 각각, 즉 때 Y는 의 (긍정적으로 또는 부정적으로 각각) 단조 함수이고 X가 .
코브( X, Y) = ∬H( x , y)−F(x)G(y)dxdy,
HH+H−YX
예
증거가없는 몇 가지 예는 다음과 같습니다.
XY(X,Y)YX
Y=μY+σYX−μXσX.
−11XY
XYYY=a−bXabYXY[−1/e,1]≈[−0.37,1]
XY
±1e−1−−−−√≈0.76.
모든 경계는 모집단 상관 관계에 대한 것입니다. 샘플 상관 관계는 특히 작은 샘플 (빠른 예 : 샘플 크기 2)의 경우 경계 외부로 쉽게 확장 될 수 있습니다.
상관 범위 추정
한계 분포에서 시뮬레이션 할 수 있으면 상관 관계의 상한 및 하한을 추정하는 것이 실제로 쉽습니다. 위의 마지막 예에서이 R 코드를 사용할 수 있습니다.
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
실제 데이터 만 있고 한계 분포를 모르는 경우에도 위의 방법을 사용할 수 있습니다. 관측 쌍이 의존적이라면 변수가 의존적이라는 것은 문제가되지 않습니다 . 그러나 많은 관측 쌍 을 갖는 것이 도움이됩니다 .
데이터 변환
YX
여기서 실제로하고있는 것은 한계 분포에 의존 하지 않는 새로운 의존성 척도를 만드는 것입니다 . 즉, 당신은 copula 기반의 의존성 척도를 만들고 있습니다. Spearman의 ρ 와 Kendall의 τ 가 가장 잘 알려진 몇 가지 측정법이 이미 존재합니다 . 의존성 개념에 정말로 관심이 있다면, copulas를 조사하는 것은 나쁜 생각이 아닙니다.
결론적으로
마지막 생각과 조언 : 상관 관계를 보는 것만으로도 큰 문제가 있습니다. 생각을 멈 춥니 다. 반면에 산점도를 보면 종종 생각 하기 시작 합니다. 따라서 나의 주요 조언은 산점도를 조사하고 의존성을 명시 적으로 모델링하는 것입니다.
즉, 간단한 상관 관계 측정이 필요한 경우 Spearman의 ρ (및 관련 신뢰 구간 및 테스트)를 사용하면됩니다. 그 범위는 제한되지 않습니다. 그러나 비단 조음 의존도에 유의하십시오. 상관 관계에 대한 Wikipedia 기사 에는 잠재적 문제를 보여주는 몇 가지 멋진 그림이 있습니다.