Pearson의 상관 계수가 정규성 위반에 얼마나 강력합니까?


20

특정 집단에서 측정 할 때 특정 종류의 변수에 대한 데이터는 비정규 경향이 있습니다 (예 : 주요 우울 장애가있는 인구 집단의 우울증 수준). Pearson의 가정이 정규성을 가정하면 비정규 조건에서 검정 통계량은 얼마나 강력합니까?

상관 계수를 원하는 여러 변수가 있지만 이러한 변수 중 일부에 대한 Z-skewness는 p <.001 에서 중요 합니다 (상대적으로 작은 샘플의 경우). 나는 몇 가지 변형을 시도했지만 배포판의 개선은 거의 미미합니다.

비모수 적 분석을 고수해야합니까? 그리고 상관 관계뿐만 아니라 다른 유형의 분석에도 적용됩니까?


잠깐, 피어슨의 상관 계수는 정규성을 가정합니까? 나는 그렇게 생각하지 않으며 비정규 데이터에서 사용하고 있습니다. 비정규 상황에서 더 자주 발생하는 일에는 강력하지 않지만 Pearson의 상관 계수를 사용하는 데 아무런 문제가없는 비정규 상황이 많이 있습니다.
Douglas Zare

1
Pearson의 상관 관계는 정규성이 가정하는 통계 정보가 많다고 가정합니다. 다른 곳에서는 정규성이 Pearson 's r에 대한 불필요한 가정이라는 것을 들었습니다. 분석을 실행할 때 Pearson과 Spearman의 결과는 비교적 비슷한 결과를 생성합니다.
시조새

Spearman의 순위 상관 계수는 비정규 순위에 적용된 Pearson의 상관 계수입니다. 피어슨이 정상을 요구한다고 어떻게 생각하는지 모르겠습니다. 아마도 다변량 정규 분포에서 사용하는 경우 몇 가지 추가 사항을 말할 수 있습니다.
Douglas Zare

나는 단순한 이변 량 상관을 위해 그것을 사용하고 있습니다. 왜 정규성이 필요하다고 주장하는지 잘 모르겠습니다. 내가 읽은 통계 텍스트는 항상 Pearson의 상관 관계를 가정하여 정규성을 나열하고 비정규 상태가 유지되는 조건에 Spearman을 사용하도록 조언합니다.
시조새

답변:


20

짧은 대답 : 매우 견고합니다. 상관 관계는 선형 의존도 , 한 변수 다른 변수 의 선형 함수로 쓸 수없고 (여전히 주어진 한계 분포를 가짐) 완벽한 (양수 또는 음수) 상관 관계를 가질 수 없습니다. 실제로 가능한 상관 관계 값이 심각하게 제한 될 수 있습니다.

문제는 그 인구의 상관 관계가있는 동안 항상 사이 11 , 정확한 범위를 달성 심하게 한계 분포에 따라 달라집니다. 빠른 증거 및 데모 :

달성 가능한 상관 범위

경우 분포 함수를 갖는 H 및 여백 분포 함수 FG를 위한 다소 좋은 상부와 하부 경계가 존재 H , H - ( X , Y를 ) H ( X , Y ) H + ( X , y ) , Fréchet bounds라고합니다. 이들은 H - ( X , Y(엑스,와이)H에프H

H(엑스,와이)H(엑스,와이)H+(엑스,와이),
(증명을 시도하십시오; 그리 어렵지 않습니다.)
H(엑스,와이)=최대(에프(엑스)+(와이)1,0)H+(엑스,와이)=(에프(엑스),(와이)).

경계 자체는 분포 함수입니다. 가 균일 한 분포를 갖도록 합시다 . 상부 바인딩은의 분포 함수 (엑스,와이)=(에프(),()) 의 분포 함수 및 하한된다 (에프(),(1)) .

우리 때의 최대 및 최소의 상관 관계를 구하는 것을 알 H가 같은지 H + H - 각각, 즉 때 Y는 의 (긍정적으로 또는 부정적으로 각각) 단조 함수이고 X가 .

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

증거가없는 몇 가지 예는 다음과 같습니다.

  1. XY(X,Y)YX

    Y=μY+σYXμXσX.
    11XY
  2. XYYY=abXabYXY[1/e,1][0.37,1]

  3. XY

    ±1e10.76.

모든 경계는 모집단 상관 관계에 대한 것입니다. 샘플 상관 관계는 특히 작은 샘플 (빠른 예 : 샘플 크기 2)의 경우 경계 외부로 쉽게 확장 될 수 있습니다.

상관 범위 추정

한계 분포에서 시뮬레이션 할 수 있으면 상관 관계의 상한 및 하한을 추정하는 것이 실제로 쉽습니다. 위의 마지막 예에서이 R 코드를 사용할 수 있습니다.

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

실제 데이터 만 있고 한계 분포를 모르는 경우에도 위의 방법을 사용할 수 있습니다. 관측 쌍이 의존적이라면 변수가 의존적이라는 것은 문제가되지 않습니다 . 그러나 많은 관측 쌍 을 갖는 것이 도움이됩니다 .

데이터 변환

YX

여기서 실제로하고있는 것은 한계 분포에 의존 하지 않는 새로운 의존성 척도를 만드는 것입니다 . 즉, 당신은 copula 기반의 의존성 척도를 만들고 있습니다. Spearman의  ρKendall의  τ 가 가장 잘 알려진 몇 가지 측정법이 이미 존재합니다 . 의존성 개념에 정말로 관심이 있다면, copulas를 조사하는 것은 나쁜 생각이 아닙니다.

결론적으로

마지막 생각과 조언 : 상관 관계를 보는 것만으로도 큰 문제가 있습니다. 생각을 멈 춥니 다. 반면에 산점도를 보면 종종 생각 하기 시작 합니다. 따라서 나의 주요 조언은 산점도를 조사하고 의존성을 명시 적으로 모델링하는 것입니다.

즉, 간단한 상관 관계 측정이 필요한 경우 Spearman의  ρ (및 관련 신뢰 구간 및 테스트)를 사용하면됩니다. 그 범위는 제한되지 않습니다. 그러나 비단 조음 의존도에 유의하십시오. 상관 관계에 대한 Wikipedia 기사 에는 잠재적 문제를 보여주는 몇 가지 멋진 그림이 있습니다.


1
+1이 훌륭한 기여는 상관 관계와 관련된 몇 가지 반복되는 문제를 명확하게 해결합니다. 특히 첫 번째 결론에서 생각을 멈추고 시작하는 것에 대한 언급에 감사드립니다.
whuber

비 견고성이 무증상 상태로 유지됩니까? 그렇다면이다 위키는 "또한 약 보유 [R의 간단한 변화에 대한 학생의 t 배포] 관찰 된 값이 아닌 정상에서 제공하는 샘플 크기가 매우 작은 수없는 경우에도"그 말에 잘못?
최대

5

이 변수들의 분포는 어떻게 구부러져 있습니까? 비정규 성이 유일한 비대칭이라면, 일종의 변형이 도움이되어야합니다. 그러나 이러한 변수에 많은 덩어리가 있다면 변환이 정상화되지 않습니다. 변수가 연속적이지 않은 경우에도 마찬가지입니다.

위반과의 상관 관계는 얼마나 강력합니까? Anscombe Quartet을 살펴보십시오. 몇 가지 문제를 잘 보여줍니다.

다른 유형의 분석은 분석에 따라 다릅니다. 예를 들어, 치우친 변수가 회귀 분석에서 독립 변수 인 경우 전혀 문제가 없을 수 있습니다. 잔차를 살펴 봐야합니다.


1
일부 변수는 첨도에 문제가 있지만 왜도가 가장 큰 문제입니다. 문제 변수에 대한 제곱근과 로그 변환을 시도했지만 크게 향상되지는 않습니다. 실제로 분포는 거의 똑같이 보이지만 점수가 많이 쌓입니다.
시조새

1
매우 이상해 보인다. 문제가되는 변수의 평균, 중앙값, 왜도, 첨도를 게시 할 수 있습니까? 아니면 그것의 밀도 플롯입니까?
Peter Flom-복원 모니카

6
(X, Y)의 분포가 이변 량 정규인지 아닌지에 관계없이 Pearson 상관 관계는 선형도의 척도입니다. 표본 추정치의 확률 분포는 정규성에 따라 달라집니다.
Michael R. Chernick

3
이러한 변수는 그리 치우 치지 않습니다. 그대로 둘 수 있습니다.
Peter Flom-Monica Monica 복원

3
여기서 중요성에 대해 걱정하지 마십시오. 일반적으로 <-2 또는> 2 인 스큐 및 첨도는 변환이 필요한 것으로 간주됩니다. 더 좋은 방법은 그래프를 보는 것입니다. 예를 들어 정상 플롯 및 밀도 플롯 w / 커널을 양자화하여 진행 상황을 확인하십시오.
Peter Flom-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.