비정규 데이터와 Pearson 또는 Spearman의 상관 관계


113

통계 컨설팅 작업에서이 질문을 충분히 자주 받았으며 여기에 게시 할 것이라고 생각했습니다. 나는 아래에 게시 된 답변을 받았지만 다른 사람들의 말을 듣고 싶어했습니다.

질문 : 정규 분포가 아닌 두 개의 변수가있는 경우 상관 관계에 Spearman 's rho를 사용해야합니까?


1
왜 계산하고보고하지 모두 (피어슨의 연구 창병의 ρ를)? 이들의 차이점 (또는 부족)은 추가 정보를 제공합니다.

단순 회귀 계수 베타의 중요성을 테스트 할 때와 Pearson 상관 계수 (숫자 적으로 베타와 동일 함)를 테스트 할 때의 분포 가정을 비교하는 질문 stats.stackexchange.com/q/181043/3277 .
ttnphns

답변:


77

피어슨의 상관 관계는 두 개의 연속 랜덤 변수 간의 선형 관계를 측정 한 것입니다. 유한 분산과 유한 공분산을 가정하지만 정규성을 가정하지 않습니다. 변수가 이변 량 정규 인 경우 Pearson의 상관 관계는 연관에 대한 완전한 설명을 제공합니다.

Spearman의 상관 관계는 순위에 적용되므로 두 개의 연속 랜덤 변수 사이의 단조 관계를 측정 할 수 있습니다. 또한 서수 데이터에도 유용하며 피어슨의 상관 관계와 달리 특이 치에 강합니다.

두 상관 계수의 분포는 기본 분포에 의존하지만, 기본 한계 정리로 인해 무증상으로 정상입니다.


12
피어슨의 는 정규성을 가정하지 않지만 관절 분포가 다변량 정규 인 경우 철저한 연관 척도입니다. 이 차이가 유발하는 혼동을 감안할 때 답에 추가 할 수 있습니다. ρ
user603

3
위의 진술을 뒷받침하기 위해 인용 할 수있는 출처가 있습니까 (Person 's r은 정규성을 가정하지 않음)? 현재 부서에서 동일한 주장을하고 있습니다.

5
"변수가 이변 량 정규 인 경우 Pearson의 상관 관계는 연관에 대한 완전한 설명을 제공합니다." 변수가 이변 량 정규가 아닌 경우 Pearson의 상관 관계는 얼마나 유용합니까?
landroni

2
이 답변은 다소 간접적 인 것 같습니다. "변수가 이변 량 정상일 때 ..."그리고 그렇지 않을 때? 이런 종류의 설명은 내가 통계를 얻지 못하는 이유입니다. "로브, 내 새 드레스는 어때?" "어두운 색은 밝은 피부를 강조합니다." "물론 Rob,하지만 내 피부가 어떻게 강조되는지 좋아 하세요?" "가벼운 피부는 많은 문화권에서 아름다운 것으로 간주됩니다." "나는 롭 알고 있지만 않는 당신은 그것을 좋아?" "드레스가 예쁘다고 생각합니다." "나도 그렇게 생각해. Rob, 나에게 아름답 ?" "넌 항상 나에게 아름답게 보여, 여보." 한숨

1
그 전에 두 문장을 읽으면 답을 찾을 수 있습니다.
Rob Hyndman

49

켄달의 타우를 잊지 마십시오 ! 로저 뉴손은 켄달의 우수성에 대한 주장했다 τ의 스피어의 상관 관계를 통해 연구의 S 전문 지금 온라인으로 자유롭게 사용할 수있는 종이의 상관 관계의 순위 기반 조치로 :

Newson R. "비모수 적"통계의 매개 변수 : Kendall 's tau, Somers 'D 및 median difference . Stata Journal 2002; 2 (1) : 45-64

그는 Kendall & Gibbons (1990)에 따르면 "... Spearman의 r S 에 대한 신뢰 구간은 Kendall의 τ- 파라미터에 대한 신뢰 구간보다 신뢰성이 낮고 해석하기가 쉽지 않지만 표본 Spearman의 r S 는 훨씬 더 쉽다고 주장합니다 (p47). 컴퓨터없이 계산되었습니다 "(물론 더 이상 중요하지 않습니다). 불행히도 나는 그들의 책의 사본에 쉽게 접근 할 수 없다 :

Kendall, MG 및 JD Gibbons. 1990 년 순위 상관 관계 방법 . 에드. 런던 : 그리핀.


2
나는 또한 Kendall의 타우를 좋아합니다. Pearson은 내 취향에 영향을 미치는 포인트 / 이상치에 너무 민감하며 Spearman은이 문제로 고통받지 않지만 Kendall은 Spearman보다 이해하고 해석하고 설명하기가 더 쉽다는 것을 개인적으로 알게됩니다. 물론, 마일리지가 다를 수 있습니다.
Stephan Kolassa

내가 경험 한 것을 기억하면 Kendall의 타우는 여전히 Spearman보다 훨씬 느리게 실행됩니다 (R). 데이터 세트가 큰 경우에 중요 할 수 있습니다.
wordsforthewise

35

적용 관점에서, 나는 내 연구 질문에 맞는 방식으로 두 변수 사이의 관계를 요약하는 접근법을 선택하는 데 더 관심이 있습니다. 정확한 표준 오차와 p- 값을 얻는 방법을 결정하는 것이 두 번째로해야 할 문제라고 생각합니다. 무증상에 의존하지 않더라도 배포 가정을 부트 스트랩하거나 변경하는 옵션이 항상 있습니다.

일반적으로, 나는 Pearson의 상관 관계를 선호합니다. 왜냐하면 (a) 그것은 일반적으로 나의 이론적 관심사와 더 일치합니다. (b) 내 지역의 대부분의 연구는 Pearson의 상관 관계를보고하기 때문에 연구 전반에 걸쳐 결과의 직접적인 비교 가능성을 가능하게한다. 그리고 (c) 많은 설정에서 피어슨과 스피어 맨 상관 계수 사이에는 최소한의 차이가 있습니다.

그러나 원시 변수에 대한 Pearson의 상관 관계가 잘못된 것으로 생각되는 상황이 있습니다.

  • 특이 치 : 특이 치가 Pearson의 상관 관계에 큰 영향을 줄 수 있습니다. 적용된 설정의 많은 특이 치는 측정 실패 또는 모델이 일반화하지 않는 기타 요인을 반영합니다. 한 가지 방법은 이러한 특이 치를 제거하는 것입니다. 모든 변수가 순위로 변환되므로 Spearman의 Rho에는 일 변량 특이 치가 없습니다. 따라서 Spearman은 더욱 강력합니다.
  • 치우친 변수 : 치우친 변수, 특히 치우친 변수를 상관시킬 때, 로그 또는 다른 변형은 종종 두 변수 사이의 기본 관계를 더 명확하게 만듭니다 (예 : 동물의 체중에 따른 뇌 크기). 이러한 설정에서는 원시 메트릭이 가장 의미있는 메트릭이 아닐 수 있습니다. Spearman의 rho는 두 변수를 순위로 변환하여 변환과 유사한 효과를 갖습니다. 이러한 관점에서, Spearman의 rho는 최적의 변형에 대해 생각할 필요가없는 빠르고 더 더러운 접근법 (보다 긍정적으로 덜 주관적)으로 볼 수 있습니다.

위의 두 경우 모두, Pearson의 상관 관계를 적용하기 전에 조정 전략 (예 : 변환, 이상치 제거 / 조정)을 고려하거나 Spearman 's rho를 사용하도록 연구원에게 조언합니다.


변환의 문제점은 일반적으로 각 포인트와 관련된 오류 및 가중치도 변환한다는 것입니다. 그리고 그것은 이상치의 문제를 해결하지 못합니다.
skan

11

업데이트

이 질문은 정규성 에 의문이 있을 때 Pearson과 Spearman의 방법 중에서 선택하도록 요청합니다 . 이 문제에 국한된 다음 논문은 모든 사람의 결정에 영향을 미쳐야한다고 생각합니다.

r

r

정규성이 위반 될 때 Spearman과 Pearson 중 하나를 선택하라는 요청을 받으면 분배가없는 대안, 즉 Spearman의 방법을 옹호 할 가치가 있습니다.


이전에는 ..

Spearman의 상관 관계는 순위 기반 상관 관계 측정입니다. 비모수 적이며 정규성의 가정에 근거하지 않습니다.

Pearson의 상관 관계에 대한 샘플링 분포는 정규성을 가정합니다. 특히 이는 계산할 수 있지만 유의성 테스트를 기반으로 한 결론이 적절하지 않을 수 있음을 의미합니다.

Rob이 주석에서 지적했듯이 큰 샘플에서는 이것이 문제가되지 않습니다. 그러나 정규성이 위반되는 작은 표본의 경우 Spearman의 상관 관계가 선호됩니다.

의견과 답변에 대한 Mulling 업데이트 , 이것은 일반적인 비 모수 적 대 파라 메트릭 테스트 토론으로 요약되는 것으로 보입니다. 예를 들어 생물 통계학과 같은 많은 문헌은 큰 샘플을 다루지 않습니다. 나는 일반적으로 무증상에 의존하여 무심하지 않습니다. 아마도이 경우에는 정당화 될 수 있지만 그것은 나에게 명백하지 않습니다.


1
피어슨의 상관 관계는 정규성을 가정하지 않습니다. 그것은 임의의 두 연속 랜덤 변수 사이의 상관의 추정치이며 비교적 일반적인 조건에서 일관된 추정기입니다. CLT로 인해 표본이 충분히 클 경우 Pearson의 상관 관계를 기반으로 한 검정조차도 정규성을 요구하지 않습니다.
Rob Hyndman

2
기본 분포에 유한 분산과 공분산이있는 한 Pearson이 정의되어 있다는 인상을받습니다. 따라서 정규성이 필요 하지 않습니다. 기본 분포가 정상이 아닌 경우 검정 통계량은 다른 분포를 가질 수 있지만 이는 2 차 문제이며 당면한 문제와 관련이 없습니다. 그렇지 않습니까?

2
@Rob : 그렇습니다. 우리는 항상 해결 방법을 생각 해낼 수 있습니다. 대부분의 비 통계학자가 표준 명령으로 처리 할 수있는 Spearman의 방법을 피하기 만하면됩니다. 정규성이 의심스러운 작은 샘플에 대해 Spearman의 방법을 사용하는 것이 좋습니다. 그것이 분쟁 중인지 확실하지 않습니다.
ars

1
@ars. 선형 연관이 아닌 단조로운 (monotonic)에 관심이 있거나 특이 치나 왜곡도가 높은 경우 Spearman을 사용합니다. 특이 치가 없으면 Pearson을 선형 관계에 사용합니다. 샘플 크기가 선택과 관련이 없다고 생각합니다.
Rob Hyndman

3
@Rob : 알겠습니다. 토론 감사합니다. 나는 첫 번째 부분에 동의하지만 마지막 부분은 의심하지만 정상적인 무증상은 적용되지 않기 때문에 크기가 중요한 역할을합니다. 예를 들어 Kowalski 1972는 이와 관련한 역사를 꽤 잘 조사한 결과 피어슨의 상관 관계가 생각만큼 강력하지 않다고 결론을 내립니다. 참조 : jstor.org/pss/2346598
ARS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.