통계 컨설팅 작업에서이 질문을 충분히 자주 받았으며 여기에 게시 할 것이라고 생각했습니다. 나는 아래에 게시 된 답변을 받았지만 다른 사람들의 말을 듣고 싶어했습니다.
질문 : 정규 분포가 아닌 두 개의 변수가있는 경우 상관 관계에 Spearman 's rho를 사용해야합니까?
통계 컨설팅 작업에서이 질문을 충분히 자주 받았으며 여기에 게시 할 것이라고 생각했습니다. 나는 아래에 게시 된 답변을 받았지만 다른 사람들의 말을 듣고 싶어했습니다.
질문 : 정규 분포가 아닌 두 개의 변수가있는 경우 상관 관계에 Spearman 's rho를 사용해야합니까?
답변:
피어슨의 상관 관계는 두 개의 연속 랜덤 변수 간의 선형 관계를 측정 한 것입니다. 유한 분산과 유한 공분산을 가정하지만 정규성을 가정하지 않습니다. 변수가 이변 량 정규 인 경우 Pearson의 상관 관계는 연관에 대한 완전한 설명을 제공합니다.
Spearman의 상관 관계는 순위에 적용되므로 두 개의 연속 랜덤 변수 사이의 단조 관계를 측정 할 수 있습니다. 또한 서수 데이터에도 유용하며 피어슨의 상관 관계와 달리 특이 치에 강합니다.
두 상관 계수의 분포는 기본 분포에 의존하지만, 기본 한계 정리로 인해 무증상으로 정상입니다.
켄달의 타우를 잊지 마십시오 ! 로저 뉴손은 켄달의 우수성에 대한 주장했다 τ의 스피어의 상관 관계를 통해 연구의 S 전문 지금 온라인으로 자유롭게 사용할 수있는 종이의 상관 관계의 순위 기반 조치로 :
Newson R. "비모수 적"통계의 매개 변수 : Kendall 's tau, Somers 'D 및 median difference . Stata Journal 2002; 2 (1) : 45-64
그는 Kendall & Gibbons (1990)에 따르면 "... Spearman의 r S 에 대한 신뢰 구간은 Kendall의 τ- 파라미터에 대한 신뢰 구간보다 신뢰성이 낮고 해석하기가 쉽지 않지만 표본 Spearman의 r S 는 훨씬 더 쉽다고 주장합니다 (p47). 컴퓨터없이 계산되었습니다 "(물론 더 이상 중요하지 않습니다). 불행히도 나는 그들의 책의 사본에 쉽게 접근 할 수 없다 :
Kendall, MG 및 JD Gibbons. 1990 년 순위 상관 관계 방법 . 에드. 런던 : 그리핀.
적용 관점에서, 나는 내 연구 질문에 맞는 방식으로 두 변수 사이의 관계를 요약하는 접근법을 선택하는 데 더 관심이 있습니다. 정확한 표준 오차와 p- 값을 얻는 방법을 결정하는 것이 두 번째로해야 할 문제라고 생각합니다. 무증상에 의존하지 않더라도 배포 가정을 부트 스트랩하거나 변경하는 옵션이 항상 있습니다.
일반적으로, 나는 Pearson의 상관 관계를 선호합니다. 왜냐하면 (a) 그것은 일반적으로 나의 이론적 관심사와 더 일치합니다. (b) 내 지역의 대부분의 연구는 Pearson의 상관 관계를보고하기 때문에 연구 전반에 걸쳐 결과의 직접적인 비교 가능성을 가능하게한다. 그리고 (c) 많은 설정에서 피어슨과 스피어 맨 상관 계수 사이에는 최소한의 차이가 있습니다.
그러나 원시 변수에 대한 Pearson의 상관 관계가 잘못된 것으로 생각되는 상황이 있습니다.
위의 두 경우 모두, Pearson의 상관 관계를 적용하기 전에 조정 전략 (예 : 변환, 이상치 제거 / 조정)을 고려하거나 Spearman 's rho를 사용하도록 연구원에게 조언합니다.
업데이트
이 질문은 정규성 에 의문이 있을 때 Pearson과 Spearman의 방법 중에서 선택하도록 요청합니다 . 이 문제에 국한된 다음 논문은 모든 사람의 결정에 영향을 미쳐야한다고 생각합니다.
정규성이 위반 될 때 Spearman과 Pearson 중 하나를 선택하라는 요청을 받으면 분배가없는 대안, 즉 Spearman의 방법을 옹호 할 가치가 있습니다.
이전에는 ..
Spearman의 상관 관계는 순위 기반 상관 관계 측정입니다. 비모수 적이며 정규성의 가정에 근거하지 않습니다.
Pearson의 상관 관계에 대한 샘플링 분포는 정규성을 가정합니다. 특히 이는 계산할 수 있지만 유의성 테스트를 기반으로 한 결론이 적절하지 않을 수 있음을 의미합니다.
Rob이 주석에서 지적했듯이 큰 샘플에서는 이것이 문제가되지 않습니다. 그러나 정규성이 위반되는 작은 표본의 경우 Spearman의 상관 관계가 선호됩니다.
의견과 답변에 대한 Mulling 업데이트 , 이것은 일반적인 비 모수 적 대 파라 메트릭 테스트 토론으로 요약되는 것으로 보입니다. 예를 들어 생물 통계학과 같은 많은 문헌은 큰 샘플을 다루지 않습니다. 나는 일반적으로 무증상에 의존하여 무심하지 않습니다. 아마도이 경우에는 정당화 될 수 있지만 그것은 나에게 명백하지 않습니다.