Pearson 파라 메트릭 및 Spearman이 비모수 인 이유


19

분명히 Pearson의 상관 계수는 파라 메트릭이고 Spearman의 rho는 비모수입니다.

이것을 이해하는 데 문제가 있습니다. 내가 알기로 Pearson은 로 계산되고 Spearman은 모든 값을 순위로 대체한다는 점을 제외하고는 동일한 방식으로 계산됩니다.

아르 자형엑스와이=영형V(엑스,와이)σ엑스σ와이

위키 백과 는 말합니다

파라 메트릭 모델과 비 파라 메트릭 모델의 차이점은 전자는 고정 된 수의 매개 변수를 가지고 있고 후자는 훈련 데이터의 양에 따라 매개 변수의 수가 증가한다는 것입니다.

그러나 샘플 자체를 제외하고는 매개 변수가 표시되지 않습니다. 어떤 파라 메트릭 테스트는 정규 분포를 가정에 갈 것을 말한다 피어슨 정상 분산 된 데이터를 가정 않습니다,하지만 피어슨이 그것을 필요로 이유를 실패합니다.

내 질문은 통계의 맥락에서 매개 변수와 비모수는 무엇을 의미합니까? 그리고 Pearson과 Spearman은 어떻게 거기에 적합합니까?


6
좋은 질문이며 거기에 끔찍한 잘못된 정보가 많이 있습니다. 예를 들어, 모수 검정의 방정식과 정규 분포를 가정하는 것은 불행히도 빈번한 혼란으로 인해 많은 교과서 작성자, 과정 교사 및 인터넷 포스터가 혼란스러워하는 다른 사람들로부터 복사하는 경우가 많습니다.
닉 콕스

5
아마도 가장 간단한 긍정적 인 해결책은 다음과 같습니다. 그렇습니다. Spearman의 상관 관계는 관계의 강도를 정량화하는 것으로 추정되는 매개 변수이므로 Pearson과 유사합니다 (뿌리에서 지적한 것과 동일한 아이디어입니다). 그러나 Spearman의 상관 관계는 분포에 나타나는 매개 변수가 아니지만 Pearson 's는 이변 량 정규 분포에 대한 매개 변수입니다 (역사적이지만 현재는 상관 관계를 수행 할 때 수행중인 작업에 대한 해석은 미흡). "파라미터"라는 단어가 여러 의미를 가지고 있음을 이해함으로써 이해되는 것은 훌륭한 구별입니다.
닉 콕스

@NickCox, 답변으로 게시하지 않겠습니까?
Richard Hardy

5
분포의 정규성에 대한 요점은 상관 관계로 유의성 검정을 수행하려는 경우에만 실제로 물립니다. 상관 관계를 설명적인 수단으로 만 사용하는 경우 비정규 성이 상관 관계 사용에 장애가 될 필요는 없습니다. 상관 관계는 둘 다 변하는 한 두 개의 이진 변수로 약간 유용 할 수 있습니다. 여전히 특이 치 등의 영향에주의해야합니다.
Nick Cox

1
아직 명확하게 언급되지 않은 것 같으므로 통계가 "모수 적"이 아니라는 점을 강조하고 싶습니다 . 그것은 숫자가 맛있다고 말하는 것과 같습니다. 형용사는 명사에는 적용되지 않습니다. 통계 모델 은 (Wikipedia 인용으로 표시 한) 매개 변수 일 수 있으며,이를 기반으로하는 테스트 및 절차 일 수 있습니다. Spearman 및 Pearson 통계 는 파라 메트릭 및 비 파라 메트릭 설정 모두에 사용할 수 있습니다. 이에 대한 자세한 내용은 stats.stackexchange.com/questions/67204 에서 확인하십시오 . 모델을 파라 메트릭하게 만드는 것은 상태 공간 입니다.
whuber

답변:


17

문제는 "비모수 적"이 요즘 실제로 두 가지 의미를 가지고 있다는 것입니다. Wikipedia의 정의는 비모수 곡선 피팅과 같은 것에 적용됩니다 (예 : 스플라인 또는 로컬 회귀 등). 더 오래된 다른 의미는 "배포가 필요없는"(즉, 데이터의 가정 된 분포에 관계없이 적용 할 수있는) 기술에 더 가깝습니다. 후자는 Spearman의 rho에 적용되는 것인데, 순위 변환은 원래 분포가 무엇이든 상관없이 동일한 결과를 제공한다는 것을 암시하기 때문입니다.


2
비모수는 두 가지 의미를 갖지만 위키 백과의 주석은 실제로 두 가지 모두에 적용됩니다. 비모수 적 회귀 분석에서는 유한 모수가 아닌 관계를 나타냅니다. '분포가없는 (distribution-free)'측면에서 이는 유한 모수가 아닌 분포 모델을 나타냅니다.
Glen_b-복지 주 모니카

1
흠, 그건 Wikipedia의 인용문이 아닙니다. 다른 사람이 추가했습니다.
Hong Ooi

2
내가 자세히 설명하지 않았고 특히 유용한 것을 추가하지 않는다고 생각하는 주요 편집은 낮은 = 사용자가 수행하여 한 사람이 거부했기 때문에 검토를 위해 왔지만 자동 수락되면 세 번째 사람은 그것을 개선하기 위해 편집하려고했습니다. 편집 한 내용을 원본으로 되돌릴 것입니다. 마음에 들지 않는 수정 사항이 있으면 언제든지 그렇게 할 수 있습니다.
Glen_b-복지 모니카

귀하의 동의를 구하지 않고 귀하의 게시물을 너무 많이 변경했으며 귀하가 동의하는 것처럼 들리지 않기 때문에 원래 게시물로 롤백했습니다. 마음에
드는

Spearman을 사용하는 것이 언제 정당합니까? Pearson을 사용할 때 Pearson이 어떻게 도움을 줄 수 있습니까?
Léo Léopold Hertz 준영

3

Pearson의 상관 계수를 모수라고하는 유일한 이유는이 변수를 사용하여 다변량 정규 분포의 모수를 추정 할 수 있기 때문입니다. 예를 들어, 이변 량 정규 분포 에는 5 개의 매개 변수가 있습니다. 두 개의 평균, 두 개의 분산 및 상관 계수입니다. 후자는 피어슨 상관 계수로 추정 할 수 있습니다.

그렇지 않으면 Pearson 를 계산하기 위해 절대적으로 맞습니다 . 배포 가정을 할 필요가 없습니다. 정규 분포를 가정 할 때 Pearson 상관 관계는 Spearman 또는 Kendall과 달리 추가 의미를 갖습니다.ρ


피어슨의 상관 계수 매개 변수가 의미를 검정하기 위해 정규성을 가정해야한다는 의미에서 그렇지 않습니까? 즉, 정규성을 통계량으로 가정하지 않지만 표본 상관 계수의 분포를 계산하고 테스트 할 때 데이터가 정상이라고 가정합니까? 이것은 정직한 질문입니다. 100 % 잘못 될 수 있습니다.
mugen

sperman과 kendall에서 배포 가정을 수행하는지 설명해 주시겠습니까?
Léo Léopold Hertz 준영

@mugen Pearson 상관 관계의 중요성을 테스트하기 위해 정규성을 가정 할 필요는 없습니다. 피어슨 상관 관계에 대한 일반적인 테스트도 마찬가지입니다. 다른 매개 변수 가정을 만들고 다른 테스트를 생각해 낼 수 있습니다 ... 또는 실제로 Pearson 상관이 0이라는 null의 순열 테스트를 수행하여 비모수 테스트를 수행 할 수 있습니다.
Glen_b-복원 모니카

0

가장 간단한 대답은 스피어 맨의 rho 테스트는 서수 데이터를 사용한다는 것입니다 (순위를 지정할 수는 있지만 숫자의 간격에 대해 아무 것도 알려주지 않습니다. 맛은 얼마만큼 선호되지 않았다). 서수 데이터는 파라 메트릭 테스트에 사용할 수 없습니다.

피어슨의 r 테스트는 간격 또는 비율 데이터 (초, kg, mm와 같이 고정 간격을 갖는 숫자)를 사용합니다. 1mm는 5mm보다 작을뿐만 아니라 얼마만큼 정확한지 알고 있습니다. 이 유형의 데이터는 파라 메트릭 테스트에 사용할 수 있습니다.


1
물론 서수 데이터와 함께 파라 메트릭 모델을 사용할 수 있으므로 파라 메트릭 테스트를 수행 할 수 있습니다. 유한하고 고정 된 수의 모수를 갖는이 변수에 대한 분포를 제안 할 필요가 있으며, 모수 및 구아 와 관련하여 적절한 가설이 있으며 , 모수 검정이 존재합니다. 변수 중 하나 또는 둘 다에 두 개의 범주 (두 개의 다른 숫자 (일반적으로 0/1로 표시됨))가있는 상황에서 계산 된 Pearson 상관 관계는 이러한 상황에 대해 일반적으로 사용되는 연관 척도를 산출합니다.
Glen_b-복지 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.