정규성 가정에도 불구하고 등급의 Pearson 상관 관계가 유효한 이유는 무엇입니까?


9

현재 Pearson 상관 관계에 대한 가정을 읽고 있습니다. 이어지는 t- 검정에 대한 중요한 가정은 두 변수가 정규 분포에서 나온 것 같습니다. 그렇지 않은 경우 Spearman Rho와 같은 대체 수단을 사용하는 것이 좋습니다. Spearman 상관 관계는 Pearson 상관 관계처럼 계산되며 X 및 Y 대신 X 및 Y 순위 만 사용합니다. 맞습니까?

내 질문은 : Pearson 상관에 입력 변수를 정규 분포 해야하는 경우 입력 변수가 순위인데도 왜 Spearman 상관 계산이 유효합니까? 내 계급은 정규 분포에서 나오지 않습니다 ...

내가 지금까지 설명한 유일한 설명은 rho의 중요성이 Pearson 상관 관계 t- 검정과는 다르게 테스트 될 수 있다는 것입니다 (정상 성을 요구하지 않는 방식으로). 그러나 지금까지 나는 공식을 찾지 못했습니다. 그러나 몇 가지 예를 실행했을 때 rho 및 피어슨 순위의 t- 검정에 대한 p- 값은 항상 일치하여 마지막 몇 자리를 절약합니다. 나에게 이것은 획기적으로 다른 절차처럼 보이지 않습니다.

설명이나 아이디어가 있으면 감사하겠습니다!

답변:


7

피어슨 상관 관계를 계산하는 데 정규성은 필요하지 않습니다. 해당 모집단 수량에 대한 일부 형태의 추론은 일반적인 가정 (CI 및 가설 검정)을 기반으로한다는 것입니다.

정규성이 없으면 특정 추론 형태의 암시 적 속성이 유지되지 않습니다.

Spearman 상관의 경우 정규성이 없지만 가설 검정과 같은 Spearman 상관에 대한 추론 계산은 정규 가정을 기반으로하지 않기 때문에 괜찮습니다.

그것들은 연속적인 이변 량 분포로부터 쌍을 이루는 순위의 집합에 기초하여 도출됩니다. 이 경우 가설 검정은 순위에 따라 검정 통계량의 순열 분포를 사용합니다.

Pearson 상관 관계 유지 (이변 량 정규성)에 대한 일반적인 가정이있을 때 Spearman 상관 관계는 일반적으로 매우 가깝습니다 (평균은 0에 ​​조금 더 가깝지만).

(Pearson을 사용할 수있을 때 Spearman은 종종 아주 잘 작동합니다. 다른 프로세스 (이상치의 원인)로 인한 오염과는 별개로 이변 량 정규 데이터를 가지고 있다면 Spearman은 오염되지 않은 분포.)


감사 분포에 대한 참조가 도움이됩니다.
GST95

nitpick하려면 "스피어는 상관 관계를 추정 할 수있는보다 강력한 방법이 될 것이다", 스피어는 추정 것 협회 , NOT 선형 상관 관계를.
landroni

1
@landroni Spearman에 대해 일반적으로 이야기한다면, Spearman이하는 일을 정확하게 특성화 할 수 있습니다. 그러나이 문장에서 나는 오염 상태에서 인구 상관의 두 가지 추정치를 비교하는 것에 대해 명시 적으로 이야기하고 있습니다. 상관 관계 갖는 이변 량 법선을 상상 한 다음 정말로 극단적 인 특이 치를 추가하십시오. 이 상황에서 를 추정하고 싶다면 Spearman은 Pearson 상관 관계보다 의 더 강력한 추정량입니다 . ρρρ
Glen_b-복지 주 모니카

1
@landroni ... 그러한 상황은 당신이 잘 행동하는 주요 과정과 매우 극단적 일 수 있지만 가끔 발생하는 일부 오염 과정이있을 때 발생할 수 있습니다. 오염되지 않은 프로세스의 상관 관계를 추정하는 데 관심이있는 경우 Pearson 상관 관계는 Spearman보다 훨씬 더 오염에 취약합니다.
Glen_b-복지 주 모니카

2

몇 가지 예를 실행했을 때 rho 및 피어슨 순위의 t- 검정에 대한 p- 값은 항상 일치합니다. 마지막 몇 자리를 저장하십시오.

그럼 당신은 잘못된 예제를 실행했습니다!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

벡터 ab좋은을 가지고 있지만 지금까지 완벽한 선형 (피어슨)의 상관 관계에서. 그러나 그들은 완벽한 순위 상관 관계가 있습니다. Spearman의 를 참조하십시오. 이 경우 마지막 숫자 가 8.1, 9, 90 또는 9000 (시도하십시오!) 인지 여부는 중요하지 않습니다 . 8보다 큰 경우에만 중요합니다 . 그것이 순위를 연관시키는 차이가 만드는 것입니다. ρb

반면 반대로, a그리고 b완벽한 순위 상관 관계를 가지고, 자신의 피어슨 상관 계수는 피어슨 상관 관계가 순위에 반영되지 않도록보다 작은 1.이 쇼이다.
피어슨 상관 관계는 선형 함수, 즉 계급 상관 관계는 단순히 단조 함수를 반영합니다. 정상적인 데이터의 경우 두 데이터가 서로 매우 유사하므로 Spearman과 Pearson간에 데이터가 큰 차이를 나타내지 않는 것 같습니다.

실제 예를 들어, 다음을 고려하십시오. 키가 큰 사람이 체중이 더 나가는 지 확인하고 싶습니다. 그렇습니다. 어리석은 질문이지만 ... 이것이 당신이 신경 쓰는 것이라고 가정하십시오. 이제 키가 큰 사람도 작은 사람보다 넓기 때문에 질량은 무게에 비례하여 비례하지 않습니다. 따라서 무게는 키 의 선형 함수 가 아닙니다 . 당신보다 10 % 더 큰 사람은 (평균적으로) 10 % 더 무겁습니다. 이것이 신체 / 질량 지수가 분모의 큐브를 사용하는 이유입니다.
결과적으로 키 / 무게 관계를 부정확하게 반영하기 위해 선형 상관 관계를 가정합니다. 대조적으로, 순위 상관은이 경우 물리 및 생물학의 성가신 법칙에 둔감하다. 사람들이 키가 커짐에 따라 선형 적으로 더 무거워지면 반영하지 않으며, 키가 큰 사람들 (한 스케일에서 더 높은 순위)이 더 무겁다면 (다른 스케일에서 더 높은 순위) 단순히 반영합니다.

보다 일반적인 예는 사람들이 "완벽 / 좋은 / 좋은 / 중상 / 중병 / 나쁜 / 거짓"으로 평가하는 것과 같이 리 커트와 같은 설문지 순위의 예일 수 있습니다. "완벽한"은 "정확한"과는 거리가 "정확한"은 "나쁜" 는 거리가 멀지 만 둘 사이의 거리는 동일하다고 말할 수 있습니까? 선형 상관 관계가 반드시 적절한 것은 아닙니다. 순위 상관 관계가 더 자연 스러워요.

귀하의 질문을보다 직접적으로 해결하기 위해 : no, Pearson과 Spearman 상관의 p 값은 다르게 계산되어서는 안됩니다 . 개념적으로는 물론 숫자 적으로도 많이 다르지만 검정 통계량이 같으면 p 값이 같습니다.

Pearson 상관 관계의 정규성 가정에 대한 질문은 내용을 참조 하십시오 .
더 일반적으로, 다른 사람들은 파라 메트릭과 비모수 적 상관 관계 ( 여기 참조 ) 의 주제 와 분포 가정에 관한 의미에 관해 내가 할 수있는 것보다 훨씬 더 정교하게 설명했습니다 .


감사합니다! 다음에는 예제를 더 실험 해 보겠습니다. :)
GST95

1
아니, 잠깐, 사실 그건 내 질문이 아니었다. method = "pearson"을 x와 y의 method = "spearman"버전과 비교하지 않았습니다. 와 비교 cor.test(x, y, method = "spearman")했습니다 cor.test(rank(x), rank(y), method = "pearson"). 이 추정치는 어떤 데이터를 선택하든 동일합니다. 그럼에도 감사합니다! :)
GST95

@ GST95에서 Spearman의 상관 관계는 순위 변환 된 데이터에 대해 수행 된 Pearson의 상관 관계입니다. 두 "방법"은 실제로 정확히 같은 방법입니다.
Dennis

@Dennis는 정확히 (동일한) rho 계수를 비교하지 않고 p- 값을 모두 t- 검정으로 얻은 것인지 확인했습니다.
GST95
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.