두 변수 사이의 피어슨 계수는 상당히 높습니다 (r = .65). 그러나 변수 값의 순위를 매기고 Spearman의 상관 관계를 실행하면 효율적인 값이 훨씬 낮아집니다 (r = .30).
- 이것에 대한 해석은 무엇입니까?
두 변수 사이의 피어슨 계수는 상당히 높습니다 (r = .65). 그러나 변수 값의 순위를 매기고 Spearman의 상관 관계를 실행하면 효율적인 값이 훨씬 낮아집니다 (r = .30).
답변:
데이터가 정상적으로 분포되거나 균일하게 분포되어 있다면 Spearman과 Pearson의 상관 관계는 상당히 비슷해야한다고 생각합니다.
그들이 당신의 경우 (.65 대 .30)와 매우 다른 결과를 제공한다면, 내 추측에 따르면 데이터 또는 특이 치가 치우쳐 있고 특이 치가 Pearson의 상관 관계를 Spearman의 상관 관계보다 크게 만드는 것으로 추측됩니다. 즉, X에서 매우 높은 값은 Y에서 매우 높은 값과 함께 발생할 수 있습니다.
Spearman과 Pearson의 상관 관계의 차이점에 대한 이전 질문도 참조하십시오.
다음은 이러한 상황이 발생하는 간단한 시뮬레이션입니다. 아래의 경우 단일 특이 치가 포함되지만 여러 특이 치 또는 비뚤어진 데이터로 유사한 효과를 생성 할 수 있습니다.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
이 출력을주는
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
상관 관계 분석에 따르면 특이 치가없는 Spearman과 Pearson은 상당히 유사하며 특이 치가 매우 높으면 상관 관계가 매우 다릅니다.
아래 그림은 데이터를 순위로 처리하여 특이 치의 극심한 영향을 제거하여 Spearman이 특이 치 유무에 관계없이 유사하게되는 반면 Pearson은 특이 치가 추가 될 때 상당히 다릅니다. 이것은 Spearman이 종종 견고하다고 불리는 이유를 강조합니다.