주어진 데이터 세트에 대해 Pearson과 Spearman의 상관 관계에 큰 상관 계수 차이를 유발할 수있는 것은 무엇입니까?

두 변수 사이의 피어슨 계수는 상당히 높습니다 (r = .65). 그러나 변수 값의 순위를 매기고 Spearman의 상관 관계를 실행하면 효율적인 값이 훨씬 낮아집니다 (r = .30).

이것에 대한 해석은 무엇입니까?

correlation spearman-rho

— 사용자 3671
소스

일반적으로 상관 계수를 해석하기 전에 데이터의 산점도를 표시하는 것이 좋습니다.

— chl

샘플 크기는 얼마입니까?

— Jeromy Anglim

왜 큰 차이점

데이터가 정상적으로 분포되거나 균일하게 분포되어 있다면 Spearman과 Pearson의 상관 관계는 상당히 비슷해야한다고 생각합니다.
그들이 당신의 경우 (.65 대 .30)와 매우 다른 결과를 제공한다면, 내 추측에 따르면 데이터 또는 특이 치가 치우쳐 있고 특이 치가 Pearson의 상관 관계를 Spearman의 상관 관계보다 크게 만드는 것으로 추측됩니다. 즉, X에서 매우 높은 값은 Y에서 매우 높은 값과 함께 발생할 수 있습니다.
@chl은 자리에 있습니다. 첫 번째 단계는 산점도를 보는 것입니다.
일반적으로 Pearson과 Spearman의 큰 차이는 다음을 나타내는 적기입니다.
- Pearson 상관 관계는 두 변수 간의 연관에 대한 유용한 요약이 아니거나
- Pearson의 상관 관계를 사용하기 전에 하나 또는 두 변수를 변환해야합니다. 또는
- Pearson의 상관 관계를 사용하기 전에 특이 치를 제거하거나 조정해야합니다.

간단한 R 예

다음은 이러한 상황이 발생하는 간단한 시뮬레이션입니다. 아래의 경우 단일 특이 치가 포함되지만 여러 특이 치 또는 비뚤어진 데이터로 유사한 효과를 생성 할 수 있습니다.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

이 출력을주는

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

상관 관계 분석에 따르면 특이 치가없는 Spearman과 Pearson은 상당히 유사하며 특이 치가 매우 높으면 상관 관계가 매우 다릅니다.

아래 그림은 데이터를 순위로 처리하여 특이 치의 극심한 영향을 제거하여 Spearman이 특이 치 유무에 관계없이 유사하게되는 반면 Pearson은 특이 치가 추가 될 때 상당히 다릅니다. 이것은 Spearman이 종종 견고하다고 불리는 이유를 강조합니다.

여기에 이미지 설명을 입력하십시오

— 제로미 앵림
소스

주어진 데이터 세트에 대해 Pearson과 Spearman의 상관 관계에 큰 상관 계수 차이를 유발할 수있는 것은 무엇입니까?

왜 큰 차이점

관련 질문

간단한 R 예