p 값이 높은 강한 상관 계수의 예


21

p 값이 높은 (.25 이상) 매우 강한 상관 계수 (예 : .9 이상)를 가질 수 있습니까?

다음은 p 값이 높은 낮은 상관 계수의 예입니다.

set.seed(10)
y <- rnorm(100)
x <- rnorm(100)+.1*y
cor.test(x,y)

cor = 0.03908927, p = 0.6994

높은 상관 계수, 낮은 p 값 :

y <- rnorm(100)
x <- rnorm(100)+2*y
cor.test(x,y)

cor = 0.8807809, p = 2.2e-16

낮은 상관 계수, 낮은 p 값 :

y <- rnorm(100000)
x <- rnorm(100000)+.1*y
cor.test(x,y)

cor = 0.1035018, p = 2.2e-16

높은 상관 계수, 높은 p 값 : ???

답변:


36

결론

실제 (피어슨) 상관 계수가 0이라는 가설을 기각하기 위해 필요한 샘플 상관 계수는 샘플 크기가 증가함에 따라 상당히 작아집니다. 따라서 일반적으로 아닙니다. 큰 상관 계수와 동시에 큰 값을 동시에 가질 수는 없습니다p .

톱 라인 (세부 사항)

함수 에서 Pearson 상관 계수에 사용 된 테스트 는 아래에서 논의 할 방법의 약간 수정 된 버전입니다.Rcor.test

가정 상관이 IID 변량 정규 확률 벡터이다 . 대 이라는 귀무 가설을 검정하려고합니다 . 샘플 상관 계수로 하자 . 표준 선형 회귀 이론을 사용하면 검정 통계량 에 귀무 가설 하에서 분포. 큰 의 경우 분포가 표준 법선에 접근합니다. 따라서ρ ρ = 0 ρ 0 r T = r (X1,Y1),(X2,Y2),,(Xn,Yn)ρρ=0ρ0r tn2ntn2T2T2~F1,n2χ21

T=rn2(1r2)
tn2ntn2T2자유도 1 개로 대략 카이 제곱 분포됩니다. (우리가 가정 한 사실에 따르면 실제로 이지만 근사값은 진행 상황을 더 명확하게 만듭니다.)T2F1,n2χ12

따라서 여기서 는 자유도가 1 인 카이 제곱 분포 의 분위수입니다.q 1 - α ( 1 - α )

P(r21r2(n2)q1α)α,
q1α(1α)

이제 가 증가함에 따라 가 증가 한다는 점에 유의하십시오 . 확률 설명에서 수량을 다시 정리하면 모든 우리는 레벨에서 귀무 가설을 기각 할 것 입니다. 분명히 오른쪽은 감소 합니다.r 2 | r | 1r2/(1r2)r2 αn

|r|11+(n2)/q1α
αn

줄거리

다음은 의 거부 영역에 대한 도표입니다. 샘플 크기의 함수로. 예를 들어, 샘플 크기가 100을 초과하면 수준 에서 null을 거부하기 위해 (절대) 상관 관계는 약 0.2에 불과합니다 .α = 0.05|r|α=0.05

시뮬레이션

정확한 상관 계수를 가진 한 쌍의 제로 평균 벡터를 생성하기 위해 간단한 시뮬레이션을 수행 할 수 있습니다 . 아래는 코드입니다. 이것에서 우리는의 출력을 볼 수 있습니다 cor.test.

k <- 100
n <- 4*k

# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho  <- 1/sqrt(1+(n-2)/qval)

# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)

# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2

# Do test
ctst <- cor.test(x,y)

주석에서 요청한 바와 같이, 플롯을 재생성하는 코드는 다음과 같습니다.이 코드는 위의 코드 바로 다음에 실행될 수 있습니다 (그리고 여기에 정의 된 변수 중 일부를 사용함).

png("cortest.png", height=600, width=600)
m  <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
     xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()

1
결론은 무엇입니까? 샘플 크기가 작지 않으면 높은 상관 관계 값이 낮은 p- 값을 의미한다고 생각하지만 명시 적으로 철자하는 것이 도움이 될 것이라고 생각합니다.
DW

@DW : 의견을 보내 주셔서 감사합니다! 결론은 그림에서 분명해지기를 원했고 고정 값 을 유지하는 데 필요한 제곱 상관 이 샘플 크기의 함수로 단조 감소 한다는 것을 보여주는 디스플레이 방정식을 원했습니다 . 이 효과에 대해 더 분명한 진술을하고 적절한 장소에 넣는 방법을 알아 보겠습니다. 건설적인 피드백에 다시 한번 감사드립니다. p
추기경

@cardinal, 생성 한 그래프의 소스 ​​코드를 게시 할 수 있습니까?
aL3xa

@DW, 귀하의 우려 사항을 해결하기 위해 노력했습니다. 개선 할 수있는 내용이 있으면 알려 주시기 바랍니다.
추기경

1
@ aL3xa : 내가 사용한 플로팅 코드를 추가했습니다. 이것이 도움이되기를 바랍니다.
추기경


11

p- 값이 높은 상관 계수의 높은 추정치는 매우 작은 표본 크기에서만 발생할 수 있습니다. 나는 예를 제공하려고했지만, Aaron이 방금 그 일을했습니다!


9

나는에 의해 믿을 피셔 RZ 변환 , 샘플 상관 관계의 쌍곡선 아크 탄젠트는, 널 (null)에서, 제로 평균 및 표준 오차 약 정상 . 따라서, 예를 들어, 샘플 상관 관계를 얻을 수 고정 p- 값으로, , 당신이 필요 여기서 는 표준 법선의 CDF이며 널 대해 양면 테스트를 수행하고 있습니다 .ρ >0P는P=2-2Φ ( ATANH( ρ )1/n3ρ^>0pΦH0:ρ=0

p=22Φ(atanh(ρ^)n3),
ΦH0:ρ=0

이것을 고정 및 필요한 을 제공하는 함수로 바꿀 수 있습니다 . R에서 :ρ Pnρ^p

 #get n for sample correlation and p-value, 2-sided test of 0 correlation
 n.size <- function(rho.hat,p.val) {
   n <- 3 + ((qnorm(1 - 0.5 * p.val)) / atanh(rho.hat))^2
 }

및 대해 이것을 실행하면 다음 과 같습니다., P=0.2ρ^=0.5p=0.2

print(n.size(0.5,0.2))

[1] 8.443062

따라서 샘플 크기는 약 8이어야합니다.이 함수를 사용하면 및 있습니다.ρn,pρ^


1

예. p- 값은 샘플 크기에 따라 달라 지므로 작은 샘플이이를 줄 수 있습니다.

실제 효과 크기가 매우 작다고 가정하고 작은 샘플을 그립니다. 운 좋게도 상관 관계가 매우 높은 몇 가지 데이터 요소가 있습니다. p- 값은 그대로 있어야합니다. 상관 관계는 높지만 매우 신뢰할 수있는 결과는 아닙니다.

R의 cor ()로부터의 샘플 상관 관계는 상관 관계에 대한 최상의 추정치를 알려줍니다 (샘플이 주어짐). p- 값은 상관 강도를 측정하지 않습니다. 표본의 크기를 고려하여 실제로 효과가없는 경우 발생할 가능성을 측정합니다.

이것을 보는 또 다른 방법 : 효과 크기는 동일하지만 더 많은 샘플을 얻는 경우 p- 값은 항상 0이됩니다.

(추정 효과 크기와 추정에 대한 신뢰 개념을 더 밀접하게 통합하려면 신뢰 구간을 사용하거나 베이지안 기법을 사용하는 것이 좋습니다.)


여기서 "작은 샘플"은 기본적으로 무의미 할 정도로 작습니다. 기본적으로 4보다 큰 샘플 크기 는 0.9보다 큰 상관 관계에 대해 에서 null을 거부합니다 . α=0.05x <- seq(0,4); y <- seq(0,4) + rnorm(5); cor.test(x,y)
naught101
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.