p 값이 높은 강한 상관 계수의 예

21

p 값이 높은 (.25 이상) 매우 강한 상관 계수 (예 : .9 이상)를 가질 수 있습니까?

다음은 p 값이 높은 낮은 상관 계수의 예입니다.

set.seed(10)
y <- rnorm(100)
x <- rnorm(100)+.1*y
cor.test(x,y)

cor = 0.03908927, p = 0.6994

높은 상관 계수, 낮은 p 값 :

y <- rnorm(100)
x <- rnorm(100)+2*y
cor.test(x,y)

cor = 0.8807809, p = 2.2e-16

낮은 상관 계수, 낮은 p 값 :

y <- rnorm(100000)
x <- rnorm(100000)+.1*y
cor.test(x,y)

cor = 0.1035018, p = 2.2e-16

높은 상관 계수, 높은 p 값 : ???

r hypothesis-testing correlation

— 잭
소스

36

결론

실제 (피어슨) 상관 계수가 0이라는 가설을 기각하기 위해 필요한 샘플 상관 계수는 샘플 크기가 증가함에 따라 상당히 작아집니다. 따라서 일반적으로 아닙니다. 큰 상관 계수와 동시에 큰 값을 동시에 가질 수는 없습니다 $p$ .

톱 라인 (세부 사항)

함수 에서 Pearson 상관 계수에 사용 된 테스트 는 아래에서 논의 할 방법의 약간 수정 된 버전입니다. $R$ cor.test

가정 상관이 IID 변량 정규 확률 벡터이다 . 대 이라는 귀무 가설을 검정하려고합니다 . 샘플 상관 계수로 하자 . 표준 선형 회귀 이론을 사용하면 검정 통계량 에 귀무 가설 하에서 분포. 큰 의 경우 분포가 표준 법선에 접근합니다. 따라서 $(X_1,Y_1), (X_2,Y_2),\ldots,(X_n,Y_n)$ $\rho$ $\rho = 0$ $\rho \neq 0$ $r$

T = \frac{r \sqrt{n - 2}}{\sqrt{(1 - r^{2})}}

$T = \frac{r \sqrt{n-2}}{\sqrt{(1-r^2)}}$

t_{n - 2}

$t_{n-2}$

n

$n$

t_{n - 2}

$t_{n-2}$

T^{2}

$T^2$ 자유도 1 개로 대략 카이 제곱 분포됩니다. (우리가 가정 한 사실에 따르면 실제로 이지만 근사값은 진행 상황을 더 명확하게 만듭니다.)

T^{2} \sim F_{1, n - 2}

$T^2 \sim F_{1,n-2}$

χ_{1}^{2}

$\chi^2_1$

따라서 여기서 는 자유도가 1 인 카이 제곱 분포 의 분위수입니다.

P (\frac{r^{2}}{1 - r^{2}} (n - 2) \geq q_{1 - α}) \approx α,

$\mathbb P\left(\frac{r^2}{1-r^2} (n-2) \geq q_{1-\alpha} \right) \approx \alpha \>,$

q_{1 - α}

$q_{1-\alpha}$

(1 - α)

$(1-\alpha)$

이제 가 증가함에 따라 가 증가 한다는 점에 유의하십시오 . 확률 설명에서 수량을 다시 정리하면 모든 우리는 레벨에서 귀무 가설을 기각 할 것 입니다. 분명히 오른쪽은 감소 합니다. $r^2/(1-r^2)$ $r^2$

| r | \geq \frac{1}{\sqrt{1 + (n - 2) / q_{1 - α}}}

$|r| \geq \frac{1}{\sqrt{1+(n-2)/q_{1-\alpha}}}$

α

$\alpha$

n

$n$

줄거리

다음은 의 거부 영역에 대한 도표입니다. 샘플 크기의 함수로. 예를 들어, 샘플 크기가 100을 초과하면 수준 에서 null을 거부하기 위해 (절대) 상관 관계는 약 0.2에 불과합니다 . $|r|$ $\alpha = 0.05$

시뮬레이션

정확한 상관 계수를 가진 한 쌍의 제로 평균 벡터를 생성하기 위해 간단한 시뮬레이션을 수행 할 수 있습니다 . 아래는 코드입니다. 이것에서 우리는의 출력을 볼 수 있습니다 cor.test.

k <- 100
n <- 4*k

# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho  <- 1/sqrt(1+(n-2)/qval)

# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)

# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2

# Do test
ctst <- cor.test(x,y)

주석에서 요청한 바와 같이, 플롯을 재생성하는 코드는 다음과 같습니다.이 코드는 위의 코드 바로 다음에 실행될 수 있습니다 (그리고 여기에 정의 된 변수 중 일부를 사용함).

png("cortest.png", height=600, width=600)
m  <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
     xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()

— 추기경
소스

1

결론은 무엇입니까? 샘플 크기가 작지 않으면 높은 상관 관계 값이 낮은 p- 값을 의미한다고 생각하지만 명시 적으로 철자하는 것이 도움이 될 것이라고 생각합니다.

— DW

@DW : 의견을 보내 주셔서 감사합니다! 결론은 그림에서 분명해지기를 원했고 고정 값 을 유지하는 데 필요한 제곱 상관 이 샘플 크기의 함수로 단조 감소 한다는 것을 보여주는 디스플레이 방정식을 원했습니다 . 이 효과에 대해 더 분명한 진술을하고 적절한 장소에 넣는 방법을 알아 보겠습니다. 건설적인 피드백에 다시 한번 감사드립니다.

p

$p$

— 추기경

@cardinal, 생성 한 그래프의 소스 코드를 게시 할 수 있습니까?

— aL3xa

@DW, 귀하의 우려 사항을 해결하기 위해 노력했습니다. 개선 할 수있는 내용이 있으면 알려 주시기 바랍니다.

— 추기경

1

@ aL3xa : 내가 사용한 플로팅 코드를 추가했습니다. 이것이 도움이되기를 바랍니다.

— 추기경

17

cor.test(c(1,2,3),c(1,2,2))

cor = 0.866, p = 0.333

— 아론-복직 국 모니카
소스

6

@Zach : 추기경과 shabbychef가 정식 답변을하기 위해 시간을 들인 지금 수표를 다시 생각하십시오.

— Aaron-복원 모니카

11

p- 값이 높은 상관 계수의 높은 추정치는 매우 작은 표본 크기에서만 발생할 수 있습니다. 나는 예를 제공하려고했지만, Aaron이 방금 그 일을했습니다!

— 한 정거장
소스

9

나는에 의해 믿을 피셔 RZ 변환 , 샘플 상관 관계의 쌍곡선 아크 탄젠트는, 널 (null)에서, 제로 평균 및 표준 오차 약 정상 . 따라서, 예를 들어, 샘플 상관 관계를 얻을 수 고정 p- 값으로, , 당신이 필요 여기서 는 표준 법선의 CDF이며 널 대해 양면 테스트를 수행하고 있습니다 . $1 / \sqrt{n-3}$ $\hat{\rho} > 0$ $p$

p = 2 - 2 Φ (atanh (\hat{ρ}) \sqrt{n - 3}),

$p = 2 - 2 \Phi\left(\operatorname{atanh}(\hat{\rho})\sqrt{n-3}\right),$

Φ

$\Phi$

H_{0} : ρ = 0

$H_0: \rho = 0$

이것을 고정 및 필요한 을 제공하는 함수로 바꿀 수 있습니다 . R에서 : $n$ $\hat{\rho}$ $p$

 #get n for sample correlation and p-value, 2-sided test of 0 correlation
 n.size <- function(rho.hat,p.val) {
   n <- 3 + ((qnorm(1 - 0.5 * p.val)) / atanh(rho.hat))^2
 }

및 대해 이것을 실행하면 다음 과 같습니다. $\hat{\rho} = 0.5$ $p = 0.2$

print(n.size(0.5,0.2))

[1] 8.443062

따라서 샘플 크기는 약 8이어야합니다.이 함수를 사용하면 및 있습니다. $n, p$ $\hat{\rho}$

— 초라한 요리사
소스

1

예. p- 값은 샘플 크기에 따라 달라 지므로 작은 샘플이이를 줄 수 있습니다.

실제 효과 크기가 매우 작다고 가정하고 작은 샘플을 그립니다. 운 좋게도 상관 관계가 매우 높은 몇 가지 데이터 요소가 있습니다. p- 값은 그대로 있어야합니다. 상관 관계는 높지만 매우 신뢰할 수있는 결과는 아닙니다.

R의 cor ()로부터의 샘플 상관 관계는 상관 관계에 대한 최상의 추정치를 알려줍니다 (샘플이 주어짐). p- 값은 상관 강도를 측정하지 않습니다. 표본의 크기를 고려하여 실제로 효과가없는 경우 발생할 가능성을 측정합니다.

이것을 보는 또 다른 방법 : 효과 크기는 동일하지만 더 많은 샘플을 얻는 경우 p- 값은 항상 0이됩니다.

(추정 효과 크기와 추정에 대한 신뢰 개념을 더 밀접하게 통합하려면 신뢰 구간을 사용하거나 베이지안 기법을 사용하는 것이 좋습니다.)

— 브렌든 오코너
소스

여기서 "작은 샘플"은 기본적으로 무의미 할 정도로 작습니다. 기본적으로 4보다 큰 샘플 크기 는 0.9보다 큰 상관 관계에 대해 에서 null을 거부합니다 .

α = 0.05

$\alpha=0.05$ x <- seq(0,4); y <- seq(0,4) + rnorm(5); cor.test(x,y)

— naught101