결론
실제 (피어슨) 상관 계수가 0이라는 가설을 기각하기 위해 필요한 샘플 상관 계수는 샘플 크기가 증가함에 따라 상당히 작아집니다. 따라서 일반적으로 아닙니다. 큰 상관 계수와 동시에 큰 값을 동시에 가질 수는 없습니다피 .
톱 라인 (세부 사항)
함수 에서 Pearson 상관 계수에 사용 된 테스트 는 아래에서 논의 할 방법의 약간 수정 된 버전입니다.아르 자형cor.test
가정 상관이 IID 변량 정규 확률 벡터이다 . 대 이라는 귀무 가설을 검정하려고합니다 . 샘플 상관 계수로 하자 . 표준 선형 회귀 이론을 사용하면 검정 통계량
에 귀무 가설 하에서 분포. 큰 의 경우 분포가 표준 법선에 접근합니다. 따라서ρ ρ = 0 ρ ≠ 0 r T = r √( X1, Y1) , ( X2, Y2) , … , ( X엔, Y엔)ρρ = 0ρ ≠ 0아르 자형 tn−2ntn−2T2T2~F1,n−2χ21
티= r n − 2−−−−−√( 1 - r2)−−−−−−√
티n - 2엔티n - 2티2자유도 1 개로 대략 카이 제곱 분포됩니다. (우리가 가정 한 사실에 따르면 실제로 이지만 근사값은 진행 상황을 더 명확하게 만듭니다.)
티2~ F1 , n - 2χ21
따라서
여기서 는 자유도가 1 인 카이 제곱 분포 의 분위수입니다.q 1 - α ( 1 - α )
P ( r21 - r2( n - 2 ) ≥ q1 - α) ≈α,
큐1 - α( 1 − α )
이제 가 증가함에 따라 가 증가 한다는 점에 유의하십시오 . 확률 설명에서 수량을 다시 정리하면 모든
우리는 레벨에서 귀무 가설을 기각 할 것 입니다. 분명히 오른쪽은 감소 합니다.r 2 | r | ≥ 1아르 자형2/ (1− r2)아르 자형2 αn
| r | ≥ 11 + ( n - 2 ) / q1 - α−−−−−−−−−−−−−√
α엔
줄거리
다음은 의 거부 영역에 대한 도표입니다. 샘플 크기의 함수로. 예를 들어, 샘플 크기가 100을 초과하면 수준 에서 null을 거부하기 위해 (절대) 상관 관계는 약 0.2에 불과합니다 .α = 0.05| r |α = 0.05
시뮬레이션
정확한 상관 계수를 가진 한 쌍의 제로 평균 벡터를 생성하기 위해 간단한 시뮬레이션을 수행 할 수 있습니다 . 아래는 코드입니다. 이것에서 우리는의 출력을 볼 수 있습니다 cor.test
.
k <- 100
n <- 4*k
# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho <- 1/sqrt(1+(n-2)/qval)
# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)
# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2
# Do test
ctst <- cor.test(x,y)
주석에서 요청한 바와 같이, 플롯을 재생성하는 코드는 다음과 같습니다.이 코드는 위의 코드 바로 다음에 실행될 수 있습니다 (그리고 여기에 정의 된 변수 중 일부를 사용함).
png("cortest.png", height=600, width=600)
m <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()